基于閃存的大容量存儲(chǔ)陣列

時(shí)間：2012-04-26 04:40:13

關(guān)鍵字：大容量存儲(chǔ) BSP 存儲(chǔ)器編程

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]基于閃存的大容量存儲(chǔ)陣列

摘要大容量、高速度、高密度、低功耗、低成本、高可靠性和靈活性一直是星上記錄設(shè)備信息存儲(chǔ)技術(shù)的主要研究?jī)?nèi)容和追求目標(biāo)。文中研究并實(shí)現(xiàn)了一種基于NAND型Flash的高速大容量固態(tài)存儲(chǔ)系統(tǒng)，成果為實(shí)際研制應(yīng)用于星的基于閃存的大容量存儲(chǔ)器奠定了基礎(chǔ)，具體較好的指導(dǎo)和借鑒意義。
關(guān)鍵詞記錄設(shè)備；數(shù)據(jù)存儲(chǔ)；大容量；NAND

基于NAND的高速大容量存儲(chǔ)陣列，是作為高速大容量存儲(chǔ)原理樣機(jī)中200 MB速率存儲(chǔ)板的部分，而高速大容量存儲(chǔ)樣機(jī)，是針對(duì)星載大容量實(shí)時(shí)存儲(chǔ)需求而進(jìn)行的前期演示研究。
高速大容量存儲(chǔ)原理樣機(jī)由高速接口、存儲(chǔ)控制、存儲(chǔ)陣列及通信母板組成，如圖1所示。

    存儲(chǔ)控制器是系統(tǒng)的核心，分為存儲(chǔ)控制一和存儲(chǔ)控制二，兩者都通過(guò)10／100 M以太網(wǎng)絡(luò)與上位機(jī)通信，接收上位機(jī)的指令。其中控制一接收指令后產(chǎn)生高速數(shù)據(jù)源，通過(guò)高速數(shù)據(jù)接口傳至控制二，在上位機(jī)的指令下從而完成高速數(shù)據(jù)緩沖、數(shù)據(jù)速率變換、存儲(chǔ)陣列控制。存儲(chǔ)控制二將收到的上位機(jī)命令進(jìn)行處理后轉(zhuǎn)發(fā)至存儲(chǔ)板，存儲(chǔ)板根據(jù)NFlash的特性進(jìn)行編程存儲(chǔ)。
    文中研究重點(diǎn)是基于Nand Flash的200 MB速率存儲(chǔ)板的設(shè)計(jì)與實(shí)現(xiàn)。電路設(shè)計(jì)和Verilog HDL程序，其編譯、調(diào)試、綜合、布線、配置和下載是在ISE 10．1開(kāi)發(fā)平臺(tái)下完成的，功能與時(shí)序仿真在Modelsim 6．2b平臺(tái)下完成。
    ISE是集成綜合環(huán)境的簡(jiǎn)稱，它作為Xilinx FPGA／CPLD的綜合性集成設(shè)計(jì)平臺(tái)，可以完成整個(gè)FPGA／CPLD開(kāi)發(fā)過(guò)程，其集成的在線邏輯分析儀ChipScopePro更是在硬件設(shè)計(jì)驗(yàn)證方面起到了不可忽略的作用。

1 存儲(chǔ)芯片的介紹
1．1 Nand閃存的選型
    全球支持NAND技術(shù)閃存的生產(chǎn)廠商主要有Samsurrg、Toshiba、Fujistu等，其中Samsung呈現(xiàn)出比較突出的技術(shù)優(yōu)勢(shì)：容量大、存取速度快、體積小、成本低、芯片間的兼容性好，便于升級(jí)和更新。由于本系統(tǒng)對(duì)高速和大容量的需求，故選用K9WBG08U1M型4GNAND閃存作為存儲(chǔ)陣列的存儲(chǔ)芯片。
1．2 三星K9WBG08U1M型NAND閃存
    NFlash內(nèi)部包含了兩個(gè)獨(dú)立的K9KAG08UOM。其基本存儲(chǔ)結(jié)構(gòu)按頁(yè)和塊劃分。K9KAG08UOM芯片每片共有8 192塊，每塊有64頁(yè)，共有8 192 ×64=512頁(yè)。每頁(yè)中有4 000+128 Byte的存儲(chǔ)單元，每片的容量約有4×512 kB=2 GB。因此，單片K9KAG08U1M的存儲(chǔ)容量為4GB。[!--empirenews.page--]
    由于NAND Flash特殊的基本結(jié)構(gòu)，在進(jìn)行讀寫(xiě)操作的時(shí)候，外部控制器不能通過(guò)普通總線的形式對(duì)其內(nèi)部某一位進(jìn)行操作，而是以頁(yè)為最小操作單位，在擦除操作時(shí)以塊為最小操作單位。
    對(duì)NAND Flash芯片內(nèi)部的某一頁(yè)進(jìn)行操作時(shí)，要先將操作命令字和地址信息寫(xiě)入，芯片才會(huì)根據(jù)操作命令字對(duì)給定地址的存儲(chǔ)單元進(jìn)行相應(yīng)的操作。芯片的主要操作命令字可以查閱芯片手冊(cè)。
    K9KAG08UOM的頁(yè)編程寫(xiě)入時(shí)序圖如圖2所示，其中寫(xiě)周期tWC最小為25 ns；地址到數(shù)據(jù)加載的延遲時(shí)間tADL最小為75 ns；編程命令到編程開(kāi)始的延遲時(shí)間tWH最大為100 ns；編程時(shí)間tPROG的典型值為200μs。

    設(shè)Flash芯片一頁(yè)的容量為4 224 Byte，按典型時(shí)間計(jì)算，完成一頁(yè)編程寫(xiě)入所需時(shí)間約為
    6×25 ns+75 ns+4 224×25 ns+100 ns+300μs=405．95μs
    其中，編程命令和數(shù)據(jù)傳送的總時(shí)間為105．95 s，編程時(shí)間為300 s。單片K9KAG08UOM最高數(shù)據(jù)存儲(chǔ)速率為
    4 224／405．95μs=10．405 B·μs-1=10．405 MB·s-1
    上述時(shí)間是按照最高速度計(jì)算的，實(shí)際使用時(shí)單片存儲(chǔ)器的數(shù)據(jù)存儲(chǔ)速率會(huì)小于它。如果留有足夠的裕度，單片數(shù)據(jù)存儲(chǔ)速率按照5 MB·s-1考慮，則對(duì)于200MB·s-1的要求，需要40片存儲(chǔ)器并行工作，才能滿足實(shí)時(shí)存儲(chǔ)的要求。

2 FPGA芯片的選型
    存儲(chǔ)器陣列控制單元利用高性能FPGA實(shí)現(xiàn)，它對(duì)器件速度的要求不高，主要是必須提供足夠的IO引腳，具體要求如下：(1)輸入LVDS通道數(shù)為16+2，其中接收8個(gè)，發(fā)送8個(gè)，高速時(shí)鐘2個(gè)通道。(2)輸入讀寫(xiě)速度：>200 MHz。(3)輸出LVTTL電平的IO數(shù)為(80+24)x 4，其中數(shù)據(jù)80位，控制信號(hào)12位。(4)命令地址等其它低速信號(hào)線為14線。(5)輸出讀寫(xiě)速度>20 MHz。(6)引腳需求數(shù)：(16+2)×2+104×4+4+10=466。
    擬采用Xilinx公司的Virtex-4系列FPGA可以滿足設(shè)計(jì)要求，如XC4VLX80。其相關(guān)技術(shù)參數(shù)：(1)18 kBRAM模塊：200個(gè)，3 600 kB。(2)內(nèi)部存儲(chǔ)器讀寫(xiě)速度>500 MHz。(3)LVDS通道數(shù)為384。(4)用戶可利用的IO引腳數(shù)為768。

3 FPGA控制邏輯設(shè)計(jì)
3．1 并行的NAND接口的設(shè)計(jì)
    并行操作可以按照需要將多片閃存芯片的數(shù)據(jù)線結(jié)合起來(lái)共同使用，以此提高系統(tǒng)讀寫(xiě)帶寬和讀寫(xiě)效率。在并行系統(tǒng)中，引進(jìn)模塊化的思想，即將多片閃存芯片當(dāng)作一個(gè)模塊，把這個(gè)模塊作為整個(gè)系統(tǒng)最小的數(shù)據(jù)存儲(chǔ)單元，任何操作都是面向這些模塊來(lái)進(jìn)行。也就是說(shuō)，多片閃存芯片作為一個(gè)整體，對(duì)外輸出8×n位的數(shù)據(jù)。同時(shí)，并行操作也大大提高了系統(tǒng)的操作速度。以下以寫(xiě)4 kByte的數(shù)據(jù)進(jìn)入一個(gè)由5片閃存芯片組成的的模塊為例：當(dāng)只對(duì)一片閃存芯片操作時(shí)，典型的寫(xiě)入時(shí)間為200μs。但當(dāng)閃存芯片模塊進(jìn)行操作時(shí)，由于是對(duì)模塊內(nèi)的5片芯片進(jìn)行同時(shí)寫(xiě)入，因此系統(tǒng)的整體操作速度提高了4倍。
    并行操作的實(shí)現(xiàn)依賴于并行的NAND接口的設(shè)計(jì)。板卡中采用的K9WBG08U1M的IO位寬為8 bit。由上節(jié)的分析可知，對(duì)于200 MB·s-1的要求，需要40片存儲(chǔ)器并行工作，才能滿足實(shí)時(shí)存儲(chǔ)的要求。板上共載有40片NAND，分為4組，每組10片存儲(chǔ)芯片，則單板容量為40×單片存儲(chǔ)容量4 GB。為滿足信號(hào)驅(qū)動(dòng)特性的要求，每5片Flash存儲(chǔ)芯片由FPGA單獨(dú)驅(qū)動(dòng)。[!--empirenews.page--]
    由Verilog HDL語(yǔ)言編寫(xiě)模塊后編譯下載，用ChipSeope Pro采集到與NAND芯片的接口控制信號(hào)如圖3所示。

    圖3中信號(hào)是第一級(jí)存儲(chǔ)芯片的接口信號(hào)，是以cle_wrl的上升沿來(lái)作為觸發(fā)的，其中dio_wrl信號(hào)對(duì)應(yīng)于上面編程時(shí)序圖的I／Ox信號(hào)，ale_wrl、cle_wrl、we_wrl、re_wrl、wp_wrl信號(hào)為Flash芯片的地址鎖存、命令鎖存、寫(xiě)使能、讀使能、寫(xiě)保護(hù)信號(hào)。其中寫(xiě)命令h80后的00、40、1B是上位機(jī)通過(guò)控制板發(fā)至存儲(chǔ)板的行地址，由時(shí)序可知，與Flash芯片的所需要的編程時(shí)序一致。
3．2 流水的緩存模塊設(shè)計(jì)
    根據(jù)NAND Flash芯片的特點(diǎn)，高速數(shù)據(jù)控制模塊的數(shù)據(jù)流按照頁(yè)訪問(wèn)方式進(jìn)行管理。設(shè)計(jì)選取的Flash芯片的頁(yè)大小為4 kB，因此在寫(xiě)入的數(shù)據(jù)進(jìn)入高速數(shù)據(jù)控制模塊后，首先進(jìn)行按照頁(yè)大小進(jìn)行數(shù)據(jù)分割。
    在FPGA內(nèi)開(kāi)辟出40個(gè)容量為4 kB的雙口RAM的緩沖區(qū)，每10個(gè)為一組，相對(duì)應(yīng)一組Flash陣列中的10片芯片。數(shù)據(jù)傳輸通道工作時(shí)序如圖4所示。

當(dāng)數(shù)據(jù)率為200 MB·s-1時(shí)，數(shù)據(jù)傳輸周期是Tc1=5 ns，傳送1頁(yè)的時(shí)間是Tp1=4 096×Tc1=20．48μs，4級(jí)高速FIFO的延遲時(shí)間為△Tm=20 ns。在數(shù)據(jù)傳輸開(kāi)始后，第1個(gè)10頁(yè)數(shù)據(jù)(P1，P3，P5，P7，P9，P11，P13，P15、P17，P19)以200 MB·s-1的速率分別寫(xiě)入對(duì)應(yīng)的存儲(chǔ)器組緩沖區(qū)G0，第2個(gè)10頁(yè)的數(shù)據(jù)以200 MB·s-1的速率分別寫(xiě)入相應(yīng)的存儲(chǔ)器組緩沖區(qū)G1，第3個(gè)10頁(yè)的數(shù)據(jù)以200 MB·s-1的速率分別寫(xiě)入相應(yīng)的存儲(chǔ)器組緩沖區(qū)G2，第4個(gè)10頁(yè)的數(shù)據(jù)以200 MB·s-1的速率分別寫(xiě)入相應(yīng)的存儲(chǔ)器組緩沖區(qū)G3。[!--empirenews.page--]
當(dāng)存儲(chǔ)器組緩沖區(qū)G0寫(xiě)滿之后，同時(shí)啟動(dòng)對(duì)該組內(nèi)的10片F(xiàn)lash的數(shù)據(jù)傳輸然后進(jìn)行編程，編程時(shí)間約為300 s。類似地，當(dāng)存儲(chǔ)器組緩沖區(qū)G1／G2／G3寫(xiě)滿后，也按照相同的發(fā)送啟動(dòng)對(duì)其組內(nèi)的10片F(xiàn)lash的數(shù)據(jù)傳輸和編程。

    這種過(guò)程可以看出，對(duì)存儲(chǔ)器組的寫(xiě)入是順序和串行的，而對(duì)存儲(chǔ)器組的讀出是同時(shí)和并行的。利用存儲(chǔ)器組緩沖區(qū)的寫(xiě)入和讀出速度之差，將輸入數(shù)據(jù)速率降低為20 MB·s-1，同時(shí)又不會(huì)丟失數(shù)據(jù)。按照上述設(shè)計(jì)，后續(xù)的數(shù)據(jù)也以存儲(chǔ)器組為單位，交替的被分配給4個(gè)存儲(chǔ)器組的Flash陣列，并且完成對(duì)它的編程。數(shù)據(jù)緩存RAM組第一組與第二組各取一片的示意圖如圖5所示。

4 調(diào)試問(wèn)題及其解決方案
4．1 行與數(shù)據(jù)不同步問(wèn)題
    存儲(chǔ)板需要從控制板接收行信號(hào)和數(shù)據(jù)，其中行信號(hào)與數(shù)據(jù)是同步的傳輸?shù)?，但是在?shí)際的存儲(chǔ)板接收數(shù)據(jù)采集的結(jié)果來(lái)看，行信號(hào)下的數(shù)據(jù)有時(shí)會(huì)丟失，有時(shí)會(huì)錯(cuò)亂，情況不太確定。而存儲(chǔ)板與控制板的接口中，存儲(chǔ)板接收控制板發(fā)送的寫(xiě)命令后，會(huì)在行信號(hào)的觸發(fā)下進(jìn)行寫(xiě)入操作，這種不確定性造成了整個(gè)Flash中數(shù)據(jù)的混亂。
4．2 異步時(shí)鐘域數(shù)據(jù)同步的思想
    查閱資料后，發(fā)現(xiàn)這是屬于異步時(shí)鐘域同步問(wèn)題中的同頻異相問(wèn)題。行信號(hào)與數(shù)據(jù)在傳輸過(guò)程中由于路徑的不同，造成兩者相位出現(xiàn)了偏差。而且在編程初期，為程序簡(jiǎn)單，在數(shù)據(jù)進(jìn)行存儲(chǔ)板時(shí)，未在隨路時(shí)鐘的控制下進(jìn)入FIFO緩存，由此造成數(shù)據(jù)與行的不同步。選取的觸決辦法是在數(shù)據(jù)進(jìn)入雙口RAM緩存以前，用隨路時(shí)鐘對(duì)數(shù)據(jù)采樣兩次，即通常所述的用寄存器打兩次。這樣的做法可以有效地減少亞穩(wěn)態(tài)的傳播，使后級(jí)電路數(shù)據(jù)都是有效電平值。

5 結(jié)束語(yǔ)
    文中介紹了基于Virtex-4為控制核心的以NAND Flash芯片為基本存儲(chǔ)單元所構(gòu)成的大容量數(shù)據(jù)存儲(chǔ)系統(tǒng)，對(duì)固態(tài)存儲(chǔ)技術(shù)進(jìn)行了探索。重點(diǎn)在于FPGA內(nèi)部實(shí)現(xiàn)了并行流水處理技術(shù)，將高速數(shù)據(jù)無(wú)丟失地存入相對(duì)慢速的Flash芯片中。本文是在實(shí)際工程項(xiàng)目的基礎(chǔ)上完成的，經(jīng)過(guò)實(shí)踐檢驗(yàn)，達(dá)到了系統(tǒng)設(shè)計(jì)要求。