基于閃存的大容量存儲(chǔ)陣列
摘要 大容量、高速度、高密度、低功耗、低成本、高可靠性和靈活性一直是星上記錄設(shè)備信息存儲(chǔ)技術(shù)的主要研究?jī)?nèi)容和追求目標(biāo)。文中研究并實(shí)現(xiàn)了一種基于NAND型Flash的高速大容量固態(tài)存儲(chǔ)系統(tǒng),成果為實(shí)際研制應(yīng)用于星的基于閃存的大容量存儲(chǔ)器奠定了基礎(chǔ),具體較好的指導(dǎo)和借鑒意義。
關(guān)鍵詞 記錄設(shè)備;數(shù)據(jù)存儲(chǔ);大容量;NAND
基于NAND的高速大容量存儲(chǔ)陣列,是作為高速大容量存儲(chǔ)原理樣機(jī)中200 MB速率存儲(chǔ)板的部分,而高速大容量存儲(chǔ)樣機(jī),是針對(duì)星載大容量實(shí)時(shí)存儲(chǔ)需求而進(jìn)行的前期演示研究。
高速大容量存儲(chǔ)原理樣機(jī)由高速接口、存儲(chǔ)控制、存儲(chǔ)陣列及通信母板組成,如圖1所示。
存儲(chǔ)控制器是系統(tǒng)的核心,分為存儲(chǔ)控制一和存儲(chǔ)控制二,兩者都通過(guò)10/100 M以太網(wǎng)絡(luò)與上位機(jī)通信,接收上位機(jī)的指令。其中控制一接收指令后產(chǎn)生高速數(shù)據(jù)源,通過(guò)高速數(shù)據(jù)接口傳至控制二,在上位機(jī)的指令下從而完成高速數(shù)據(jù)緩沖、數(shù)據(jù)速率變換、存儲(chǔ)陣列控制。存儲(chǔ)控制二將收到的上位機(jī)命令進(jìn)行處理后轉(zhuǎn)發(fā)至存儲(chǔ)板,存儲(chǔ)板根據(jù)NFlash的特性進(jìn)行編程存儲(chǔ)。
文中研究重點(diǎn)是基于Nand Flash的200 MB速率存儲(chǔ)板的設(shè)計(jì)與實(shí)現(xiàn)。電路設(shè)計(jì)和Verilog HDL程序,其編譯、調(diào)試、綜合、布線、配置和下載是在ISE 10.1開(kāi)發(fā)平臺(tái)下完成的,功能與時(shí)序仿真在Modelsim 6.2b平臺(tái)下完成。
ISE是集成綜合環(huán)境的簡(jiǎn)稱,它作為Xilinx FPGA/CPLD的綜合性集成設(shè)計(jì)平臺(tái),可以完成整個(gè)FPGA/CPLD開(kāi)發(fā)過(guò)程,其集成的在線邏輯分析儀ChipScopePro更是在硬件設(shè)計(jì)驗(yàn)證方面起到了不可忽略的作用。
1 存儲(chǔ)芯片的介紹
1.1 Nand閃存的選型
全球支持NAND技術(shù)閃存的生產(chǎn)廠商主要有Samsurrg、Toshiba、Fujistu等,其中Samsung呈現(xiàn)出比較突出的技術(shù)優(yōu)勢(shì):容量大、存取速度快、體積小、成本低、芯片間的兼容性好,便于升級(jí)和更新。由于本系統(tǒng)對(duì)高速和大容量的需求,故選用K9WBG08U1M型4GNAND閃存作為存儲(chǔ)陣列的存儲(chǔ)芯片。
1.2 三星K9WBG08U1M型NAND閃存
NFlash內(nèi)部包含了兩個(gè)獨(dú)立的K9KAG08UOM。其基本存儲(chǔ)結(jié)構(gòu)按頁(yè)和塊劃分。K9KAG08UOM芯片每片共有8 192塊,每塊有64頁(yè),共有8 192 ×64=512頁(yè)。每頁(yè)中有4 000+128 Byte的存儲(chǔ)單元,每片的容量約有4×512 kB=2 GB。因此,單片K9KAG08U1M的存儲(chǔ)容量為4GB。[!--empirenews.page--]
由于NAND Flash特殊的基本結(jié)構(gòu),在進(jìn)行讀寫(xiě)操作的時(shí)候,外部控制器不能通過(guò)普通總線的形式對(duì)其內(nèi)部某一位進(jìn)行操作,而是以頁(yè)為最小操作單位,在擦除操作時(shí)以塊為最小操作單位。
對(duì)NAND Flash芯片內(nèi)部的某一頁(yè)進(jìn)行操作時(shí),要先將操作命令字和地址信息寫(xiě)入,芯片才會(huì)根據(jù)操作命令字對(duì)給定地址的存儲(chǔ)單元進(jìn)行相應(yīng)的操作。芯片的主要操作命令字可以查閱芯片手冊(cè)。
K9KAG08UOM的頁(yè)編程寫(xiě)入時(shí)序圖如圖2所示,其中寫(xiě)周期tWC最小為25 ns;地址到數(shù)據(jù)加載的延遲時(shí)間tADL最小為75 ns;編程命令到編程開(kāi)始的延遲時(shí)間tWH最大為100 ns;編程時(shí)間tPROG的典型值為200μs。
設(shè)Flash芯片一頁(yè)的容量為4 224 Byte,按典型時(shí)間計(jì)算,完成一頁(yè)編程寫(xiě)入所需時(shí)間約為
6×25 ns+75 ns+4 224×25 ns+100 ns+300μs=405.95μs
其中,編程命令和數(shù)據(jù)傳送的總時(shí)間為105.95 s,編程時(shí)間為300 s。單片K9KAG08UOM最高數(shù)據(jù)存儲(chǔ)速率為
4 224/405.95μs=10.405 B·μs-1=10.405 MB·s-1
上述時(shí)間是按照最高速度計(jì)算的,實(shí)際使用時(shí)單片存儲(chǔ)器的數(shù)據(jù)存儲(chǔ)速率會(huì)小于它。如果留有足夠的裕度,單片數(shù)據(jù)存儲(chǔ)速率按照5 MB·s-1考慮,則對(duì)于200MB·s-1的要求,需要40片存儲(chǔ)器并行工作,才能滿足實(shí)時(shí)存儲(chǔ)的要求。
2 FPGA芯片的選型
存儲(chǔ)器陣列控制單元利用高性能FPGA實(shí)現(xiàn),它對(duì)器件速度的要求不高,主要是必須提供足夠的IO引腳,具體要求如下:(1)輸入LVDS通道數(shù)為16+2,其中接收8個(gè),發(fā)送8個(gè),高速時(shí)鐘2個(gè)通道。(2)輸入讀寫(xiě)速度:>200 MHz。(3)輸出LVTTL電平的IO數(shù)為(80+24)x 4,其中數(shù)據(jù)80位,控制信號(hào)12位。(4)命令地址等其它低速信號(hào)線為14線。(5)輸出讀寫(xiě)速度>20 MHz。(6)引腳需求數(shù):(16+2)×2+104×4+4+10=466。
擬采用Xilinx公司的Virtex-4系列FPGA可以滿足設(shè)計(jì)要求,如XC4VLX80。其相關(guān)技術(shù)參數(shù):(1)18 kBRAM模塊:200個(gè),3 600 kB。(2)內(nèi)部存儲(chǔ)器讀寫(xiě)速度>500 MHz。(3)LVDS通道數(shù)為384。(4)用戶可利用的IO引腳數(shù)為768。
3 FPGA控制邏輯設(shè)計(jì)
3.1 并行的NAND接口的設(shè)計(jì)
并行操作可以按照需要將多片閃存芯片的數(shù)據(jù)線結(jié)合起來(lái)共同使用,以此提高系統(tǒng)讀寫(xiě)帶寬和讀寫(xiě)效率。在并行系統(tǒng)中,引進(jìn)模塊化的思想,即將多片閃存芯片當(dāng)作一個(gè)模塊,把這個(gè)模塊作為整個(gè)系統(tǒng)最小的數(shù)據(jù)存儲(chǔ)單元,任何操作都是面向這些模塊來(lái)進(jìn)行。也就是說(shuō),多片閃存芯片作為一個(gè)整體,對(duì)外輸出8×n位的數(shù)據(jù)。同時(shí),并行操作也大大提高了系統(tǒng)的操作速度。以下以寫(xiě)4 kByte的數(shù)據(jù)進(jìn)入一個(gè)由5片閃存芯片組成的的模塊為例:當(dāng)只對(duì)一片閃存芯片操作時(shí),典型的寫(xiě)入時(shí)間為200μs。但當(dāng)閃存芯片模塊進(jìn)行操作時(shí),由于是對(duì)模塊內(nèi)的5片芯片進(jìn)行同時(shí)寫(xiě)入,因此系統(tǒng)的整體操作速度提高了4倍。
并行操作的實(shí)現(xiàn)依賴于并行的NAND接口的設(shè)計(jì)。板卡中采用的K9WBG08U1M的IO位寬為8 bit。由上節(jié)的分析可知,對(duì)于200 MB·s-1的要求,需要40片存儲(chǔ)器并行工作,才能滿足實(shí)時(shí)存儲(chǔ)的要求。板上共載有40片NAND,分為4組,每組10片存儲(chǔ)芯片,則單板容量為40×單片存儲(chǔ)容量4 GB。為滿足信號(hào)驅(qū)動(dòng)特性的要求,每5片Flash存儲(chǔ)芯片由FPGA單獨(dú)驅(qū)動(dòng)。[!--empirenews.page--]
由Verilog HDL語(yǔ)言編寫(xiě)模塊后編譯下載,用ChipSeope Pro采集到與NAND芯片的接口控制信號(hào)如圖3所示。
圖3中信號(hào)是第一級(jí)存儲(chǔ)芯片的接口信號(hào),是以cle_wrl的上升沿來(lái)作為觸發(fā)的,其中dio_wrl信號(hào)對(duì)應(yīng)于上面編程時(shí)序圖的I/Ox信號(hào),ale_wrl、cle_wrl、we_wrl、re_wrl、wp_wrl信號(hào)為Flash芯片的地址鎖存、命令鎖存、寫(xiě)使能、讀使能、寫(xiě)保護(hù)信號(hào)。其中寫(xiě)命令h80后的00、40、1B是上位機(jī)通過(guò)控制板發(fā)至存儲(chǔ)板的行地址,由時(shí)序可知,與Flash芯片的所需要的編程時(shí)序一致。
3.2 流水的緩存模塊設(shè)計(jì)
根據(jù)NAND Flash芯片的特點(diǎn),高速數(shù)據(jù)控制模塊的數(shù)據(jù)流按照頁(yè)訪問(wèn)方式進(jìn)行管理。設(shè)計(jì)選取的Flash芯片的頁(yè)大小為4 kB,因此在寫(xiě)入的數(shù)據(jù)進(jìn)入高速數(shù)據(jù)控制模塊后,首先進(jìn)行按照頁(yè)大小進(jìn)行數(shù)據(jù)分割。
在FPGA內(nèi)開(kāi)辟出40個(gè)容量為4 kB的雙口RAM的緩沖區(qū),每10個(gè)為一組,相對(duì)應(yīng)一組Flash陣列中的10片芯片。數(shù)據(jù)傳輸通道工作時(shí)序如圖4所示。
當(dāng)數(shù)據(jù)率為200 MB·s-1時(shí),數(shù)據(jù)傳輸周期是Tc1=5 ns,傳送1頁(yè)的時(shí)間是Tp1=4 096×Tc1=20.48μs,4級(jí)高速FIFO的延遲時(shí)間為△Tm=20 ns。在數(shù)據(jù)傳輸開(kāi)始后,第1個(gè)10頁(yè)數(shù)據(jù)(P1,P3,P5,P7,P9,P11,P13,P15、P17,P19)以200 MB·s-1的速率分別寫(xiě)入對(duì)應(yīng)的存儲(chǔ)器組緩沖區(qū)G0,第2個(gè)10頁(yè)的數(shù)據(jù)以200 MB·s-1的速率分別寫(xiě)入相應(yīng)的存儲(chǔ)器組緩沖區(qū)G1,第3個(gè)10頁(yè)的數(shù)據(jù)以200 MB·s-1的速率分別寫(xiě)入相應(yīng)的存儲(chǔ)器組緩沖區(qū)G2,第4個(gè)10頁(yè)的數(shù)據(jù)以200 MB·s-1的速率分別寫(xiě)入相應(yīng)的存儲(chǔ)器組緩沖區(qū)G3。[!--empirenews.page--]
當(dāng)存儲(chǔ)器組緩沖區(qū)G0寫(xiě)滿之后,同時(shí)啟動(dòng)對(duì)該組內(nèi)的10片F(xiàn)lash的數(shù)據(jù)傳輸然后進(jìn)行編程,編程時(shí)間約為300 s。類似地,當(dāng)存儲(chǔ)器組緩沖區(qū)G1/G2/G3寫(xiě)滿后,也按照相同的發(fā)送啟動(dòng)對(duì)其組內(nèi)的10片F(xiàn)lash的數(shù)據(jù)傳輸和編程。
這種過(guò)程可以看出,對(duì)存儲(chǔ)器組的寫(xiě)入是順序和串行的,而對(duì)存儲(chǔ)器組的讀出是同時(shí)和并行的。利用存儲(chǔ)器組緩沖區(qū)的寫(xiě)入和讀出速度之差,將輸入數(shù)據(jù)速率降低為20 MB·s-1,同時(shí)又不會(huì)丟失數(shù)據(jù)。按照上述設(shè)計(jì),后續(xù)的數(shù)據(jù)也以存儲(chǔ)器組為單位,交替的被分配給4個(gè)存儲(chǔ)器組的Flash陣列,并且完成對(duì)它的編程。數(shù)據(jù)緩存RAM組第一組與第二組各取一片的示意圖如圖5所示。
4 調(diào)試問(wèn)題及其解決方案
4.1 行與數(shù)據(jù)不同步問(wèn)題
存儲(chǔ)板需要從控制板接收行信號(hào)和數(shù)據(jù),其中行信號(hào)與數(shù)據(jù)是同步的傳輸?shù)?,但是在?shí)際的存儲(chǔ)板接收數(shù)據(jù)采集的結(jié)果來(lái)看,行信號(hào)下的數(shù)據(jù)有時(shí)會(huì)丟失,有時(shí)會(huì)錯(cuò)亂,情況不太確定。而存儲(chǔ)板與控制板的接口中,存儲(chǔ)板接收控制板發(fā)送的寫(xiě)命令后,會(huì)在行信號(hào)的觸發(fā)下進(jìn)行寫(xiě)入操作,這種不確定性造成了整個(gè)Flash中數(shù)據(jù)的混亂。
4.2 異步時(shí)鐘域數(shù)據(jù)同步的思想
查閱資料后,發(fā)現(xiàn)這是屬于異步時(shí)鐘域同步問(wèn)題中的同頻異相問(wèn)題。行信號(hào)與數(shù)據(jù)在傳輸過(guò)程中由于路徑的不同,造成兩者相位出現(xiàn)了偏差。而且在編程初期,為程序簡(jiǎn)單,在數(shù)據(jù)進(jìn)行存儲(chǔ)板時(shí),未在隨路時(shí)鐘的控制下進(jìn)入FIFO緩存,由此造成數(shù)據(jù)與行的不同步。選取的觸決辦法是在數(shù)據(jù)進(jìn)入雙口RAM緩存以前,用隨路時(shí)鐘對(duì)數(shù)據(jù)采樣兩次,即通常所述的用寄存器打兩次。這樣的做法可以有效地減少亞穩(wěn)態(tài)的傳播,使后級(jí)電路數(shù)據(jù)都是有效電平值。
5 結(jié)束語(yǔ)
文中介紹了基于Virtex-4為控制核心的以NAND Flash芯片為基本存儲(chǔ)單元所構(gòu)成的大容量數(shù)據(jù)存儲(chǔ)系統(tǒng),對(duì)固態(tài)存儲(chǔ)技術(shù)進(jìn)行了探索。重點(diǎn)在于FPGA內(nèi)部實(shí)現(xiàn)了并行流水處理技術(shù),將高速數(shù)據(jù)無(wú)丟失地存入相對(duì)慢速的Flash芯片中。本文是在實(shí)際工程項(xiàng)目的基礎(chǔ)上完成的,經(jīng)過(guò)實(shí)踐檢驗(yàn),達(dá)到了系統(tǒng)設(shè)計(jì)要求。