摘要 大容量、高速度、高密度、低功耗、低成本、高可靠性和靈活性一直是星上記錄設備信息存儲技術(shù)的主要研究內(nèi)容和追求目標。文中研究并實現(xiàn)了一種基于NAND型Flash的高速大容量固態(tài)存儲系統(tǒng),成果為實際研制應用于星的基于閃存的大容量存儲器奠定了基礎,具體較好的指導和借鑒意義。
關鍵詞 記錄設備;數(shù)據(jù)存儲;大容量;NAND
基于NAND的高速大容量存儲陣列,是作為高速大容量存儲原理樣機中200 MB速率存儲板的部分,而高速大容量存儲樣機,是針對星載大容量實時存儲需求而進行的前期演示研究。
高速大容量存儲原理樣機由高速接口、存儲控制、存儲陣列及通信母板組成,如圖1所示。
存儲控制器是系統(tǒng)的核心,分為存儲控制一和存儲控制二,兩者都通過10/100 M以太網(wǎng)絡與上位機通信,接收上位機的指令。其中控制一接收指令后產(chǎn)生高速數(shù)據(jù)源,通過高速數(shù)據(jù)接口傳至控制二,在上位機的指令下從而完成高速數(shù)據(jù)緩沖、數(shù)據(jù)速率變換、存儲陣列控制。存儲控制二將收到的上位機命令進行處理后轉(zhuǎn)發(fā)至存儲板,存儲板根據(jù)NFlash的特性進行編程存儲。
文中研究重點是基于Nand Flash的200 MB速率存儲板的設計與實現(xiàn)。電路設計和Verilog HDL程序,其編譯、調(diào)試、綜合、布線、配置和下載是在ISE 10.1開發(fā)平臺下完成的,功能與時序仿真在Modelsim 6.2b平臺下完成。
ISE是集成綜合環(huán)境的簡稱,它作為Xilinx FPGA/CPLD的綜合性集成設計平臺,可以完成整個FPGA/CPLD開發(fā)過程,其集成的在線邏輯分析儀ChipScopePro更是在硬件設計驗證方面起到了不可忽略的作用。
1 存儲芯片的介紹
1.1 Nand閃存的選型
全球支持NAND技術(shù)閃存的生產(chǎn)廠商主要有Samsurrg、Toshiba、Fujistu等,其中Samsung呈現(xiàn)出比較突出的技術(shù)優(yōu)勢:容量大、存取速度快、體積小、成本低、芯片間的兼容性好,便于升級和更新。由于本系統(tǒng)對高速和大容量的需求,故選用K9WBG08U1M型4GNAND閃存作為存儲陣列的存儲芯片。
1.2 三星K9WBG08U1M型NAND閃存
NFlash內(nèi)部包含了兩個獨立的K9KAG08UOM。其基本存儲結(jié)構(gòu)按頁和塊劃分。K9KAG08UOM芯片每片共有8 192塊,每塊有64頁,共有8 192 ×64=512頁。每頁中有4 000+128 Byte的存儲單元,每片的容量約有4×512 kB=2 GB。因此,單片K9KAG08U1M的存儲容量為4GB。[!--empirenews.page--]
由于NAND Flash特殊的基本結(jié)構(gòu),在進行讀寫操作的時候,外部控制器不能通過普通總線的形式對其內(nèi)部某一位進行操作,而是以頁為最小操作單位,在擦除操作時以塊為最小操作單位。
對NAND Flash芯片內(nèi)部的某一頁進行操作時,要先將操作命令字和地址信息寫入,芯片才會根據(jù)操作命令字對給定地址的存儲單元進行相應的操作。芯片的主要操作命令字可以查閱芯片手冊。
K9KAG08UOM的頁編程寫入時序圖如圖2所示,其中寫周期tWC最小為25 ns;地址到數(shù)據(jù)加載的延遲時間tADL最小為75 ns;編程命令到編程開始的延遲時間tWH最大為100 ns;編程時間tPROG的典型值為200μs。
設Flash芯片一頁的容量為4 224 Byte,按典型時間計算,完成一頁編程寫入所需時間約為
6×25 ns+75 ns+4 224×25 ns+100 ns+300μs=405.95μs
其中,編程命令和數(shù)據(jù)傳送的總時間為105.95 s,編程時間為300 s。單片K9KAG08UOM最高數(shù)據(jù)存儲速率為
4 224/405.95μs=10.405 B·μs-1=10.405 MB·s-1
上述時間是按照最高速度計算的,實際使用時單片存儲器的數(shù)據(jù)存儲速率會小于它。如果留有足夠的裕度,單片數(shù)據(jù)存儲速率按照5 MB·s-1考慮,則對于200MB·s-1的要求,需要40片存儲器并行工作,才能滿足實時存儲的要求。
2 FPGA芯片的選型
存儲器陣列控制單元利用高性能FPGA實現(xiàn),它對器件速度的要求不高,主要是必須提供足夠的IO引腳,具體要求如下:(1)輸入LVDS通道數(shù)為16+2,其中接收8個,發(fā)送8個,高速時鐘2個通道。(2)輸入讀寫速度:>200 MHz。(3)輸出LVTTL電平的IO數(shù)為(80+24)x 4,其中數(shù)據(jù)80位,控制信號12位。(4)命令地址等其它低速信號線為14線。(5)輸出讀寫速度>20 MHz。(6)引腳需求數(shù):(16+2)×2+104×4+4+10=466。
擬采用Xilinx公司的Virtex-4系列FPGA可以滿足設計要求,如XC4VLX80。其相關技術(shù)參數(shù):(1)18 kBRAM模塊:200個,3 600 kB。(2)內(nèi)部存儲器讀寫速度>500 MHz。(3)LVDS通道數(shù)為384。(4)用戶可利用的IO引腳數(shù)為768。
3 FPGA控制邏輯設計
3.1 并行的NAND接口的設計
并行操作可以按照需要將多片閃存芯片的數(shù)據(jù)線結(jié)合起來共同使用,以此提高系統(tǒng)讀寫帶寬和讀寫效率。在并行系統(tǒng)中,引進模塊化的思想,即將多片閃存芯片當作一個模塊,把這個模塊作為整個系統(tǒng)最小的數(shù)據(jù)存儲單元,任何操作都是面向這些模塊來進行。也就是說,多片閃存芯片作為一個整體,對外輸出8×n位的數(shù)據(jù)。同時,并行操作也大大提高了系統(tǒng)的操作速度。以下以寫4 kByte的數(shù)據(jù)進入一個由5片閃存芯片組成的的模塊為例:當只對一片閃存芯片操作時,典型的寫入時間為200μs。但當閃存芯片模塊進行操作時,由于是對模塊內(nèi)的5片芯片進行同時寫入,因此系統(tǒng)的整體操作速度提高了4倍。
并行操作的實現(xiàn)依賴于并行的NAND接口的設計。板卡中采用的K9WBG08U1M的IO位寬為8 bit。由上節(jié)的分析可知,對于200 MB·s-1的要求,需要40片存儲器并行工作,才能滿足實時存儲的要求。板上共載有40片NAND,分為4組,每組10片存儲芯片,則單板容量為40×單片存儲容量4 GB。為滿足信號驅(qū)動特性的要求,每5片Flash存儲芯片由FPGA單獨驅(qū)動。[!--empirenews.page--]
由Verilog HDL語言編寫模塊后編譯下載,用ChipSeope Pro采集到與NAND芯片的接口控制信號如圖3所示。
圖3中信號是第一級存儲芯片的接口信號,是以cle_wrl的上升沿來作為觸發(fā)的,其中dio_wrl信號對應于上面編程時序圖的I/Ox信號,ale_wrl、cle_wrl、we_wrl、re_wrl、wp_wrl信號為Flash芯片的地址鎖存、命令鎖存、寫使能、讀使能、寫保護信號。其中寫命令h80后的00、40、1B是上位機通過控制板發(fā)至存儲板的行地址,由時序可知,與Flash芯片的所需要的編程時序一致。
3.2 流水的緩存模塊設計
根據(jù)NAND Flash芯片的特點,高速數(shù)據(jù)控制模塊的數(shù)據(jù)流按照頁訪問方式進行管理。設計選取的Flash芯片的頁大小為4 kB,因此在寫入的數(shù)據(jù)進入高速數(shù)據(jù)控制模塊后,首先進行按照頁大小進行數(shù)據(jù)分割。
在FPGA內(nèi)開辟出40個容量為4 kB的雙口RAM的緩沖區(qū),每10個為一組,相對應一組Flash陣列中的10片芯片。數(shù)據(jù)傳輸通道工作時序如圖4所示。
當數(shù)據(jù)率為200 MB·s-1時,數(shù)據(jù)傳輸周期是Tc1=5 ns,傳送1頁的時間是Tp1=4 096×Tc1=20.48μs,4級高速FIFO的延遲時間為△Tm=20 ns。在數(shù)據(jù)傳輸開始后,第1個10頁數(shù)據(jù)(P1,P3,P5,P7,P9,P11,P13,P15、P17,P19)以200 MB·s-1的速率分別寫入對應的存儲器組緩沖區(qū)G0,第2個10頁的數(shù)據(jù)以200 MB·s-1的速率分別寫入相應的存儲器組緩沖區(qū)G1,第3個10頁的數(shù)據(jù)以200 MB·s-1的速率分別寫入相應的存儲器組緩沖區(qū)G2,第4個10頁的數(shù)據(jù)以200 MB·s-1的速率分別寫入相應的存儲器組緩沖區(qū)G3。[!--empirenews.page--]
當存儲器組緩沖區(qū)G0寫滿之后,同時啟動對該組內(nèi)的10片F(xiàn)lash的數(shù)據(jù)傳輸然后進行編程,編程時間約為300 s。類似地,當存儲器組緩沖區(qū)G1/G2/G3寫滿后,也按照相同的發(fā)送啟動對其組內(nèi)的10片F(xiàn)lash的數(shù)據(jù)傳輸和編程。
這種過程可以看出,對存儲器組的寫入是順序和串行的,而對存儲器組的讀出是同時和并行的。利用存儲器組緩沖區(qū)的寫入和讀出速度之差,將輸入數(shù)據(jù)速率降低為20 MB·s-1,同時又不會丟失數(shù)據(jù)。按照上述設計,后續(xù)的數(shù)據(jù)也以存儲器組為單位,交替的被分配給4個存儲器組的Flash陣列,并且完成對它的編程。數(shù)據(jù)緩存RAM組第一組與第二組各取一片的示意圖如圖5所示。
4 調(diào)試問題及其解決方案
4.1 行與數(shù)據(jù)不同步問題
存儲板需要從控制板接收行信號和數(shù)據(jù),其中行信號與數(shù)據(jù)是同步的傳輸?shù)?,但是在實際的存儲板接收數(shù)據(jù)采集的結(jié)果來看,行信號下的數(shù)據(jù)有時會丟失,有時會錯亂,情況不太確定。而存儲板與控制板的接口中,存儲板接收控制板發(fā)送的寫命令后,會在行信號的觸發(fā)下進行寫入操作,這種不確定性造成了整個Flash中數(shù)據(jù)的混亂。
4.2 異步時鐘域數(shù)據(jù)同步的思想
查閱資料后,發(fā)現(xiàn)這是屬于異步時鐘域同步問題中的同頻異相問題。行信號與數(shù)據(jù)在傳輸過程中由于路徑的不同,造成兩者相位出現(xiàn)了偏差。而且在編程初期,為程序簡單,在數(shù)據(jù)進行存儲板時,未在隨路時鐘的控制下進入FIFO緩存,由此造成數(shù)據(jù)與行的不同步。選取的觸決辦法是在數(shù)據(jù)進入雙口RAM緩存以前,用隨路時鐘對數(shù)據(jù)采樣兩次,即通常所述的用寄存器打兩次。這樣的做法可以有效地減少亞穩(wěn)態(tài)的傳播,使后級電路數(shù)據(jù)都是有效電平值。
5 結(jié)束語
文中介紹了基于Virtex-4為控制核心的以NAND Flash芯片為基本存儲單元所構(gòu)成的大容量數(shù)據(jù)存儲系統(tǒng),對固態(tài)存儲技術(shù)進行了探索。重點在于FPGA內(nèi)部實現(xiàn)了并行流水處理技術(shù),將高速數(shù)據(jù)無丟失地存入相對慢速的Flash芯片中。本文是在實際工程項目的基礎上完成的,經(jīng)過實踐檢驗,達到了系統(tǒng)設計要求。