淺談閃存控制器架構(gòu)
分析閃存控制器的架構(gòu),首先得了解SSD。一般來(lái)說(shuō)SSD的存儲(chǔ)介質(zhì)分為兩種,一種是采用閃存(Flash芯片)作為存儲(chǔ)介質(zhì),另外一種是采用DRAM作為存儲(chǔ)介質(zhì)。我們通常所說(shuō)的SSD就是基于閃存的固態(tài)硬盤,其采用FLASH芯片作為存儲(chǔ)介質(zhì)。SSD的基本組成結(jié)構(gòu)包括Flash顆粒和Flash控制器,F(xiàn)lash控制器中有芯片,負(fù)責(zé)Flash的讀寫、磨損均衡、壽命監(jiān)控等等。
Flash控制器的主要的工作任務(wù)包括三大方面:一是后端訪問(wèn)Flash,管理后端Flash顆粒,包括各種參數(shù)控制和數(shù)據(jù)IO; 二是前端提供訪問(wèn)接口和協(xié)議:實(shí)現(xiàn)對(duì)應(yīng)的SAS/SATA target協(xié)議端或者NVMe協(xié)議端, 獲取Host發(fā)出的IO指令并解碼和生成內(nèi)部私有數(shù)據(jù)結(jié)果等待執(zhí)行;三是FTL層核心處理。下面我們具體來(lái)介紹一下Flash 控制器是怎樣做這幾件事的。
第一,后端訪問(wèn)Flash的操作內(nèi)容
后端訪問(wèn)Flash首先必須提到的是閃存通道控制器。這個(gè)控制器里面有多個(gè)通道,每個(gè)通道掛多片F(xiàn)lash。它與后端Flash顆粒之間存在托管協(xié)議。數(shù)據(jù)寫入Flash的時(shí)候,除了主機(jī)發(fā)送的數(shù)據(jù)或者原始數(shù)據(jù),其他數(shù)據(jù)都必須進(jìn)行ECC校驗(yàn)。ECC是通用的稱謂,里面有多種算法,其中包括糾錯(cuò)率較低的BCH算法,LAPC低密度校驗(yàn)碼等。數(shù)據(jù)讀出的時(shí)候,通過(guò)擾碼,加擾,解擾,看ECC是否出現(xiàn)錯(cuò)誤,若有錯(cuò)則在糾錯(cuò)后將芯片發(fā)到內(nèi)部,供后續(xù)的程序處理。因此,后端訪問(wèn)Flash的主要任務(wù)即是管理后端Flash顆粒,包括各種參數(shù)控制和數(shù)據(jù)IO。
第二,前端提供訪問(wèn)接口和協(xié)議
前端提供訪問(wèn)接口和協(xié)議,跟主機(jī)驅(qū)動(dòng)通信,利用標(biāo)準(zhǔn)格式輸配到系統(tǒng)里面,接收主機(jī)端發(fā)過(guò)來(lái)的指令,即完成、實(shí)現(xiàn)對(duì)應(yīng)的SAS/SATA target協(xié)議端或者NVMe協(xié)議端,獲取Host發(fā)出的IO指令并解碼和生成內(nèi)部私有數(shù)據(jù)結(jié)構(gòu)等待執(zhí)行。如果遵從NVMe標(biāo)準(zhǔn),包括提交命令的方法、完成命令的處理方法等都定好了,包括各種隊(duì)列、隊(duì)列深度,Queue Pair的總體數(shù)量最大可以達(dá)到64K個(gè),隊(duì)列深度也可達(dá)64K個(gè),所以,系統(tǒng)里同時(shí)可能存在64K×64K IO排著,但是目前的系統(tǒng)是用不到這么多Queue的,因?yàn)榈紫碌慕橘|(zhì)速度還不足以支撐。
第三,F(xiàn)TL層——核心層處理
核心層FTL層,是一款Flash控制器的關(guān)鍵競(jìng)爭(zhēng)力所在。它既可以是純軟件算法,包括元數(shù)據(jù)管理,數(shù)據(jù)布局影射、磨損均衡、垃圾回收、緩存策略、片間RAID和掉電元數(shù)據(jù)一致性保障等內(nèi)容。同時(shí),它也可以在進(jìn)行重復(fù)性工作時(shí)輔以硬加速引擎。這是非純軟件的,輔有硬加速的成分在里面。硬加速涉及到所使用的芯片。有的芯片支持硬加速,比如說(shuō)鏈表的維護(hù)。這是因?yàn)樽隼厥諘r(shí)需要要用到鏈表,拿傳統(tǒng)的軟件算法,插入一個(gè)或者追加一些項(xiàng)目,所耗費(fèi)的CPU周期較大,此時(shí)用硬加速并行,再加上一些硬邏輯的加速,則可節(jié)省開銷。
Flash控制器的兩種策略和方式:
現(xiàn)有的Flash控制器可采用兩種方式:一種是少量的強(qiáng)核心加少量硬件加速。所謂強(qiáng)核心就是一個(gè)核心的性能高、頻率高,分支預(yù)判、并行度、單元數(shù)量、執(zhí)行管道,各種參數(shù)都高于一般水平。核心強(qiáng)了以后,硬加速就不需要這么多了,可以用少量的硬加速。
另一種方式則是大量弱核心+大量硬加速。比如說(shuō)16個(gè)核心,每個(gè)核心比較弱,但是能夠增加執(zhí)行的并行度,有16個(gè)并發(fā)核心執(zhí)行,跑16套處理程序,這是兩種架構(gòu)。這是一種多核心協(xié)作架構(gòu)模式,其協(xié)作方式可以是同構(gòu)協(xié)作也可以是異構(gòu)協(xié)作
1. 同構(gòu)協(xié)作就是每個(gè)核心做的事都是完全一樣的,處理的步驟完全一樣。如果你的控制器陣列里面有16個(gè)IO,有16個(gè)核心,每個(gè)核心都能處理一個(gè)IO,這是同構(gòu)協(xié)作。
2. 異構(gòu)協(xié)作則是多個(gè)核心做不同的事情。處理同一個(gè)IO,第一個(gè)IO第一步,第一個(gè)核心處理,這個(gè)核心處理完以后,把這個(gè)IO扔到下一個(gè)核心,再處理下一步,等這個(gè)核心空出來(lái)以后,處理下一個(gè)IO的第一步,這就是所謂的流水線了,所謂的異構(gòu)就是如此。
產(chǎn)品實(shí)例:PMC的FlashtecTM NVMe 控制器
這是PMC的控制器,首先它有一個(gè)片上網(wǎng)絡(luò),網(wǎng)絡(luò)承載16個(gè)CPU核心,每個(gè)核心里面有一個(gè)類似網(wǎng)卡的控制器,網(wǎng)卡連到網(wǎng)絡(luò)上,多個(gè)CPU之間連起來(lái)。簡(jiǎn)單說(shuō)就是4口路由器或者交換機(jī)連起來(lái)的網(wǎng)絡(luò),多個(gè)CPU之間連起來(lái),此外還有硬加速模塊。另外還包括以下幾部分:
RAM控制器,因?yàn)樾酒闲枰幸欢康腞AM放臨時(shí)數(shù)據(jù),寫放大,讀出來(lái)寫進(jìn)去,都要走RAM;
PCIe控制器,這個(gè)是跟前端PCIe對(duì)等的控制器,IO指令從這兒接收過(guò)來(lái);
后端Flash控制器,通過(guò)一定數(shù)量的通道連Flash顆粒,
加速器(包括緩沖加速器),每做一個(gè)操作,都需要有相應(yīng)的內(nèi)存,把數(shù)據(jù)拷到內(nèi)存里面,內(nèi)存的維護(hù)很費(fèi)時(shí)費(fèi)力。比如在X86上運(yùn)行的Linux,其管理內(nèi)存時(shí)需要耗費(fèi)很多的計(jì)算量。對(duì)于閃存,精打細(xì)算,必須把性能做到極致,因此需用到硬加速。
鏈表加速器,用鏈表來(lái)記錄一些信息,哪塊空著,哪塊被應(yīng)用,這塊用軟件維護(hù)很費(fèi)力,所以需要在這里作加速;
XOR加速器,XOR要用硬加速
最后,來(lái)看一下軟件的并行度。16個(gè)核心,PMC提供的參考的固件,當(dāng)然SSD廠商會(huì)開發(fā)自己的固件,把自己優(yōu)化的東西放進(jìn)去,優(yōu)化的算法放進(jìn)去?;旧习诉@么一些程序,每個(gè)IO讀的地址可能有重疊,重疊就需要有一個(gè)鎖定協(xié)調(diào),有管命令解析的,有管啟動(dòng)的,有管日志的,有管磨損均衡的,有管查表的,有管寫數(shù)據(jù)的,管前端的PCIe Manager,還有負(fù)責(zé)boot loader的核心,初始化的配置,需要由它處理,data manager,這是主程序,分析IO指令需要干什么,生成一堆的后續(xù)步驟下發(fā)下去。其實(shí)每一塊都可以跑在一個(gè)核心上,同一個(gè)角色可以復(fù)制多份,充分并行。16個(gè)核心,達(dá)到16份程序并行的運(yùn)行,16個(gè)流水線的Stage,這樣就可以屏蔽處理過(guò)程中的時(shí)延。