平頭哥首顆自研企業(yè)級(jí)SSD主控芯片“鎮(zhèn)岳510”揭秘:更懂云計(jì)算,更懂云上應(yīng)用
掃描二維碼
隨時(shí)隨地手機(jī)看文章
數(shù)據(jù)中心可以看作是一臺(tái)大號(hào)的計(jì)算機(jī),而云計(jì)算同樣也符合馮諾依曼結(jié)構(gòu):數(shù)據(jù)從存儲(chǔ)設(shè)備中取出,通過網(wǎng)絡(luò)傳送到計(jì)算單元,運(yùn)算結(jié)果通過網(wǎng)絡(luò)傳輸至存儲(chǔ)設(shè)備中保存。 因此要實(shí)現(xiàn)更高性能的運(yùn)算,更高效地支持LLM等新興應(yīng)用,算力、網(wǎng)力和存力,三者缺一不可。
當(dāng)算力向著異構(gòu)計(jì)算方向發(fā)展,實(shí)現(xiàn)指數(shù)級(jí)的增加、網(wǎng)絡(luò)向著更快速方向演進(jìn),進(jìn)入400GE、800GE時(shí)代時(shí),作為寸力代表的SSD,又有什么樣的技術(shù)趨勢(shì)?平頭哥在2023年阿里云棲大會(huì)上給出了答案——旗下首顆自研SSD主控芯片“鎮(zhèn)岳510”正式發(fā)布。
云計(jì)算應(yīng)用追新逐日,數(shù)據(jù)基座面臨存力挑戰(zhàn)
存力指的是存儲(chǔ)設(shè)備的能力,主要有性能、能效、可靠性和時(shí)延四個(gè)方面的指標(biāo)。對(duì)于SSD而言,性能通常指的是讀寫帶寬和讀寫IOPS;能效比指的是每消耗一瓦功耗可以提供多少的性能;可靠性指的是SSD的糾錯(cuò)能力,通常用UBER表示,也就是每讀取多少筆數(shù)據(jù)會(huì)出現(xiàn)一次數(shù)據(jù)糾錯(cuò)失??;時(shí)延則是指的SSD從收到命令到返回響應(yīng)的時(shí)間。
據(jù)平頭哥產(chǎn)品總監(jiān)周冠鋒介紹,新興應(yīng)用對(duì)于云計(jì)算中的存力提出了更高的要求。
作為計(jì)算數(shù)據(jù)來源和結(jié)果數(shù)據(jù)的目的地,SSD吞吐率的高低將直接制約整個(gè)計(jì)算系統(tǒng)的性能;云上的一個(gè)業(yè)務(wù)請(qǐng)求通常會(huì)被分散到多個(gè)SSD中并發(fā)執(zhí)行,任何一塊SSD的時(shí)延抖動(dòng)都會(huì)造成這個(gè)那個(gè)業(yè)務(wù)的請(qǐng)求延遲。此外,更高的存儲(chǔ)密度、更好的能效表現(xiàn),同樣不可或缺。
今天發(fā)布的鎮(zhèn)岳510是平頭哥旗下第一顆SSD主控芯片,支持先進(jìn)的PCIe 5.0接口和DDR5.0技術(shù),內(nèi)置玄鐵910 RISC-V多核CPU,采用平頭哥自研緊耦合芯片架構(gòu),對(duì)SSD任務(wù)進(jìn)行高度抽象,可固化任務(wù)硬化為加速算子以提升性能。
據(jù)悉,鎮(zhèn)岳510每秒可處理高達(dá)340萬筆IO,每瓦功耗可提供42萬筆IO訪問。相比目前主流的PCIe 4.0SSD,鎮(zhèn)岳510在相同的性能下,僅主控芯片即每年節(jié)省260萬度電,按照一度電排放0.785千克二氧化碳計(jì)算,每年可減少二氧化碳排放2千噸。
鎮(zhèn)岳510還內(nèi)置了創(chuàng)新的IO自動(dòng)化處理機(jī)制,前端IO解析與處理,由專用硬件模塊自動(dòng)完成,實(shí)現(xiàn)了業(yè)界領(lǐng)先的超低的時(shí)延(4μs),可以帶給應(yīng)用極佳的體驗(yàn),比業(yè)界SSD降低30%以上。
在可靠性方面,鎮(zhèn)岳510內(nèi)置了平頭哥自研的高性能LDPC糾錯(cuò)算法,編碼效率逼近香農(nóng)極限,同時(shí)ErrorFlow相比業(yè)內(nèi)SSD更優(yōu)一個(gè)數(shù)量級(jí);借助平頭哥自研閃存電壓預(yù)測(cè)算法,可以在各種閃存的不同工況、壽命、溫度等條件下,準(zhǔn)確預(yù)測(cè)閃存電壓漂移,進(jìn)一步降低LDPC解碼器的輸入誤碼率。其實(shí)現(xiàn)了低至10^-18的UBER,相當(dāng)于每讀取百億億筆數(shù)據(jù),才可能有一筆數(shù)據(jù)糾錯(cuò)失敗。
雖然算力是越高越好,但其實(shí)不同的上層應(yīng)用,對(duì)于底層的數(shù)據(jù)基座也有著差異化的需求。例如AI推理,更關(guān)注帶寬和時(shí)延這兩個(gè)參數(shù);而AI推理,則更看重IOPS這個(gè)參數(shù)。而說到對(duì)于云上業(yè)務(wù)場(chǎng)景的理解,以及對(duì)于未來云計(jì)算技術(shù)趨勢(shì)的判斷,作為阿里云的獨(dú)立芯片公司,平頭哥是非常了解的。
鎮(zhèn)岳510的定義和架構(gòu):靈活性和高效計(jì)算之間的平衡之術(shù)
為了實(shí)現(xiàn)緊密的軟硬件耦合,從而達(dá)到整體更高的數(shù)據(jù)中心下效能,底層的SSD芯片在設(shè)計(jì)的時(shí)候要充分考慮到上層應(yīng)用的IO模型。
對(duì)于產(chǎn)品定義,平頭哥內(nèi)部架構(gòu)團(tuán)隊(duì)花了超過半年的時(shí)間反復(fù)審度,最終確定了鎮(zhèn)岳510的設(shè)計(jì)目標(biāo),在靈活性和高效之間實(shí)現(xiàn)了最佳的平衡。
首先對(duì)于標(biāo)準(zhǔn)的選擇上,2023年是企業(yè)級(jí)SSD從PCIe4.0向PCIe5.0邁進(jìn)的元年,因此平頭哥提前規(guī)劃了這顆支持PCle5.0的SSD底座芯片。
而在靈活性和高效的平衡上,業(yè)界每一家SSD主控芯片的設(shè)計(jì)都有所不同,主要分為“命令流”和“數(shù)據(jù)流”兩種。所謂的命令流,就是類似于純SoC,更多的依賴CPU跑各種軟件來實(shí)現(xiàn)命令的解析、拆分、各種表象管理以及后端應(yīng)用組裝下發(fā)等工作。這種方式擁有更高的靈活性。所謂的數(shù)據(jù)流,就是類似于當(dāng)前鎮(zhèn)岳510這樣進(jìn)行硬件大幅度卸載的設(shè)計(jì)方案,通過專門的硬件加速器來運(yùn)行特定的工作任務(wù),從而實(shí)現(xiàn)這些任務(wù)的高效穩(wěn)定運(yùn)行。
對(duì)于鎮(zhèn)岳510而言,選擇哪些功能卸載到硬件加速器上去跑,哪些仍然在CPU中去處理,就是一個(gè)非常棘手的問題。把所有的任務(wù)都放在專門硬件加速器中去做,就會(huì)主控芯片的喪失靈活性,而某些工作任務(wù)放在CPU中去處理,又得不到更好的加速。如何取舍?這需要對(duì)于云上應(yīng)用場(chǎng)景的深刻理解。
據(jù)周冠鋒分享,平頭哥的SSD芯片的設(shè)計(jì)團(tuán)隊(duì)在前在設(shè)計(jì)前期是經(jīng)過了大量的多種方案的對(duì)比,最終選擇了當(dāng)前一個(gè)最平均、最平衡的設(shè)計(jì)方案——既能通過硬件加速獲得高效,同時(shí)又把一些關(guān)鍵的軟件任務(wù)仍然留使用CPU來運(yùn)行,這樣獲得靈活性。
為云而生,軟硬件緊密耦合開啟軟件定義閃存時(shí)代
作為一款SSD主控芯片,鎮(zhèn)岳510是為SSD而生,更是了云而生,最終是為了云上應(yīng)用而生。以應(yīng)用作為最終目的,將SSD與數(shù)據(jù)庫進(jìn)行緊密的軟硬件耦合,這才是鎮(zhèn)岳510這塊硬件拼圖的使命。
作為一家云服務(wù)商,阿里云擁有全棧的軟件核心技術(shù),而鎮(zhèn)岳510在芯片層面也和阿里云的軟件層面進(jìn)行了一些配合,實(shí)現(xiàn)諸多對(duì)于云計(jì)算非常有價(jià)值的關(guān)鍵特性。
首先,鎮(zhèn)岳510支持定制化ZNS協(xié)議,通過存儲(chǔ)軟件與NAND特性完美契合,達(dá)到數(shù)據(jù)排布的最優(yōu)化,后臺(tái)操作的最小化,從而進(jìn)一步消除SSD接口稅。
其次,鎮(zhèn)岳510提供了IO粒度的優(yōu)先級(jí)調(diào)度,實(shí)現(xiàn)了全鏈路QoS優(yōu)化。延遲敏感型與帶寬敏感型IO實(shí)現(xiàn)了精細(xì)化的區(qū)分處理,從而提升了延遲敏感型IO的SLA。
第三,鎮(zhèn)岳510支持智能卸載功能。將可靠性計(jì)算任務(wù)卸載至SSD,實(shí)現(xiàn)全路徑存儲(chǔ)語義校驗(yàn),同時(shí)也減輕了服務(wù)器主機(jī)算力開銷。
將采用鎮(zhèn)岳510主控的“鎮(zhèn)岳SSD”與阿里云的統(tǒng)一存儲(chǔ)平臺(tái)“飛天盤古”相結(jié)合,就組成了阿里云從芯片到系統(tǒng)的全棧自研分布式存儲(chǔ)。兩者協(xié)同增強(qiáng)了云存儲(chǔ)的靈活性,并推動(dòng)數(shù)據(jù)中心向軟件定義閃存的方向邁進(jìn)。