從AGI 到互聯(lián)技術(shù)元年,重塑算力世界秩序
作者:奇異摩爾 Kiwimoore
ChatGPT 誕生一年后,以Sora為代表的 AGI 實(shí)現(xiàn)突破性進(jìn)展,再度引爆了高性能計算市場。面對以天為單位飛速迭代的算力需求,以及單個處理器性能的增長困境(Scale up),促使企業(yè)轉(zhuǎn)向擴(kuò)展計算集群規(guī)模,踏上Scale out 之路。從此,行業(yè)所面臨的核心挑戰(zhàn)也從“單個芯片-集群”,“算力-互聯(lián)”轉(zhuǎn)變。伴隨AGI的誕生,互聯(lián)元年同步開啟。
2024年3月5日,互聯(lián)領(lǐng)域先行者奇異摩爾在“奇芯合粒 異往無前”2024春季發(fā)布會上正式推出了基于 Kiwi SoChiplet Platform 的全系列互聯(lián)產(chǎn)品及全棧式互聯(lián)解決方案。該系列產(chǎn)品包含“高性能互聯(lián)芯粒IO Die、高性能互聯(lián)底座 Kiwi 3D Base Die、UCIe 標(biāo)準(zhǔn) Die2Die IP以及網(wǎng)絡(luò)加速芯粒NDSA Family”,全面覆蓋片內(nèi)、片間直至網(wǎng)間的互聯(lián)場景?;贗O Die,奇異摩爾及合作伙伴Ventana宣布共同推出了全球首款服務(wù)器級的RISC-V CPU;同時,奇異摩爾也基于Base Die發(fā)布了全球首款3DIC AI芯片“AI Booster”。
UCIe Board member 陳健在發(fā)布會上表示 “在Deep Learning、大模型時代激增的算力需求、摩爾定律放緩、封裝技術(shù)演進(jìn)”等多種因素的共同作用下,Chiplet和IO Die為代表的互聯(lián)芯粒因在良率、先進(jìn)制程解耦、復(fù)用能力等方面所顯示出的優(yōu)勢,成為了歷史的選擇。基于Chiplet架構(gòu)和通用互聯(lián)標(biāo)準(zhǔn),一個開放性、跨公司、支持規(guī)模化復(fù)用的“貨架芯片”市場正逐步成為全行業(yè)的愿景。
這一愿景依賴于模型創(chuàng)新和無盡的算力需求。如今,從微軟到谷歌,從阿里到字節(jié)跳動,萬卡集群儼然成為大模型訓(xùn)練的標(biāo)配。想支撐更大的模型,算力基礎(chǔ)設(shè)施和生產(chǎn)方式必須同步轉(zhuǎn)變。首先,異構(gòu)加速和超大規(guī)模平臺,使更大規(guī)模的集群設(shè)計成為可能;其次,想通過Scale Out方式提升集群算力,必須從網(wǎng)絡(luò)層面著手,互聯(lián)三要素 “Bandwidth, Efficiency, Workload”缺一不可。
在網(wǎng)絡(luò)側(cè),奇異摩爾自研的高性能網(wǎng)絡(luò)加速芯粒Kiwi NDSA(Network Domain Specific Accelerator)系列,內(nèi)建RoCE V2 高性能 RDMA (Remote Direct Memory Access) 和數(shù)十種卸載/加速引擎,可作為獨(dú)立芯粒,實(shí)現(xiàn)系統(tǒng)不同位置的加速。同時,通過硬件可配置,軟件可編程的靈活軟硬件架構(gòu),能夠滿足客戶對復(fù)雜業(yè)務(wù)場景的多樣化需求。得益于Chiplet、RISC-V和FPGA的靈活組合,Kiwi NDSA 出色的平衡了通用與專用,性能和成本間的矛盾。
據(jù)奇異摩爾產(chǎn)品及解決方案副總裁祝俊東介紹,奇異摩爾NDSA家族產(chǎn)品之一,“NDSA-RN-F” 將于近期問世。作為全球首批200/400G的高性能FPGA RDMA網(wǎng)卡,“NDSA-RN-F”具備極高的集群擴(kuò)展能力,可以大幅提升集群節(jié)點(diǎn)間的東西向流量交互效率,使得更大規(guī)模的集群設(shè)計成為可能。同時擁有us級超低延時,支持約數(shù)十 MQP高并發(fā),性能遠(yuǎn)超同類FPGA產(chǎn)品,并媲美全球標(biāo)桿 ASIC產(chǎn)品。
NDSA家族產(chǎn)品之二,全球首款支持800G帶寬的RDMA NIC Chiplet產(chǎn)品 “NDSA-RN”。其性能更為強(qiáng)勁,除帶寬升級到800G之外,延時也降至ns級,并支持?jǐn)?shù)十GB的超大規(guī)模數(shù)據(jù)包,性能將超越目前全球標(biāo)桿ASIC產(chǎn)品。
網(wǎng)間互聯(lián)的瓶頸與痛點(diǎn),并非為云服務(wù)廠商獨(dú)有。存算一體的環(huán)境中,互聯(lián)芯粒能有效提升系統(tǒng)性能、集成度、可擴(kuò)展性和可靠性。億鑄科技副總裁李明表示,AI大算力芯片競爭核心正逐漸轉(zhuǎn)向 “存儲、算力,破除墻”等挑戰(zhàn)。存算一體在破除“存儲墻”方面具有先天優(yōu)勢。億鑄致力于結(jié)合存算一體+Chiplet芯粒優(yōu)勢,在AI算力芯片產(chǎn)業(yè)格局的基礎(chǔ)上,貢獻(xiàn)更具性價比、能效比、算力發(fā)展空間的AI大算力芯片發(fā)展新路徑。
芯片間互聯(lián)場景,受AI等各類大算力場景的驅(qū)動,計算架構(gòu)將從異構(gòu)計算進(jìn)一步走向多種異構(gòu)融合的超異構(gòu)并行計算,片間互聯(lián)瓶頸進(jìn)一步凸顯。NDSA家族產(chǎn)品之三,奇異摩爾自研的全球首創(chuàng)GPU Link Chiplet “NDSA-G2G”,通過RDMA和D2D技術(shù),在芯片間搭建了高速數(shù)據(jù)交換網(wǎng)絡(luò),可實(shí)現(xiàn)近TB/s的超高速數(shù)據(jù)傳輸,其性能達(dá)到全球領(lǐng)先水平,滿足AI芯片對于片間交換不斷增長的需求。
Die間互聯(lián):Die-to-Die IP
Die間互聯(lián)領(lǐng)域,奇異摩爾宣布將正式發(fā)布全球首批支持 UCIe V1.1 的 Die2Die IP “Kiwi-Link”,互聯(lián)速度高達(dá) 32GT/s,延時低至數(shù)nS。全面支持UCIe、CXL、Streaming等主流協(xié)議,即插即用;同時支持標(biāo)準(zhǔn)封裝/先進(jìn)封裝等多種封裝形態(tài)。
“為達(dá)到貨架芯粒的愿景,開放互通的D2D標(biāo)準(zhǔn)是關(guān)鍵因素” ,陳健介紹,UCIe 最新1.1標(biāo)準(zhǔn)在1.0標(biāo)準(zhǔn)基礎(chǔ)上進(jìn)行了全方面的升級,其中包括汽車行業(yè)增強(qiáng)特性,全棧流協(xié)議,封裝成本優(yōu)化和測試認(rèn)證。作為構(gòu)建開放芯粒生態(tài)的標(biāo)準(zhǔn)組織,UCIe 將通過各方面的努力促成Chiplet生態(tài)的發(fā)展和成熟。
微觀層面,在摩爾定律放緩背景下,為持續(xù)提升單個芯片設(shè)計規(guī)模及能效,片內(nèi)互聯(lián)技術(shù)創(chuàng)造了新的工程成就。作為發(fā)布會的亮點(diǎn),首次登臺亮相的 Kiwi SoChiplet Platform 是奇異摩爾所發(fā)布這一系列互聯(lián)產(chǎn)品的基礎(chǔ)。其基于高性能互聯(lián)網(wǎng)絡(luò)Kiwi Fabric,可高效連接、調(diào)度海量高速節(jié)點(diǎn),實(shí)現(xiàn)多Die間高帶寬、低延時的互聯(lián)。
??|介紹:Kiwi SoChiplet Platform在支持芯粒數(shù)量、CPU Core、Die2Die帶寬、Memory 帶寬、Ext Interface 等關(guān)鍵指標(biāo)方面,均達(dá)到國際領(lǐng)先水平。基于該平臺,客戶可以輕松構(gòu)建多樣化的產(chǎn)品線,實(shí)現(xiàn)連接計算和存儲/連接的分離,以相對低的成本使產(chǎn)品及性能持續(xù)保持國際領(lǐng)先水準(zhǔn)。
全球首款數(shù)據(jù)中心級,通用互聯(lián)芯粒Kiwi IO Die
從Kiwi SoChiplet Platform 出發(fā),奇異摩爾推出了全球首款數(shù)據(jù)中心級通用互聯(lián)芯粒 Kiwi IO Die,內(nèi)部集成了如D2D\DDR\PCIe\CXL等大量存儲、互聯(lián)接口??蛻艨梢愿鶕?jù)企業(yè)自身需求,圍繞IO Die,輕松搭建低/中/高性能的數(shù)據(jù)中心處理器。該平臺最高支持10+Chiplets、構(gòu)建高達(dá)192 core CPU或1000T GPU的算力平臺。
發(fā)布會上,奇異摩爾及高性能RISC-V領(lǐng)域的領(lǐng)導(dǎo)者 Ventana Micro公開展示了基于Kiwi IO Die的應(yīng)用方案。雙方以遠(yuǎn)低于傳統(tǒng) SoC 構(gòu)建的時間和成本創(chuàng)建了一款高性能數(shù)據(jù)中心級RISC-V處理器,并就此打造了RISC-V CPU Chiplet Platform,實(shí)現(xiàn)了RISC-V與互聯(lián)技術(shù)組合的跨越性一步。
在本次發(fā)布的RISC-V CPU Chiplet中,計算單元部分,即Ventana Veyron V2處理器,在其前身V1基礎(chǔ)上進(jìn)行了重大升級,提供更好的Performance/W。每個芯粒包括32個核心,多顆芯?;赾hiplet架構(gòu),通過UCIe接口,連接到奇異摩爾提供的高性能IO Die上,實(shí)現(xiàn)最高192個內(nèi)核,支持包括奇異摩爾NDSA在內(nèi)的多種領(lǐng)域加速器。
Ventana創(chuàng)始人兼CEO Balaji Baktha表示:Ventana 和奇異摩爾共同建立了一個可擴(kuò)展架構(gòu),可將多個Ventana Veyron V2 與 奇異摩爾 的I/O Die組成不同配置的SoC,從而獲得功率、成本和SKU優(yōu)化。這種方案不僅提高了靈活性,允許用戶根據(jù)需要調(diào)整AI應(yīng)用的規(guī)模和性能,也能有效避免對單一供應(yīng)商的依賴,使客戶在競爭激烈的市場中脫穎而出。
“RISC-V和Chiplet的目標(biāo)同為構(gòu)建一個成本更加低廉,更加普惠的算力世界,二者的組合充滿想象力,將會塑造全新的商業(yè)形態(tài)?!?陳健就此表示。
Kiwi 3D Base Die,為Edge AI提速
隨著大模型發(fā)展,推理需求不斷增長。根據(jù) OpenAI 論文:Scaling Laws for Neural Language Models 測算,Sora 推理算力需求是 GPT-4 的 1000 倍以上。為應(yīng)對不斷飛漲的推理需求,在片內(nèi),互聯(lián)趨勢已從2.5D擴(kuò)展至3D層面。奇異摩爾全球首款通用高性能互聯(lián)底座 Kiwi 3D Base Die,實(shí)現(xiàn)了通用互聯(lián)芯粒在帶寬、能效、搭載芯片數(shù)量等多方面的突破性進(jìn)展。
Kiwi 3D Base Die具有極高的互聯(lián)密度,通過3D D2D、PCIe等高速接口,能夠以20%的功耗實(shí)現(xiàn)8倍于2.5D結(jié)構(gòu)的互聯(lián)密度;其具備卓越的通用性和靈活性,最高可實(shí)現(xiàn)16顆算力芯粒堆疊,并可通過高速外部接口連接不同的Host SoC單元,充分利用客戶現(xiàn)有硬件資源;同時集成了大容量3D Cache,在真正意義上將存儲、計算、互聯(lián)功能整合為一體。
根據(jù)自身需求,客戶無需流片,只需在Base Die上封裝不同數(shù)目的算力芯粒,外接HBM,即可快速形成應(yīng)對不同場景的高性能芯片,特別適用于覆蓋多個細(xì)分垂直市場的企業(yè)。
基于3D Base Die,奇異摩爾面向Edge AI,正式推出了全球首款通用3DIC Chiplet “AI Booster”,將32顆存算一體芯粒單元整合在一起,通過底層的Base Die進(jìn)行垂直互聯(lián),從而實(shí)現(xiàn)性能和靈活性的完美兼容。
針對AI Booster設(shè)計方面的經(jīng)驗(yàn),奇異摩爾封裝與運(yùn)營總監(jiān)徐健表示,Chiplet 設(shè)計可以理解為Die-interposer-Package協(xié)同設(shè)計的結(jié)果。不同于傳統(tǒng)的封裝設(shè)計,Chiplet的設(shè)計更為復(fù)雜,需要從系統(tǒng)層面定義好整體設(shè)計思路,包括架構(gòu)、片內(nèi)互聯(lián)方式、封裝結(jié)構(gòu)和工藝等,并需要架構(gòu)、電路、封裝設(shè)計和工藝團(tuán)隊(duì)的緊密配合。
當(dāng)然,Chiplet作為一種新的設(shè)計方式,離不開專業(yè)EDA工具的支持。芯和半導(dǎo)體聯(lián)合創(chuàng)始人代文亮博士表示,奇異摩爾本次發(fā)布的多個2.5D/3DIC產(chǎn)品為例,其設(shè)計正是基于芯和3DIC Chiplet 設(shè)計仿真EDA平臺,從架構(gòu)探索、物理實(shí)現(xiàn)、分析驗(yàn)證、信號完整性仿真、電源完整性仿真到最終簽核的全流程解決方案,極大地提高 了芯片設(shè)計的迭代速度,最終實(shí)現(xiàn)了如此出色的產(chǎn)品。
為實(shí)現(xiàn)更高密度的底層互聯(lián),先進(jìn)封裝技術(shù)也被賦予了新的、更高的期待。長電科技創(chuàng)新中心總經(jīng)理宗華博士表示,異構(gòu)集成已成為高性能計算領(lǐng)域的主流趨勢。2.5D/3D先進(jìn)封裝技術(shù)有力的推動了高性能計算發(fā)展。長電科技目前推出了XDFO-Organic,XDFOI-Bridge,XDFOI-TSV三種先進(jìn)封裝方案,其中,性價比最高的方案為XDFOI-Bridge,可以通過先進(jìn)封裝技術(shù)把各種功能單元集成在一起,形成一個高性能的超異構(gòu)系統(tǒng),助力高性能計算未來。
奇異摩爾研發(fā)副總裁溫德鑫在發(fā)布會現(xiàn)場介紹了奇異摩爾的2.5D/3D design Platform。該平臺由奇異摩爾和UMC等產(chǎn)業(yè)鏈伙伴合作打造,全面涵蓋從系統(tǒng)探索、規(guī)劃,2.5D/3D 設(shè)計驗(yàn)證,生產(chǎn)和驗(yàn)證,量產(chǎn)管理的Chiplet方案??蛻艨梢曰谠撈脚_,迅速設(shè)計、驗(yàn)證、量產(chǎn)、加速上市時間。
奇異摩爾創(chuàng)始人兼CEO田陌晨表示,Scaling 已成為全行業(yè)關(guān)注的焦點(diǎn)。無論自然界還是人工智能,在scaling 中,個體間的交流、互聯(lián)都是促成從量變到質(zhì)變的核心。
系統(tǒng)總算力,由算力、算力密度、互聯(lián)帶寬、IO帶寬、存儲帶寬共同決定?;ヂ?lián)是唯一無法通過Scaling 提升的參數(shù)。奇異摩爾作為一家專注于互聯(lián)技術(shù)的企業(yè),致力于通過互聯(lián)技術(shù)的創(chuàng)新,提升互聯(lián)密度的壁壘,助力AGI 時代技術(shù)語言統(tǒng)一的可能性,與眾合作伙伴,共同建造AGI 時代的巴別塔。