寒武紀(jì)首顆 7nm 訓(xùn)練芯片思元 290 及玄思1000加速器正式亮相
1月21日,寒武紀(jì)思元290智能芯片及加速卡、玄思1000智能加速器量產(chǎn)落地后首次正式亮相。思元290智能芯片是寒武紀(jì)的首顆訓(xùn)練芯片,采用臺(tái)積電7nm先進(jìn)制程工藝,集成460億個(gè)晶體管,支持MLUv02擴(kuò)展架構(gòu),全面支持AI訓(xùn)練、推理或混合型人工智能計(jì)算加速任務(wù)。
寒武紀(jì)首顆訓(xùn)練芯片思元290
寒武紀(jì)MLU290-M5智能加速卡搭載思元290智能芯片,采用開放加速模塊OAM設(shè)計(jì),具備64個(gè)MLU Core,1.23TB/s內(nèi)存帶寬以及全新MLU-Link?多芯互聯(lián)技術(shù),在350W的最大散熱功耗下提供AI算力高達(dá)1024 TOPS(INT4)。
寒武紀(jì)玄思1000智能加速器,在2U機(jī)箱內(nèi)集成4顆思元290智能芯片,高速本地閃存、Mellanox InfiniBand網(wǎng)絡(luò),對(duì)外提供高速M(fèi)LU-Link?接口,打破智能芯片、服務(wù)器、POD與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴(kuò)展架構(gòu),實(shí)現(xiàn)AI算力在計(jì)算中心級(jí)縱向擴(kuò)展,是AI算力的高集成度平臺(tái)。
寒武紀(jì)訓(xùn)練產(chǎn)品線采用自適應(yīng)精度訓(xùn)練方案,面向互聯(lián)網(wǎng)、金融、交通、能源、電力和制造等領(lǐng)域的復(fù)雜AI應(yīng)用場(chǎng)景提供充裕算力,推動(dòng)人工智能賦能產(chǎn)業(yè)升級(jí)。
寒武紀(jì)首款智能加速器玄思1000
寒武紀(jì)首款智能加速器玄思1000包含4片思元290智能加速卡,最大AI算力超過4100萬億次每秒(4.1 PetaOPS INT4),一臺(tái)玄思1000計(jì)算單元就足以替代一個(gè)小型傳統(tǒng)超級(jí)計(jì)算中心。
玄思1000內(nèi)置高帶寬低延時(shí)的MLU-Link?多芯互聯(lián)技術(shù),實(shí)現(xiàn)內(nèi)部4顆思元290進(jìn)行高速互聯(lián),同時(shí)打破服務(wù)器、緊耦合微集群(POD)與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴(kuò)展架構(gòu),將AIDC構(gòu)建為節(jié)點(diǎn)、POD乃至超大規(guī)模混合擴(kuò)展架構(gòu)(Hybrid Scale-out),實(shí)現(xiàn)AI算力計(jì)算中心級(jí)縱向擴(kuò)展,滿足高性能、高擴(kuò)展性、靈活性、高魯棒性的要求。
玄思1000是AI算力的高集成度平臺(tái),支持?jǐn)?shù)據(jù)中心級(jí)縱向擴(kuò)展。
重塑AIDC基礎(chǔ)架構(gòu)
算力、算法、數(shù)據(jù)是人工智能發(fā)展的三大要素,隨著這幾年AI的逐步發(fā)展,算力的核心地位更為突出。人工智能技術(shù)落地于實(shí)際應(yīng)用中需要芯片和硬件層面強(qiáng)大的算力支撐。算力已成為驅(qū)動(dòng)AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化發(fā)展的關(guān)鍵要素。
下一代AIDC要求更多智能芯片無縫協(xié)同、并行運(yùn)行的同時(shí),還能保持高計(jì)算效率,從而提供超級(jí)巨大的算力,以應(yīng)對(duì)超大規(guī)模訓(xùn)練的需要。寒武紀(jì)玄思1000智能加速器重新思考了未來AIDC的基礎(chǔ)架構(gòu),在內(nèi)部和外部采用統(tǒng)一的MLU-Link?多芯互聯(lián)技術(shù)進(jìn)行通訊,使得思元290智能芯片的互聯(lián)范圍可以從單機(jī)擴(kuò)展到POD乃至整個(gè)計(jì)算中心,重塑了基礎(chǔ)架構(gòu)。
玄思1000支持8個(gè)400G MLU-Link?和2個(gè)200G網(wǎng)絡(luò)接口,總帶寬高達(dá)3600 Gbps,是傳統(tǒng)異構(gòu)服務(wù)器的2倍。
玄思1000配置8個(gè)對(duì)外互聯(lián)的MLU-Link?接口,支持跨系統(tǒng)互聯(lián)構(gòu)建MLU POD。標(biāo)準(zhǔn)配置支持MLU POD 16、24、32。在POD內(nèi)部,所有290芯片均可通過MLU-Link?多芯互聯(lián)技術(shù)進(jìn)行通訊,在帶寬和延時(shí)方面實(shí)現(xiàn)了突破;POD外部通過玄思1000內(nèi)置的網(wǎng)卡與其他系統(tǒng)進(jìn)行通訊,實(shí)現(xiàn)了AI訓(xùn)練集群性能、擴(kuò)展性和魯棒性的協(xié)同提升。
POD內(nèi)所有思元芯片通過MLU-Link?全互聯(lián)。
除了標(biāo)準(zhǔn)配置的POD之外,在計(jì)算中心條件允許的前提下,通過MLU-Link?多芯互聯(lián)技術(shù),可實(shí)現(xiàn)1024顆或更多思元290互聯(lián),不需要額外的網(wǎng)卡即可實(shí)現(xiàn)無縫加速。