國(guó)產(chǎn)AI的希望！摩爾線程夸娥千卡集群化解AI算力國(guó)產(chǎn)化難題

時(shí)間：2024-06-06 11:25:51

關(guān)鍵字：國(guó)產(chǎn)AI 算力

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]這是一個(gè)AI的時(shí)代，這是一個(gè)算力的時(shí)代。

這是一個(gè)AI的時(shí)代，這是一個(gè)算力的時(shí)代。

遺憾的是，我們已經(jīng)無(wú)緣接觸到最先進(jìn)的AI硬件和算力，用著H20這樣閹割兩次的N卡，還要支付上百億元的費(fèi)用，實(shí)在憋屈。

面對(duì)持續(xù)上漲的AI算力需求，我們唯有發(fā)展自己的國(guó)產(chǎn)方案，發(fā)展自己的大規(guī)模AI算力集群，才能突破圍追堵截，走上康莊大道。

說(shuō)到這里，很多人或許會(huì)第一時(shí)間想到華為，在美國(guó)制裁下頑強(qiáng)屹立突破的中國(guó)企業(yè)標(biāo)桿，昇騰910B在AI算力領(lǐng)域也取得了一定的成就。

當(dāng)然了，中國(guó)只依靠一個(gè)華為是不夠的。中國(guó)的AI生態(tài)需要遍地開(kāi)花，才有可能多點(diǎn)突破，讓生態(tài)更繁榮。

目前來(lái)看，摩爾線程以全功能GPU走通用計(jì)算路線是另一條希望之路，尤其是它已經(jīng)成為華為之外，另一家可以實(shí)現(xiàn)千卡千億參數(shù)大模型訓(xùn)推的全國(guó)產(chǎn)AI芯片公司。

說(shuō)起來(lái)，大家對(duì)摩爾線程并不陌生，其堪稱中國(guó)自主GPU最大的希望，但很多人對(duì)摩爾線程的認(rèn)知還停留在國(guó)產(chǎn)游戲顯卡，其實(shí)不然，摩爾線程在AI上也實(shí)力突出。

自成立以來(lái)，摩爾線程做的就是通用GPU，跟英偉達(dá)一樣，除了圖形渲染，也能用于AI人工智能加速、科學(xué)計(jì)算。

經(jīng)過(guò)三年多潛心發(fā)展，摩爾線程在AI GPU方面已經(jīng)展現(xiàn)了強(qiáng)勁的實(shí)力，構(gòu)建了一張從芯片、板卡、服務(wù)器，到集群、軟件棧的全棧AI智算產(chǎn)品版圖，并且已經(jīng)多點(diǎn)落地、處處開(kāi)花。

比如和清華系A(chǔ)I大模型公司無(wú)問(wèn)芯穹的合作。摩爾線程是第一家接入無(wú)問(wèn)芯穹，并成功完成千卡級(jí)別大模型訓(xùn)練的國(guó)產(chǎn)GPU公司。

摩爾線程的“夸娥”(KUAE)千卡智算集群，已與無(wú)穹Infini-AI大模型開(kāi)發(fā)與服務(wù)平臺(tái)完成系統(tǒng)級(jí)融合適配，并完成了LLama2 700億參數(shù)大模型的訓(xùn)練測(cè)試。近期，雙方又完成了“MT-infini-3B” 3B(30億參數(shù))大模型的實(shí)訓(xùn)。

這意味著什么呢?這是行業(yè)首個(gè)基于國(guó)產(chǎn)GPU芯片的從0到1的端到端大模型實(shí)訓(xùn)案例?？涠鹨渤蔀闃I(yè)內(nèi)首個(gè)成功跑通并完整運(yùn)行國(guó)產(chǎn)大模型的千卡集群。

無(wú)問(wèn)芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪表示力挺：“經(jīng)過(guò)無(wú)問(wèn)芯穹Infini-AI平臺(tái)的實(shí)訓(xùn)與聯(lián)合優(yōu)化工作驗(yàn)證，摩爾線程夸娥千卡智算集群在精度、性能、易用性和算力利用率上均有優(yōu)異表現(xiàn)，而且在實(shí)訓(xùn)中實(shí)現(xiàn)了長(zhǎng)時(shí)間穩(wěn)定訓(xùn)練不中斷，可以為千億參數(shù)級(jí)別大模型訓(xùn)練提供持續(xù)高效的高性能算力支持?！?

另外，滴普科技、實(shí)在智能等也基于摩爾線程的夸娥千卡智算集群，成功完成了不同參數(shù)量級(jí)的大模型分布式訓(xùn)練測(cè)試，效率、精度、穩(wěn)定性都相當(dāng)完美?；谀柧€程夸娥千卡智算集群，滴普科技成功完成了700億參數(shù)LLaMA2大語(yǔ)言模型的預(yù)訓(xùn)練測(cè)試，訓(xùn)練時(shí)長(zhǎng)共計(jì)77小時(shí)，全程無(wú)故障連續(xù)運(yùn)行，集群訓(xùn)練穩(wěn)定性達(dá)到100%。

夸娥(KUAE)是摩爾線程推出的智算中心全棧解決方案，而夸娥這個(gè)名字來(lái)自我國(guó)神話傳說(shuō)中的大力神夸娥氏，

可以說(shuō)，為AI算力集群取這么一個(gè)名字，充分展現(xiàn)了獨(dú)屬于中國(guó)人的堅(jiān)忍不拔和浪漫情懷。出自《愚公移山》：“帝感其誠(chéng)，命夸娥氏二子負(fù)二山，一厝朔東，一厝雍南。自此，冀之南，漢之陰，無(wú)隴斷焉。”

夸娥解決方案的基本節(jié)點(diǎn)是大模型智算加速卡MTT S4000組成的雙路八卡GPU服務(wù)器“MCCX D800”，以軟硬件一體化交付、開(kāi)箱即用的方式，高可靠地解決大規(guī)模GPU算力的建設(shè)和運(yùn)營(yíng)管理問(wèn)題。

MTT S4000是摩爾線程新一代專為AI大模型打造的智算加速卡，基于其自主研發(fā)的第三代MUSA架構(gòu)。

利用自研的MTLink互連技術(shù)，MTT S4000可以高效千卡并行，線性加速比高達(dá)91%以上。

最為關(guān)鍵的是，摩爾線程擁有自研的全功能GPU MUSA統(tǒng)一系統(tǒng)架構(gòu)，包括指令集架構(gòu)、MUSA 編程模型、驅(qū)動(dòng)、運(yùn)行時(shí)庫(kù)、算子庫(kù)、通訊庫(kù)、數(shù)學(xué)庫(kù)等，而且充分兼容CUDA軟件生態(tài)，代碼可以幾乎零成本遷移，也無(wú)需擔(dān)心未來(lái)的可用性問(wèn)題。

MTT S4000不但可用于大規(guī)模AI計(jì)算，還具備領(lǐng)先的圖形渲染能力、視頻編解碼能力、8K超高清顯示能力。

這使得它可為數(shù)字孿生、云游戲、云渲染、數(shù)字內(nèi)容創(chuàng)作等場(chǎng)景提供支持，并配合大模型推理能力，服務(wù)于AIGC等多模態(tài)業(yè)務(wù)場(chǎng)景。

從2024年的趨勢(shì)來(lái)看，多模態(tài)需求將快速崛起，英偉達(dá)CFO Colette Kress曾預(yù)計(jì)這塊業(yè)務(wù)將從零增長(zhǎng)至數(shù)十億美元，對(duì)國(guó)產(chǎn)芯片來(lái)說(shuō)也同樣如此。