原創(chuàng)

國產(chǎn)自研推理芯片完成迭代，燧原科技發(fā)布“邃思”2.5和云燧i20推理卡

時間：2021-12-17 17:07:15

關(guān)鍵字：燧原科技人工智能 DTU GPU

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]近日燧原科技發(fā)布新一代“邃思”AI推理芯片，采用第二代高性能計(jì)算核心和數(shù)據(jù)引擎，由12nm工藝打造，通過架構(gòu)升級，大大提高了單位面積的晶體管效率，從而實(shí)現(xiàn)了與目前業(yè)內(nèi)7nm GPU相匹敵的計(jì)算能力。同時因?yàn)椴捎?2nm的成熟工藝，也實(shí)現(xiàn)了更優(yōu)的性價比。

近日燧原科技發(fā)布了其最新的“邃思”AI推理芯片及其推理卡云燧i20，這是其推理產(chǎn)品的最新迭代。新一代“邃思”AI推理芯片采用第二代高性能計(jì)算核心和數(shù)據(jù)引擎，由12nm工藝打造，通過架構(gòu)升級，大大提高了單位面積的晶體管效率，從而實(shí)現(xiàn)了與目前業(yè)內(nèi)7nm GPU相匹敵的計(jì)算能力。同時因?yàn)椴捎?2nm的成熟工藝，也實(shí)現(xiàn)了更優(yōu)的性價比。

另外一個重要意義在于，第二代推理產(chǎn)品的面市意味著燧原科技已經(jīng)實(shí)現(xiàn)了推理+訓(xùn)練的第二代產(chǎn)品組合的全面迭代，這是AI國產(chǎn)自研架構(gòu)芯片穩(wěn)步有序邁進(jìn)的體現(xiàn)。

在燧原科技“芯懷天地”新品發(fā)布會上，燧原科技CEO趙立東和COO張亞林針對推理訓(xùn)練產(chǎn)品及其最新技術(shù)進(jìn)行了精彩的分享。

AI市場新趨勢：推理產(chǎn)品比例變高

人工智能分為訓(xùn)練和推理兩個主要的任務(wù)，訓(xùn)練是指創(chuàng)建機(jī)器學(xué)習(xí)算法的過程，訓(xùn)練的比例和整個數(shù)據(jù)科學(xué)家的生產(chǎn)力直接相關(guān)，需要大量的計(jì)算資源來部署學(xué)習(xí)框架和訓(xùn)練數(shù)據(jù)集。而推理指的是使用經(jīng)過訓(xùn)練的算法來進(jìn)行預(yù)測，因此跟整個用戶和海量的應(yīng)用直接相關(guān)，與用戶和用戶所持應(yīng)用的數(shù)量乘積成直接正比例的關(guān)系。

上圖是從2017到2023年AI市場的走勢，可以看到推理在整個AI市場中占的比例在逐漸增大，推理的實(shí)際應(yīng)用場景也變得多元化，AI的業(yè)務(wù)從傳統(tǒng)單一的機(jī)器視覺、聲音、文字、決策、推薦等方向性的算法，逐步變成多場景、多應(yīng)用的落地，廣泛分布在用戶日常生活中。結(jié)合推理的客戶需求場景，這樣的計(jì)算密集型應(yīng)用對于性價比的考量也會更為敏感。所以除了GPU之外的其他更具性價比的方案，有望在這部分實(shí)現(xiàn)突圍。針對這樣的趨勢，AI芯片公司譬如燧原科技早也在推理產(chǎn)品上進(jìn)行了投入和布局。

在去年12月，燧原科技就發(fā)布了其首款神經(jīng)網(wǎng)絡(luò)模型推理引擎“鑒算TopsInference”及其“云燧i10”推理卡。通過鑒算TopsInference的推理加速，配合云燧i10的高算力及虛擬化技術(shù)，可以對計(jì)算密集型深度學(xué)習(xí)工作負(fù)載提供高性價比的部署方案。到了今年12月剛好一年的時間，燧原科技隨即發(fā)布了其新一代的“邃思2.5”AI推理芯片及其推理卡云燧i20。這也意味著其推理產(chǎn)品也進(jìn)入了有序的迭代節(jié)奏中，同時也是對于當(dāng)前AI市場推理產(chǎn)品旺盛需求的及時產(chǎn)品補(bǔ)充。

DTU2.5 ：國內(nèi)首顆TF23推理芯片

“邃思2.5”采用的是專門為云端推理場景而自主研發(fā)的計(jì)算架構(gòu)，燧原在這顆芯片上，針對場景落地需求、包括性價比和能效比都有著嚴(yán)苛的設(shè)計(jì)要求。

據(jù)張亞東介紹，“邃思”推理芯片采用具備全AI算力空間的計(jì)算架構(gòu)，具備32位的算力，從FP32一直到INT8，包含中間精度TF32、BF16、FP16五個精度構(gòu)成了全AI算力空間，滿足各種各樣推理的客戶需求。單精度FP32達(dá)到了32 TFLOPS、單精度張量TF32達(dá)到了128 TFLOPS；同樣具備半精度BF16/FP16的算力，達(dá)到128 TFLOPS。在最重要的推理方面，整數(shù)精度INT8也有了提升，達(dá)到256TOPS。

據(jù)悉，這是中國第一顆具備TF32張量單精度的推理芯片，能用16位的算力達(dá)到32位的精度，實(shí)現(xiàn)4倍于FP32的算力，同時保持99%的整個模型精度一致性。

數(shù)據(jù)架構(gòu)方面采用了完全自研的 (Sparse Value Segment ) 數(shù)據(jù)壓縮格式，能夠進(jìn)行獨(dú)立的分層壓縮和硬件自動循環(huán)解壓，使得所有的數(shù)據(jù)（特別是稀疏數(shù)據(jù)）在傳輸過程帶寬和功耗減少。同時支持硬件指令預(yù)取的操作，使得指令的預(yù)取、數(shù)據(jù)的傳輸和計(jì)算可以同時進(jìn)行，進(jìn)行并行的數(shù)據(jù)廣播，使得同樣的數(shù)據(jù)可以廣播到多個處理器上進(jìn)行并行執(zhí)行。同時，這種數(shù)據(jù)壓縮格式還具有很強(qiáng)的動態(tài)功耗控制，讓整個數(shù)據(jù)傳輸?shù)膭討B(tài)功耗變得非常的有效。

內(nèi)存方面是采用兩顆HBM2E，單芯片容量為16GB，最大帶寬達(dá)到819GB/s。封裝形式采用了2.5D的封裝，整合了5顆芯片進(jìn)去，尺寸為55mmX55mm。

除了能效比、性價比這些關(guān)鍵因素之外，用戶的實(shí)際部署易用性也是非常重要的考量。針對當(dāng)前爆炸式增長的多樣化的推理落地場景，燧原科技進(jìn)一步加強(qiáng)推理軟件棧，使其更加泛化易用，滿足更多客戶日益增長的需求。

超越主流GPU的性價比之選

搭載2.5代DTU的推理加速卡云燧i20，縱向上實(shí)現(xiàn)了比前代產(chǎn)品的大幅提升，橫向上對比GPU的方案也有更好的性價比。

相比云燧i10，云燧i20的浮點(diǎn)32位的算力從17.6T提升到32T，浮點(diǎn)16位的算力從70.4T提升到了128T，INT8整點(diǎn)8位的算力從70.4T提升到了256T，HBM2升級到HBM2E后相應(yīng)的帶寬也從512GB提升了819GB，連接方式和功耗表現(xiàn)上與前代保持一致。

如下圖所示，根據(jù)燧原科技提供的和某次旗艦GPU加速卡的對比數(shù)據(jù)，以該次旗艦GPU的參數(shù)為基準(zhǔn)，i20的浮點(diǎn)16位的算力是其2倍，INT8的算力是2倍，內(nèi)存帶寬是2.65倍。

據(jù)張亞東介紹，在DTU2.5設(shè)計(jì)最初，燧原就定了其性能目標(biāo)——至少達(dá)到主流GPU次旗艦的2.5倍以上，最高達(dá)到3.5倍。在這樣的設(shè)計(jì)目標(biāo)驅(qū)動下，搭載DTU2.5出來i20的實(shí)際效果也確實(shí)是精準(zhǔn)地完成了這一目標(biāo)。

在實(shí)時性方面，DTU相比GPU也有非常出色的表現(xiàn)，根據(jù)燧原科技展示的一個實(shí)時語意分析的對比demo展示，DTU的實(shí)時性能（吞吐量）是GPU的2.5倍以上，而實(shí)時的延時DTU卻只有GPU的一半不到。在這種典型的NLP——bert應(yīng)用中，DTU展現(xiàn)了至少2.5倍于GPU的性能。

“訓(xùn)推一體化”產(chǎn)品組合升級到第二代

此次全新二代云端推理產(chǎn)品的推出，使得燧原構(gòu)建了T20+i20的第二代訓(xùn)推產(chǎn)品組合。但僅僅有產(chǎn)品是不夠的，燧原科技還同步將訓(xùn)推一體化的系統(tǒng)進(jìn)行了增強(qiáng)，使得用戶可以方便使用T20和i20，完成訓(xùn)練加推理一體化的部署。

據(jù)張亞東介紹，在TopsRider軟件系統(tǒng)里，從高層的圖優(yōu)化到中間的算子庫再到中間的編程模型，最后到底層的Runtime，四個階段中分別都實(shí)現(xiàn)了整個訓(xùn)練和推理引擎的統(tǒng)一，使得用一套結(jié)構(gòu)可以支持所有訓(xùn)練和推理軟件棧。這樣統(tǒng)一的表達(dá)、統(tǒng)一的訓(xùn)練推理的算子編程模型、統(tǒng)一的Runtime，讓T20+i20在訓(xùn)練和推理?xiàng)Ｉ线M(jìn)行了很好的深度融合和充分泛化，也使得開發(fā)者在運(yùn)用訓(xùn)練和推理一體化的時候更加的高效、更加的精密和更加的兼容。

從“邃思”2.5和云燧i20推理卡的發(fā)布之后，燧原科技已經(jīng)完成了二代產(chǎn)品的布局，未來的i30和T30/T31的產(chǎn)品也已經(jīng)在研發(fā)過程中。

總結(jié)

燧原科技通過自研架構(gòu)DPU，實(shí)現(xiàn)了比GPU更具性價比的AI推訓(xùn)方案?！白龃笮酒?、拼硬科技”是其一直奉行的理念，“每代產(chǎn)品比前代實(shí)現(xiàn)3倍能效提升、2倍性價比提升、軟件向后兼容”是其產(chǎn)品更新的目標(biāo)。此次“邃思”2.5和云燧i20推理卡的發(fā)布，標(biāo)志著其推訓(xùn)一體的產(chǎn)品布局已經(jīng)夯實(shí)，隨著AI市場的繼續(xù)發(fā)展，未來第三代產(chǎn)品相信也會如期而至。