芯動力與聯(lián)想攜手打造獨(dú)立加速器(dNPU)解決方案,賦能AI PC浪潮
隨著DeepSeek效應(yīng)持續(xù)讓AI產(chǎn)業(yè)巨震,其在提供出色性能的基礎(chǔ)上,降低了對于算力的需求,可使AI更高效、更低成本地部署在端側(cè)設(shè)備,既而推動AIoT從“萬物互聯(lián)”邁向“萬物智聯(lián)”的同時,也為邊緣AI“主力軍”AI PC的端側(cè)部署大模型提供了全新的解題思路。 據(jù)IDC預(yù)測,AI PC在中國PC市場中新機(jī)的裝配比例將在未來幾年中快速攀升,將于2027年達(dá)到85%,成為PC市場主流。市場總規(guī)模將從2023年的3900萬臺增至2027年的5000萬臺以上,增幅接近28%。 眾所周知,端側(cè)大模型的快速演變對AI芯片性價比和適配能力提出了更高的要求,AI PC中的AI生成任務(wù)對計(jì)算資源和處理能力的要求不盡相同,需要從以通用計(jì)算為核心的計(jì)算架構(gòu)向更加高性能的異構(gòu)AI計(jì)算架構(gòu)升級,讓CPU、GPU和NPU等不同的計(jì)算單元“各司其職”協(xié)同作戰(zhàn),賦能AI PC增強(qiáng)的生成式AI體驗(yàn)。在這一過程中,AI芯片重任在肩,而究竟哪類芯片能擔(dān)當(dāng)重任呢?
作為PC界的龍頭,聯(lián)想給出了自己的答案。在2025年3月3日在西班牙巴塞羅那的MWC Barcelona2025盛會上,聯(lián)想展示了全面升級的AI PC。新款A(yù)I PC首次采用國內(nèi)珠海市芯動力科技有限公司基于可重構(gòu)并行處理器RPP的AzureBlade M.2加速卡,并將其命名為dNPU,不僅顯著提升了推理速度和整體性能,讓系統(tǒng)運(yùn)行更加流暢,而且還顯著降低了系統(tǒng)整體功耗,實(shí)現(xiàn)了高效運(yùn)行和節(jié)能降耗的雙重目標(biāo)和雙重優(yōu)化。 “dNPU代表了未來大模型在PC等本地端推理的技術(shù)方向和趨勢?!鄙鲜鲐?fù)責(zé)人強(qiáng)調(diào)。 端側(cè)AI算力追求極致性價比 GPGPU站上舞臺中央 隨著大模型為主的生成式AI技術(shù)取得快速發(fā)展,各大PC廠商不僅在積極探索全新的AI PC形態(tài),為推動大模型推理快速高效實(shí)現(xiàn)也在積極采納和部署強(qiáng)勁的AI芯片。 傳統(tǒng)AI PC解決方案是在CPU中嵌入iNPU,在運(yùn)行大語言模型時,通常依賴GPU進(jìn)行加速,iNPU只有在特定的場景中才能被調(diào)用。然而,GPU在處理大模型時可能會面臨一些性能瓶頸,如GPU的架構(gòu)雖然適合并行計(jì)算,但在處理深度學(xué)習(xí)任務(wù)時,會導(dǎo)致資源利用率不足或延遲較高。此外,GPU在推理階段的功耗相對較高。 而且在群雄逐鹿的通用GPU市場中,面臨著英偉達(dá)、英特爾、AMD等巨頭的強(qiáng)大競爭,國內(nèi)廠商要在重重壁壘中開辟自己的天地,需要獨(dú)辟蹊徑,打造全生態(tài)。芯動力敏銳地觀察到,高性價比是邊緣計(jì)算核心要求,且性能與TOPS不直接掛鉤,不同計(jì)算階段對性能要求不同,采用探索創(chuàng)新型的計(jì)算機(jī)架構(gòu)的GPGPU是解決通用高算力和低功耗需求的必由之路,并已成為業(yè)界共識。
基于這一深刻洞察,芯動力推出了可重構(gòu)并行處理器(RPP)架構(gòu),通過底層創(chuàng)新RPP架構(gòu),解決了高性能與通用性難兼以得的矛盾,利用數(shù)據(jù)流結(jié)構(gòu)來避免了數(shù)據(jù)反復(fù)調(diào)用帶來的效率損失。并且芯動力具有編譯器、運(yùn)行時環(huán)境、高度優(yōu)化的RPP庫,可全面兼容CUDA的端到端完整軟件棧,從而實(shí)現(xiàn)邊緣AI應(yīng)用的快速高效部署。 基于上述架構(gòu)和設(shè)計(jì)創(chuàng)新,芯動力開發(fā)了AzureBlade M.2加速卡集成的AE7100芯片,作為一款高能效GPGPU,相比傳統(tǒng)GPU,針對神經(jīng)網(wǎng)絡(luò)的計(jì)算特點(diǎn)進(jìn)行了優(yōu)化,通過集成大量專用的計(jì)算單元(如矢量內(nèi)核或神經(jīng)加速器)和片上內(nèi)存,可高效處理矩陣乘法和卷積等操作,從而在通用性、低時延、低功耗、低成本和快速部署等方面展現(xiàn)出顯著優(yōu)勢,成為解鎖端側(cè)各大模型的關(guān)鍵,并成為聯(lián)想AI PC落地的新動能。
(AI NOW不做大模型推理:右側(cè) GPU usage 和 dNPU 占用率均為 0%)
(AI NOW進(jìn)行大模型推理:右側(cè) GPU usage 仍為 0%,dNPU 在 40% 上下波動) “一是系統(tǒng)運(yùn)行更絲滑。dNPU 在執(zhí)行深度學(xué)習(xí)任務(wù)時,無需占用CPU、顯存或GPU資源,這種設(shè)計(jì)不僅最大限度地減少了對傳統(tǒng)GPU和顯存的依賴,還通過dNPU的高效計(jì)算能力,顯著提升了推理速度和整體性能,讓系統(tǒng)運(yùn)行更加絲滑流暢,大幅提升用戶體驗(yàn)。二是低功耗優(yōu)勢。通過實(shí)測,在未啟用AI NOW推理時,CPU的功耗僅為 7.52W,而推理時功耗上升至14.88W。dNPU的架構(gòu)設(shè)計(jì)賦予其低功耗的特性,同時釋放了原本由GPU占用的高功耗資源,進(jìn)一步優(yōu)化了系統(tǒng)能效,不僅實(shí)現(xiàn)了推理任務(wù)的高效執(zhí)行,更顯著降低了系統(tǒng)整體功耗,為用戶帶來性能與能效的雙重優(yōu)化體驗(yàn)?!甭?lián)想工作人員介紹dNPU在處理大模型時的顯著優(yōu)勢時表示,“因而,聯(lián)想AI PC在AI計(jì)算、AI擴(kuò)展、多模態(tài)交互、智能化等層面,均實(shí)現(xiàn)了顯著的提升?!? 憑借芯動力的底層創(chuàng)新、深厚積淀和積極拓展,不僅在AI PC領(lǐng)域取得了開門紅,在同樣廣闊的泛安防/邊緣服務(wù)器、工業(yè)影像/機(jī)器視覺、信號處理/醫(yī)療影像、機(jī)器人等邊緣AI應(yīng)用市場都已有眾多應(yīng)用落地,并與眾多重要企業(yè)達(dá)成了戰(zhàn)略合作。 這些市場的廣闊發(fā)展前景也在徐徐展開,以安防IPC芯片市場為例,2026年全球規(guī)模將達(dá) 10.9億美元,2025全球3D視覺識別芯片市場規(guī)模將達(dá)27億美元;在工業(yè)影像/機(jī)器視覺市場,芯動力RPP架構(gòu)GPU可對標(biāo)英偉達(dá)AI算力顯卡+高端FPGA;針對泛安防/邊緣服務(wù)器市場,國產(chǎn)邊緣算力芯片之外提供新的選擇;在信號處理市場,更是可直接替代國外高端DSP,而更多的客戶合作和應(yīng)用落地。 AI芯片實(shí)現(xiàn)高能效低功耗 加速卡成就“全武行” 芯動力開發(fā)的AzureBlade M.2加速卡被PC巨頭聯(lián)想成功合作,無疑再次佐證了芯動力RPP芯片的硬核實(shí)力。
具象來看,AE7100芯片作為此款M.2加速卡的核心,是芯動力基于RPP架構(gòu)自主研發(fā)的AI芯片,其尺寸僅為17mm×17mm,堪稱業(yè)界最小、最薄的GPU。它不僅可以輕松放入標(biāo)準(zhǔn)M.2卡,還具備強(qiáng)大的計(jì)算能力,支持32Tops算力。 集成了耀眼AE7100芯片的AzureBlade M.2加速卡,更是將高性能、低功耗、小體積的優(yōu)勢發(fā)揮到極致。它的尺寸僅為22mm×80mm,大約半張名片大小,卻擁有高達(dá)32TOPs的算力以及60GB/s的內(nèi)存帶寬,功耗也可以做到動態(tài)控制。 值得一提的是,為將芯片融入筆記本電腦,芯動力還革新了封裝技術(shù),采用扇出型封裝,實(shí)現(xiàn)了無基板的FC-BGA,實(shí)現(xiàn)了低成本先進(jìn)封裝。此封裝方式提升了線密度至5微米,通過三層金屬線設(shè)計(jì)減小了芯片面積,降低了芯片的厚度。優(yōu)化了散熱與電氣性能,封裝后的M.2卡為AI PC提供了dNPU解決方案。 眾所周知,無生態(tài)不AI。而在軟件層面,AE7100實(shí)現(xiàn)了從底層指令集到上層驅(qū)動的全面兼容,巧妙沿用英偉達(dá)軟件棧,并進(jìn)行了SIMT指令集、驅(qū)動層和開發(fā)庫的優(yōu)化,極大地提升了開發(fā)效率與邏輯實(shí)現(xiàn)的直觀性。由于該加速卡兼容CUDA和ONNX,能夠滿足各類AI應(yīng)用的多樣化需求,其高算力和出色的內(nèi)存帶寬確保了數(shù)據(jù)的高效穩(wěn)定處理與傳輸。 對于AI PC 來說,依靠本地算力能夠推動更大參數(shù)規(guī)模的模型推理亦是AI PC功能實(shí)現(xiàn)的關(guān)鍵。而芯動力的M.2加速卡已可完美支撐大模型在AI PC等設(shè)備上的流暢運(yùn)行,并且適配了Deepseek、Llama3-8B、Stable Diffusion、通義千問等開源模型。 在聯(lián)想將芯動力RPP架構(gòu)GPGPU命名為dNPU之際,也表明dNPU正成為推動AI PC蓬勃發(fā)展的關(guān)鍵驅(qū)動力,不僅能夠提升AI模型的推理速度、降低功耗與提升能效,還可支持多樣化的AI應(yīng)用,推動AI PC的創(chuàng)新與落地。有判斷稱,未來dNPU極有可能如同當(dāng)下的GPU一般,成為電腦的一項(xiàng)常規(guī)可選配置,一旦電腦配備dNPU,用戶便能在終端設(shè)備上自由地提出問題,它會憑借強(qiáng)大的運(yùn)算能力迅速給出精準(zhǔn)解答。 從成本角度來看,傳統(tǒng)做法是將dNPU集成到CPU中,這會導(dǎo)致成本大幅增加。以某大廠處理器為例,采用3NM工藝制造,其研發(fā)與生產(chǎn)成本極高,導(dǎo)致產(chǎn)品價格居高不下,而大多消費(fèi)者對這種高成本的配置并沒有強(qiáng)烈需求。與之相比,將dNPU作為獨(dú)立的標(biāo)準(zhǔn)化插件,具有更高的性價比和靈活性。 屆時,dNPU將作為標(biāo)準(zhǔn)化插件,廣泛出現(xiàn)在市面上所有可選擇配置的電腦機(jī)型中。無論是追求極致性能的專業(yè)人士,還是日常使用電腦的普通用戶,都能從中受益。它將為各類用戶提供強(qiáng)大的AI運(yùn)算支持,極大地提升電腦在如智能語音交互、圖像識別處理、數(shù)據(jù)分析預(yù)測等豐富多樣的人工智能應(yīng)用場景下的性能表現(xiàn),為用戶帶來更為高效、智能的使用體驗(yàn) 。 持續(xù)精進(jìn)RPP和適配大模型 邁向芯征程 所謂眾行者遠(yuǎn)。芯動力作為聯(lián)想AI PC產(chǎn)品dNPU方案的合作伙伴,不僅是對芯動力GPGPU創(chuàng)新性架構(gòu)的最佳背書,還為AI PC等端側(cè)設(shè)備提供了革命性支持,解決了大模型在端側(cè)部署的關(guān)鍵技術(shù)難題。這一創(chuàng)新技術(shù)必將加速大模型在端側(cè)設(shè)備的普及與應(yīng)用,為行業(yè)創(chuàng)造前所未有的價值。 不僅如此,它在工業(yè)自動化、泛安防、內(nèi)容過濾、醫(yī)療影像及信號處理等眾多領(lǐng)域都展現(xiàn)出了廣泛的應(yīng)用潛力,為邊緣AI的智能化發(fā)展提供了強(qiáng)大的動力。 展望未來,隨著大語言模型向支持多模態(tài)、多專家系統(tǒng)的復(fù)雜模型轉(zhuǎn)變,對存儲能力和計(jì)算靈活性要求更高,可重構(gòu)芯片以其低功耗和高靈活性將成為極具潛力的解決方案。 而且,算力產(chǎn)品與各類模型的適配將成為標(biāo)準(zhǔn)化的流程,模型適配程度將直接影響應(yīng)用了算力產(chǎn)品的AI PC在模型推理方面的表現(xiàn)。同時,算力廠商不能只針對特定的應(yīng)用進(jìn)行調(diào)優(yōu),鑒于AI PC中應(yīng)用將主要以插件的形式被大模型調(diào)用,對各類大小模型以及其調(diào)用的應(yīng)用進(jìn)行綜合適配才最為重要。因而,AI算力廠商還要持續(xù)深入建立通用、兼容的AI開發(fā)框架,并降低大模型和應(yīng)用開發(fā)適配門檻。 芯動力還觀察到,邊緣計(jì)算作為云端算力有效補(bǔ)充,是AI大模型落地的必然趨勢。未來邊緣AI時代加速到來,將滲透至物理世界各個角落,持續(xù)打造高性價比dNPU、適配DeepSeek等新型大模型等是AI芯片廠商的“馬拉松”。芯動力將繼續(xù)秉承創(chuàng)新精神,基于RPP架構(gòu)實(shí)現(xiàn)算力及性價比的持續(xù)提升,還將推出基于RPP集成Chiplet的8nm R36 GPU,2027年將推出更高性能的3nm R72 GPU。同時,深入提升軟件適配能力,強(qiáng)化對更大規(guī)模模型的支持,擴(kuò)展智算生態(tài)合作圈,全面推動邊緣AI技術(shù)的部署與落地。 DeepSeek的技術(shù)突破,使AI更高效、更低成本地部署在端側(cè)設(shè)備,推動AIoT持續(xù)邁向“萬物智聯(lián)”。我們有理由相信,基于RPP架構(gòu)的GPU及后續(xù)更高性能的迭代芯片不僅是AIPC加速處理器的理想選擇,在對延遲、功耗和體積有著極高要求的邊緣應(yīng)用中也將持續(xù)綻放光芒。 |