當(dāng)前位置:首頁 > 原創(chuàng) > 劉巖軒
[導(dǎo)讀]隨著通用人工智能的發(fā)展,數(shù)據(jù)中心的計(jì)算需求逐步提高。針對(duì)多模態(tài)數(shù)據(jù)、大模型的推理和訓(xùn)練需要更高的算力支持,而隨著算力提升與之而來的還需更關(guān)注在功耗方面的優(yōu)化。對(duì)于頭部云計(jì)算和服務(wù)廠商而言,針對(duì)專門用例提高每瓦性能變得至關(guān)重要。而這就需要其在CPU的IP微架構(gòu)層面就開始著手優(yōu)化設(shè)計(jì),且需要極高的靈活性和豐厚的軟件生態(tài)能力。Arm Neoverse系列正是迎合了這部分技術(shù)發(fā)展趨勢(shì),自推出至今,已經(jīng)獲得了諸多頭部云服務(wù)廠商的認(rèn)可,基于Neoverse推出的定制服務(wù)器CPU也幫助云服務(wù)客戶獲得了更具效益的計(jì)算服務(wù)。而在近日,Arm又推出了其全新的新一代Arm Neoverse N3和Arm Neoverse V3,并且同步提供了Arm Neoverse CSS N3和Arm Neoverse CSS V3;這也是Arm首次提供基于高性能的Neoverse V系列的計(jì)算子系統(tǒng)。

隨著通用人工智能的發(fā)展,數(shù)據(jù)中心的計(jì)算需求逐步提高。針對(duì)多模態(tài)數(shù)據(jù)、大模型的推理和訓(xùn)練需要更高的算力支持,而隨著算力提升與之而來的還需更關(guān)注在功耗方面的優(yōu)化。對(duì)于頭部云計(jì)算和服務(wù)廠商而言,針對(duì)專門用例提高每瓦性能變得至關(guān)重要。而這就需要其在CPU的IP微架構(gòu)層面就開始著手優(yōu)化設(shè)計(jì),且需要極高的靈活性和豐厚的軟件生態(tài)能力。Arm Neoverse系列正是迎合了這部分技術(shù)發(fā)展趨勢(shì),自推出至今,已經(jīng)獲得了諸多頭部云服務(wù)廠商的認(rèn)可,基于Neoverse推出的定制服務(wù)器CPU也幫助云服務(wù)客戶獲得了更具效益的計(jì)算服務(wù)。而在近日,Arm又推出了其全新的新一代Arm Neoverse N3和Arm Neoverse V3,并且同步提供了Arm Neoverse CSS N3和Arm Neoverse CSS V3;這也是Arm首次提供基于高性能的Neoverse V系列的計(jì)算子系統(tǒng)。


云計(jì)算基礎(chǔ)設(shè)施領(lǐng)域:通過定制芯片支持云計(jì)算關(guān)鍵負(fù)載優(yōu)化

據(jù)Arm 基礎(chǔ)設(shè)施事業(yè)部產(chǎn)品解決方案副總裁Dermot O’Driscoll介紹,當(dāng)前基礎(chǔ)設(shè)施領(lǐng)域正在發(fā)生顛覆性的變化,頭部企業(yè)正在通過打造定制芯片,來支持云計(jì)算在關(guān)鍵工作負(fù)載中的計(jì)算優(yōu)化。頭部云計(jì)算廠商關(guān)注的性能提升非常極致,期望獲得的是最佳的每瓦性能。他們對(duì)于自己的數(shù)據(jù)中心、計(jì)算設(shè)備及運(yùn)行其中的工作負(fù)載非常熟悉,正在嘗試對(duì)基礎(chǔ)設(shè)施的每一層都進(jìn)行優(yōu)化,從而讓多樣化的工作負(fù)載獲得最佳性能,以期實(shí)現(xiàn)每瓦性能的提升。

這種來自不同用例、不同工作負(fù)載的每瓦性能,無法通過一個(gè)統(tǒng)一的基準(zhǔn)測(cè)試來量化比較,而是需要針對(duì)這些多樣性的用例來專門調(diào)校。過去軟件和硬件分別是來自不同公司開發(fā),這種傳統(tǒng)的模式顯然已無法實(shí)現(xiàn)對(duì)于特定用例特定負(fù)載的每瓦性能調(diào)校;云服務(wù)廠商希望能夠在硬件的微架構(gòu)層面,就開展軟硬件的協(xié)同開發(fā),實(shí)現(xiàn)緊密耦合,從而確保自身的軟硬件適配得以順利進(jìn)行。這種聯(lián)合優(yōu)化,需要一個(gè)開放的靈活的CPU的IP平臺(tái),并且軟硬件雙方都需要做出巨大的投入。

而談到通過定制計(jì)算來滿足這種微架構(gòu)層面的軟硬件協(xié)同優(yōu)化,就不得不提到Arm Neoverse平臺(tái)。通過Arm的努力,當(dāng)前這種基礎(chǔ)設(shè)施中的協(xié)同設(shè)計(jì)已經(jīng)不僅僅局限于 CPU,還能擴(kuò)展到平臺(tái)級(jí)別進(jìn)行內(nèi)存和 I/O的調(diào)優(yōu),進(jìn)一步優(yōu)化 TCO。

去年,Arm在Neoverse平臺(tái)的產(chǎn)品線擴(kuò)展出計(jì)算子系統(tǒng)(CSS),首款產(chǎn)品為Neoverse CSS N2。這是一套完整驗(yàn)證和優(yōu)化的計(jì)算子系統(tǒng),兼顧了各種關(guān)鍵用例的配置優(yōu)化,可大大縮短了客戶的開發(fā)流程,讓其可以輕松實(shí)現(xiàn)芯片棧的管理,使其免于各類IP的復(fù)雜選擇和組合,而是專注于軟件調(diào)優(yōu)和定制加速這些能夠形成差異化競(jìng)爭(zhēng)力的部分。

“計(jì)算正越來越專用化,通用CPU已不再能滿足需求。在基礎(chǔ)設(shè)施領(lǐng)域,我們看到的轉(zhuǎn)型持續(xù)朝向更復(fù)雜的倉庫級(jí)計(jì)算,它不再只關(guān)乎芯片、服務(wù)器或機(jī)架,而是關(guān)乎整個(gè)數(shù)據(jù)中心?!盇rm高級(jí)副總裁兼基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理 Mohamed Awad分享到,“借助 Neoverse CSS,Arm正在助力合作伙伴加快創(chuàng)新步伐。憑借新的Arm Neoverse CSS N3和CSS V3,我們專注于釋放芯粒等新技術(shù)的潛力,并更大限度地優(yōu)化實(shí)際工作負(fù)載的 TCO,這對(duì)于包括 AI、數(shù)據(jù)庫、網(wǎng)絡(luò)等在內(nèi)的整個(gè)基礎(chǔ)設(shè)施的生態(tài)系統(tǒng)至關(guān)重要。”


第三代Arm Neoverse:構(gòu)建高性能IP計(jì)算子系統(tǒng),提高AI應(yīng)用關(guān)鍵負(fù)載的計(jì)算效能

不斷地迭代提升,實(shí)現(xiàn)卓越性能,是ArmNeoverse的成功要素之一。而在第三代平臺(tái)上,我們也看到了非常大的提升。

據(jù)官方介紹,相較Neoverse N2,Neoverse N3可在多種工作負(fù)載下實(shí)現(xiàn)20%的每瓦效能效率提升;而且Neoverse N3配備了2MB L2級(jí)緩存的選項(xiàng),在機(jī)器學(xué)習(xí)工作負(fù)載上的性能提升了三倍。而CSS N3正是基于新的Neoverse N3 核心打造,為新的N系列引入了Armv9.2功能,每個(gè)核心都具備了2MB的專用L2 緩存,并支持最新的PCIe和CXL I/O標(biāo)準(zhǔn)以及UCIe芯粒標(biāo)準(zhǔn)。CSS N3的首個(gè)實(shí)例可提供32核配置,熱設(shè)計(jì)功耗 (TDP) 低至40W。此外CSS N3的可擴(kuò)展性非常強(qiáng),可覆蓋電信、網(wǎng)絡(luò)和DPU等一系列應(yīng)用。

而Arm Neoverse V3 CPU則是專門針對(duì)云端應(yīng)用、高效能運(yùn)算(HPC) 和機(jī)器學(xué)習(xí)(ML) 工作負(fù)載提供最高效能計(jì)算。Arm Neoverse V3系列支持高性能浮點(diǎn)和向量指令,具有SVE/SVE2、Bfloat16和Int8 MatMul等功能;L2級(jí)緩存達(dá)到了3MB;支持Arm機(jī)密計(jì)算架構(gòu),可在內(nèi)存中實(shí)現(xiàn)數(shù)據(jù)完全加密。而基于Neoverse V3而來的計(jì)算子系統(tǒng)——CSS V3,在單芯片上最多可擴(kuò)展至128核,并支持最新的高速內(nèi)存和I/O標(biāo)準(zhǔn)。

據(jù)Dermot O’Driscoll介紹,相較于前一代Neoverse平臺(tái),新一代的Neoverse N3和V3在各種關(guān)鍵工作負(fù)載下都實(shí)現(xiàn)了全面的提升?!癗 系列在壓縮方面取得了性能優(yōu)勢(shì),可降低云服務(wù)運(yùn)營商的成本,并最終降低云服務(wù)客戶的成本。同樣地,V 系列顯著提高了協(xié)議緩沖區(qū)的性能,這是在數(shù)據(jù)中心內(nèi)傳輸數(shù)據(jù)的一項(xiàng)關(guān)鍵功能?!?

而令人關(guān)注的是,在AI數(shù)據(jù)分析 (AI data analytics)這一項(xiàng)中新一代Neoverse的提升顯著。而這種顯著的提升來自Neoverse在微架構(gòu)層面針對(duì)XGBoost算法的適配優(yōu)化,通過分析合作伙伴的關(guān)鍵工作負(fù)載核心的特定關(guān)鍵任務(wù)算法,Arm能夠明確并實(shí)施對(duì)提升性能最有效的微架構(gòu)調(diào)整方法:這包括改進(jìn)分支預(yù)測(cè)、更好地管理最后一級(jí)緩存和相關(guān)內(nèi)存帶寬、以及大幅增加 L2 緩存等一系列微架構(gòu)調(diào)優(yōu)等等,最終讓Neoverse N3相比上一代在AI數(shù)據(jù)分析工作負(fù)載上提升高達(dá)196%。

而針對(duì)這兩年熱門的生成式AI應(yīng)用,目前行業(yè)的重點(diǎn)更多放在大語言模型(LLM)的訓(xùn)練上;然而隨著生成式 AI 廣泛應(yīng)用于實(shí)際業(yè)務(wù)場(chǎng)景,其計(jì)算的工作重點(diǎn)將轉(zhuǎn)向推理。這一轉(zhuǎn)變意味著要找到合適的模型和模型配置并加以訓(xùn)練,然后將其部署到更具成本效益的計(jì)算基礎(chǔ)設(shè)施上。而Arm的Neoverse系列CPU則具備滿足這一轉(zhuǎn)變的優(yōu)勢(shì),包括:非常優(yōu)異的Token生成吞吐量表現(xiàn);非常高的靈活度,可以適配更多工作負(fù)載;易于部署,并可支持各種軟件框架;具備低成本和高能效等優(yōu)勢(shì)。Dermot O’Driscoll表示,“CPU推理將是生成式AI計(jì)算應(yīng)用的關(guān)鍵組成。目前可以看到這些工作負(fù)載已從ML專用的Neoverse功能(如 Bfloat16、MatMul、SVE 和 SVE2)的微架構(gòu)優(yōu)化中受益,而且這一趨勢(shì)還將繼續(xù)。”


釋放芯粒的潛力,實(shí)現(xiàn)加速器和CPU緊密耦合

顯然為了實(shí)現(xiàn)更好的特定任務(wù)的計(jì)算效能,將所有的計(jì)算任務(wù)都通過CPU來運(yùn)行并不是最佳選擇;而通過特定的AI加速器來實(shí)現(xiàn)特定計(jì)算加速會(huì)是一種更常見的做法。據(jù)統(tǒng)計(jì),當(dāng)前布局在AI加速器領(lǐng)域的公司已經(jīng)接近80家。最引人注目的當(dāng)屬英偉達(dá)的Grace Hopper超級(jí)芯片,該芯片不僅利用了領(lǐng)先的 Hopper GPU,同時(shí)也使用了基于 Neoverse V2平臺(tái)的緊耦合計(jì)算芯粒 Grace,實(shí)現(xiàn)了內(nèi)存容量和共享內(nèi)存模式。這種緊耦合的CPU加上加速器配置,對(duì)大參數(shù) LLM 非常有益,對(duì)檢索-增強(qiáng)-生成 (RAG) 等新興方法也很有幫助。

通過通用計(jì)算芯粒+AI加速器的配置,來打造適合特定業(yè)務(wù)的專用AI計(jì)算芯片,已經(jīng)成為了業(yè)界的趨勢(shì)。通過芯粒技術(shù),可以讓芯片公司在單一芯片上實(shí)現(xiàn)多種不同工藝節(jié)點(diǎn)芯粒的組合,例如使用較舊的工藝節(jié)點(diǎn)處理 I/O,同時(shí)搭配先進(jìn)的工藝節(jié)點(diǎn)處理邏輯功能,從而實(shí)現(xiàn)更高性能和更高能效表現(xiàn)、同時(shí)兼顧更高良率的AI計(jì)算芯片。

但將不同的芯粒組合在一起,面臨著諸多的挑戰(zhàn),例如物理層的兼容性問題、協(xié)議層的打通、包括系統(tǒng)架構(gòu)層面的電源管理、內(nèi)存訪問和安全等等一系列的問題。要將多個(gè)芯粒組合在一起構(gòu)成一個(gè)可互操作的系統(tǒng),就需要在生態(tài)系統(tǒng)的層面做出一致的努力。

而Arm正在致力于推動(dòng)構(gòu)建一個(gè)功能強(qiáng)大、支持通用的芯粒生態(tài)系統(tǒng)。在其近期發(fā)布的芯粒系統(tǒng)架構(gòu) (Chiplet System Architecture, CSA) 中,Arm聯(lián)手了業(yè)內(nèi)20多家合作伙伴,旨在簡(jiǎn)化基于CSS打造的計(jì)算芯粒與AI加速器并行使用的聯(lián)合設(shè)計(jì)過程,進(jìn)而推動(dòng)整個(gè)Arm生態(tài)系統(tǒng)釋放芯粒技術(shù)的潛力。

而CSA的成功構(gòu)建的背后,離不開來自Arm全面設(shè)計(jì)(Arm Total Design)這一強(qiáng)大的生態(tài)的支持。據(jù)Arm基礎(chǔ)設(shè)施事業(yè)部營銷副總裁Eddie Ramirez介紹,Arm 全面設(shè)計(jì)已經(jīng)有20多家成員加入,其中包括新的EDA和配套IP提供商,以及來自包括韓國、中國臺(tái)灣、中國大陸和印度等戰(zhàn)略市場(chǎng)的芯片設(shè)計(jì)合作伙伴。Arm目前正在與三家主要代工廠展開積極合作,以確保其CSS產(chǎn)品能在其先進(jìn)工藝節(jié)點(diǎn)上進(jìn)行優(yōu)化??蛻舻亩ㄖ菩酒某晒﹄x不開可靠供應(yīng)鏈的支持,而Arm能夠給這些客戶提供多樣的技術(shù)和選擇。

像Socionext已經(jīng)宣布將會(huì)推出基于臺(tái)積電領(lǐng)先的2nm工藝開發(fā)的Neoverse CSS V3芯粒,這款配置 32 核的芯??膳c其他芯粒結(jié)合使用,能夠?qū)崿F(xiàn)經(jīng)濟(jì)高效的可拓展計(jì)算方案。

通過Arm全面設(shè)計(jì)和CSA,Arm正在將幫助客戶將最先進(jìn)的工藝、EDA工具、多種IP組合、芯粒互連和基礎(chǔ)軟件等技術(shù)和資源整合在一起,來幫助客戶實(shí)現(xiàn)一站式的AI計(jì)算芯片的設(shè)計(jì)、制造和應(yīng)用。

Mohamed Awad強(qiáng)調(diào)到,隨著越來越多的 AI 工作負(fù)載被采用,并貫穿于整個(gè)計(jì)算流程,涵蓋從大型數(shù)據(jù)中心到網(wǎng)絡(luò)、服務(wù)器以及計(jì)算基礎(chǔ)設(shè)施的方方面面。Neoverse V3和N3提供了支撐這一轉(zhuǎn)型所需的計(jì)算性能和效率,而在Arm全面設(shè)計(jì)生態(tài)項(xiàng)目的支持下,Arm的Neoverse計(jì)算子系統(tǒng)能夠加速客戶的產(chǎn)品上市時(shí)間,并加大對(duì)創(chuàng)新的投資力度。“將卓越性能、靈活性以及生態(tài)系統(tǒng)這三大要素結(jié)合在一起,是Arm Neoverse的獨(dú)特之處,也是其能夠在過去幾年中取得成功的原因。Arm Neoverse 計(jì)算子系統(tǒng)將這些優(yōu)勢(shì)演繹得淋漓盡致。在過去的一年里,CSS 取得了顯著的進(jìn)展,廣受頭部云服務(wù)提供商和初創(chuàng)公司的青睞。這些例證都很好地詮釋了Arm 平臺(tái)是未來計(jì)算及 AI 的基石?!?

聲明:該篇文章為本站原創(chuàng),未經(jīng)授權(quán)不予轉(zhuǎn)載,侵權(quán)必究。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉