直面?zhèn)鹘y(tǒng)x86架構(gòu):Arm Neoverse的性能革命
提到數(shù)據(jù)中心和超級(jí)計(jì)算機(jī),x86架構(gòu)無(wú)疑是多年以來(lái)的霸主,Arm架構(gòu)因其獨(dú)特的特性和高性能逐漸占領(lǐng)數(shù)據(jù)中心市場(chǎng),并在去年9月發(fā)布Arm Neoverse的產(chǎn)品路線圖。
短短幾個(gè)月,Arm Neoverse V1和N2平臺(tái)終于正式亮相,與此同時(shí)Arm Neoverse CMN-700作為能夠充分發(fā)揮以上兩個(gè)平臺(tái)每瓦性能優(yōu)勢(shì)的重要互連技術(shù)一并被發(fā)布。
全新架構(gòu)來(lái)臨之際,不容小覷的性能提升和Arm生態(tài)系統(tǒng)的進(jìn)發(fā),進(jìn)一步挑戰(zhàn)x86架構(gòu)。
V1和N2的性能革命
從之前Arm給出的路線圖中可以看出,Arm將Neoverse平臺(tái)分為三個(gè)定位,分別是低功耗小面積的E系列、最大化PPA的N系列、最高性能的V系列。
去年Arm發(fā)布了Neoverse N1,由此也可以看出,Neoverse V1將作為Arm第一個(gè)最高算力平臺(tái),Neoverse N2則屬于升級(jí)版的N1,繼續(xù)發(fā)揮性能、功耗、面積上的平衡性。通過(guò)發(fā)言人的介紹,這兩款平臺(tái)在性能上的提升不僅回收此前的預(yù)告,也帶給人更多的驚喜。
正如上文所講,Neoverse V1的設(shè)計(jì)理念就是性能至上,而這種極致性能面向的便是高性能和百萬(wàn)兆計(jì)算市場(chǎng)。
Arm基礎(chǔ)設(shè)施事業(yè)部高級(jí)副總裁兼總經(jīng)理Chris Bergey為記者介紹,Neoverse V1不僅加寬了微架構(gòu),還增加了緩沖區(qū)和隊(duì)列的深度,以便在運(yùn)行中容納更多指令。
他強(qiáng)調(diào),這是Arm設(shè)計(jì)過(guò)最寬的微架構(gòu),Arm預(yù)期Neoverse V1在多核配置中能勝過(guò)市場(chǎng)上的其他的產(chǎn)品。
除此之外,Neoverse V1還提供了足夠的靈活性,不僅能夠整合片上專用加速器,還可自由選擇適當(dāng)IO尺寸,利用芯片集和多芯片功能提高能和數(shù)量和性能。
他認(rèn)為,在這種組合的設(shè)計(jì)方法下,能夠提高良品率降低成本,從合作伙伴SiPearl和ETRI的高性能計(jì)算SoC也擁有這種設(shè)計(jì)要點(diǎn),這也是HPC的發(fā)展方向。
Neoverse V1新增了一個(gè)關(guān)鍵功能SVE,它為Arm開(kāi)發(fā)者提供了一條全新的矢量編程和數(shù)據(jù)操作工具。與此同時(shí),SVE也為HPC提供了全新的高性能且對(duì)開(kāi)發(fā)者友好的編程功能。
在HACCmk算法中,Arm現(xiàn)有的SIMD指令集NEON難以將某些代碼矢量化處理,而SVE可以直接取用相同代碼,很好地對(duì)其自動(dòng)矢量化,從而提高將近3.5倍的處理速度。在Neoverse V1中,加倍SVE的矢量寬度,對(duì)應(yīng)的處理速度也幾乎提高了一倍。
相比去年發(fā)布的Neoverse N1,Neoverse V1擁有1.8倍的矢量工作負(fù)載,2倍的浮點(diǎn)運(yùn)算能力,4倍的機(jī)器學(xué)習(xí)性能。
Neoverse N2雖然作為一款在功耗、性能和面積做到最優(yōu)化的產(chǎn)品,實(shí)際上隨著云、邊緣、5G市場(chǎng)的發(fā)展,不僅需要好的散熱,還需要更強(qiáng)的算力。
根據(jù)Chris Bergey的介紹,Neoverse N2的效率配置使其能夠在單插槽線程具有很大的競(jìng)爭(zhēng)力,與此同時(shí)提供專屬的內(nèi)核,而并非共享線程。
Neoverse N2也搭載了SVE,不過(guò)是SVE2。SVE和SVE2都屬于與矢量長(zhǎng)度無(wú)關(guān)的指令集,用戶只需編寫(xiě)、編譯一次代碼,即可在各種多樣硬件中運(yùn)行,還可以充分利用矢量寬度。
除此之外,兩者具有一定差異性,SVE注重加速HPC,SVE2則主要是將其擴(kuò)展到機(jī)器學(xué)習(xí)、DSP、多媒體和5G等應(yīng)用場(chǎng)景。
相比去年發(fā)布的Neoverse N1,Neoverse N2擁有1.4倍的SPECint2006跑分?jǐn)?shù)據(jù),1.3倍的NGINX性能,1.2倍DPDK L3數(shù)據(jù)包處理能力。
Neoverse N2是基于Arm上個(gè)月剛剛發(fā)布的Armv9架構(gòu),擁有更好的安全性、能效和性能的重大提升。
碾壓傳統(tǒng)架構(gòu)的實(shí)力
Neoverse在單線程處理能力處于領(lǐng)先地位,核心數(shù)量也處在前列。在Arm展示核心數(shù)上Neoverse N2在云端上的應(yīng)用也直接達(dá)到了128核。Neoverse V1相比N2上,內(nèi)核數(shù)量有縮減,但提供了最佳的單線程能力。
這一次,Arm也與傳統(tǒng)的架構(gòu)進(jìn)行了對(duì)比。Chris Bergey表示,Arm Neoverse能夠提供同等或者更高的單線程性能,它提供的是一個(gè)內(nèi)核而不是一個(gè)線程,因此有非常明確的定義和高可用性;此外,在實(shí)現(xiàn)更多CPU內(nèi)核數(shù)量支持和更低的能耗的同時(shí)還能提供很好的可擴(kuò)展性。
通過(guò)Arm測(cè)量的數(shù)據(jù)來(lái)看,從單線程處理性能上來(lái)看,V1比N2更加強(qiáng)勁,值得一提的是及時(shí)在滿載、高核數(shù)配置中,Neoverse N2也能提供驚人的性能。
僅從單線程能力來(lái)說(shuō),傳統(tǒng)計(jì)算架構(gòu)2021年升級(jí)的40核心80線程產(chǎn)品和64核心128線程產(chǎn)品依然無(wú)法與Neoverse N1相匹敵,而Neoverse V1和N2在單線程性能上則是遙遙領(lǐng)先競(jìng)爭(zhēng)對(duì)手。
從單插槽吞吐量性能上來(lái)看,N2比V1更強(qiáng)勁,這也是Neoverse N2所聚焦的特性。Chris Bergey強(qiáng)調(diào),性能固然重要,降低TCO也是互聯(lián)網(wǎng)公司真正關(guān)心的,這也是N2不同的著重點(diǎn)。
傳統(tǒng)計(jì)算架構(gòu)2021年升級(jí)的40核心80線程產(chǎn)品和64核心128線程產(chǎn)品雖然在單插槽吞吐量上超過(guò)了N1,但V1和N2的重磅升級(jí)遠(yuǎn)遠(yuǎn)甩開(kāi)了市場(chǎng)傳統(tǒng)產(chǎn)品。
不容小覷的是,構(gòu)建V1和N2高性能SoC的關(guān)鍵要素就是Arm CMN-700 Mesh互連技術(shù)。前一代CMN-600為可擴(kuò)展、高內(nèi)核數(shù)、高性能SoC奠定了基礎(chǔ),CMN-700則是奠定在此基礎(chǔ)上的。
值得一提的是,CMN-700與前一代相比得到全面參數(shù)提升,包括內(nèi)核數(shù)量、緩存大小、附加內(nèi)存、IO設(shè)備數(shù)量和類型。
CMN-700不僅加入了CXL功能,還針對(duì)傳統(tǒng)多插槽設(shè)計(jì)和新的芯片集或多芯片集成提高性能和優(yōu)化功能。“多芯片集成將為突破傳統(tǒng)的硅掩模版限制提供新的機(jī)遇,并為緊密耦合的異構(gòu)計(jì)算提供更大的靈活性”,Chris Bergey如是說(shuō)。
Arm多年IP積累的結(jié)晶
在摩爾定律放緩之下,異構(gòu)計(jì)算是提升算力的關(guān)鍵。Arm基礎(chǔ)設(shè)施事業(yè)部全球高級(jí)總監(jiān)鄒挺Frank Zou為記者介紹:“我們已經(jīng)看到一些合作伙伴把Neoverse V1和N2平臺(tái)應(yīng)用到廣泛場(chǎng)景中,其中就有合作伙伴將Neoverse N2的內(nèi)核用于異構(gòu)計(jì)算系統(tǒng),和FPGA加速卡一起使用。還有合作伙伴將FPGA加速器和N2放在一個(gè)芯片上做成一個(gè)SoC芯片系統(tǒng),通過(guò)Chiplet技術(shù)為緊密耦合的異構(gòu)計(jì)算提供更大的靈活性?!?span>
而如此強(qiáng)勁算力的Arm Neoverse自發(fā)布以來(lái)持續(xù)合作不斷,包括騰訊、Oracle、AWS、MeitY、SiPearl、ETRI等,并且英偉達(dá)最近公布的Grace芯片也是基于Arm Neoverse的。
Arm Neoverse之所以如此廣受信賴,是基于Arm多個(gè)IP的優(yōu)化組合。Chris Bergey對(duì)此解釋:“通過(guò)Neoverse產(chǎn)品,我們發(fā)現(xiàn)越來(lái)越多的客戶需要完整的解決方案,即一個(gè)平臺(tái)去承載他們的系統(tǒng),他們可以在上面添加他們自己的加速器或者其他設(shè)備,并且可以對(duì)其進(jìn)行定制,我們要做的就是為客戶提供構(gòu)建科技大廈所需要的“磚瓦”,而不只是單個(gè)給客戶某一個(gè)單獨(dú)的IP,單獨(dú)的CPU或互聯(lián)IP?!?span>
當(dāng)然,單純的算力制衡并不是評(píng)判的標(biāo)準(zhǔn),可擴(kuò)展性成了當(dāng)今HPC領(lǐng)域的重要指標(biāo)。Arm的技術(shù)專家為此解釋,Neoverse的產(chǎn)品線在可擴(kuò)展性方面具有非常獨(dú)一無(wú)二的技術(shù)特征。
第一個(gè)技術(shù)特征就是能夠支持大量CPU的硬件一致性指令緩存,實(shí)現(xiàn)擁有多虛擬機(jī)的龐大操作系統(tǒng)的優(yōu)化。第二,Neoverse產(chǎn)品同時(shí)還支持 MPAM(Memory Partitioning and Monitoring)和 C-busy(Completer busy)特性,能夠讓大量的內(nèi)核可以均衡利用那些DRAM以及系統(tǒng)緩存等共享資源。同時(shí),在支持可擴(kuò)展性方面我們有CMN-700互連技術(shù),能實(shí)現(xiàn)多達(dá)256個(gè)內(nèi)核的可擴(kuò)展性支持,同時(shí)還能連接到加速器以及合作伙伴的IP等。
根據(jù)Chris Bergey的介紹,之前Arm從來(lái)沒(méi)有在這類IP實(shí)現(xiàn)上投入如此多的資源,而Neoverse平臺(tái)的超高性能也為這個(gè)產(chǎn)品交了一份滿意的答卷。