原創(chuàng)

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

時(shí)間：2021-04-30 14:02:12

關(guān)鍵字： ARM Neoverse

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]Arm Neoverse V1和N2平臺(tái)終于正式亮相，與此同時(shí)Arm Neoverse CMN-700作為能夠充分發(fā)揮以上兩個(gè)平臺(tái)每瓦性能優(yōu)勢(shì)的重要互連技術(shù)一并被發(fā)布。全新架構(gòu)來(lái)臨之際，不容小覷的性能提升和Arm生態(tài)系統(tǒng)的進(jìn)發(fā)，進(jìn)一步挑戰(zhàn)x86架構(gòu)。

提到數(shù)據(jù)中心和超級(jí)計(jì)算機(jī)，x86架構(gòu)無(wú)疑是多年以來(lái)的霸主，Arm架構(gòu)因其獨(dú)特的特性和高性能逐漸占領(lǐng)數(shù)據(jù)中心市場(chǎng)，并在去年9月發(fā)布Arm Neoverse的產(chǎn)品路線圖。

短短幾個(gè)月，Arm Neoverse V1和N2平臺(tái)終于正式亮相，與此同時(shí)Arm Neoverse CMN-700作為能夠充分發(fā)揮以上兩個(gè)平臺(tái)每瓦性能優(yōu)勢(shì)的重要互連技術(shù)一并被發(fā)布。

全新架構(gòu)來(lái)臨之際，不容小覷的性能提升和Arm生態(tài)系統(tǒng)的進(jìn)發(fā)，進(jìn)一步挑戰(zhàn)x86架構(gòu)。

V1和N2的性能革命

從之前Arm給出的路線圖中可以看出，Arm將Neoverse平臺(tái)分為三個(gè)定位，分別是低功耗小面積的E系列、最大化PPA的N系列、最高性能的V系列。

去年Arm發(fā)布了Neoverse N1，由此也可以看出，Neoverse V1將作為Arm第一個(gè)最高算力平臺(tái)，Neoverse N2則屬于升級(jí)版的N1，繼續(xù)發(fā)揮性能、功耗、面積上的平衡性。通過(guò)發(fā)言人的介紹，這兩款平臺(tái)在性能上的提升不僅回收此前的預(yù)告，也帶給人更多的驚喜。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

正如上文所講，Neoverse V1的設(shè)計(jì)理念就是性能至上，而這種極致性能面向的便是高性能和百萬(wàn)兆計(jì)算市場(chǎng)。

Arm基礎(chǔ)設(shè)施事業(yè)部高級(jí)副總裁兼總經(jīng)理Chris Bergey為記者介紹，Neoverse V1不僅加寬了微架構(gòu)，還增加了緩沖區(qū)和隊(duì)列的深度，以便在運(yùn)行中容納更多指令。

他強(qiáng)調(diào)，這是Arm設(shè)計(jì)過(guò)最寬的微架構(gòu)，Arm預(yù)期Neoverse V1在多核配置中能勝過(guò)市場(chǎng)上的其他的產(chǎn)品。

除此之外，Neoverse V1還提供了足夠的靈活性，不僅能夠整合片上專用加速器，還可自由選擇適當(dāng)IO尺寸，利用芯片集和多芯片功能提高能和數(shù)量和性能。

他認(rèn)為，在這種組合的設(shè)計(jì)方法下，能夠提高良品率降低成本，從合作伙伴SiPearl和ETRI的高性能計(jì)算SoC也擁有這種設(shè)計(jì)要點(diǎn)，這也是HPC的發(fā)展方向。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

Neoverse V1新增了一個(gè)關(guān)鍵功能SVE，它為Arm開(kāi)發(fā)者提供了一條全新的矢量編程和數(shù)據(jù)操作工具。與此同時(shí)，SVE也為HPC提供了全新的高性能且對(duì)開(kāi)發(fā)者友好的編程功能。

在HACCmk算法中，Arm現(xiàn)有的SIMD指令集NEON難以將某些代碼矢量化處理，而SVE可以直接取用相同代碼，很好地對(duì)其自動(dòng)矢量化，從而提高將近3.5倍的處理速度。在Neoverse V1中，加倍SVE的矢量寬度，對(duì)應(yīng)的處理速度也幾乎提高了一倍。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

相比去年發(fā)布的Neoverse N1，Neoverse V1擁有1.8倍的矢量工作負(fù)載，2倍的浮點(diǎn)運(yùn)算能力，4倍的機(jī)器學(xué)習(xí)性能。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

Neoverse N2雖然作為一款在功耗、性能和面積做到最優(yōu)化的產(chǎn)品，實(shí)際上隨著云、邊緣、5G市場(chǎng)的發(fā)展，不僅需要好的散熱，還需要更強(qiáng)的算力。

根據(jù)Chris Bergey的介紹，Neoverse N2的效率配置使其能夠在單插槽線程具有很大的競(jìng)爭(zhēng)力，與此同時(shí)提供專屬的內(nèi)核，而并非共享線程。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

Neoverse N2也搭載了SVE，不過(guò)是SVE2。SVE和SVE2都屬于與矢量長(zhǎng)度無(wú)關(guān)的指令集，用戶只需編寫(xiě)、編譯一次代碼，即可在各種多樣硬件中運(yùn)行，還可以充分利用矢量寬度。

除此之外，兩者具有一定差異性，SVE注重加速HPC，SVE2則主要是將其擴(kuò)展到機(jī)器學(xué)習(xí)、DSP、多媒體和5G等應(yīng)用場(chǎng)景。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命相比去年發(fā)布的Neoverse N1，Neoverse N2擁有1.4倍的SPECint2006跑分?jǐn)?shù)據(jù)，1.3倍的NGINX性能，1.2倍DPDK L3數(shù)據(jù)包處理能力。

Neoverse N2是基于Arm上個(gè)月剛剛發(fā)布的Armv9架構(gòu)，擁有更好的安全性、能效和性能的重大提升。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

碾壓傳統(tǒng)架構(gòu)的實(shí)力

Neoverse在單線程處理能力處于領(lǐng)先地位，核心數(shù)量也處在前列。在Arm展示核心數(shù)上Neoverse N2在云端上的應(yīng)用也直接達(dá)到了128核。Neoverse V1相比N2上，內(nèi)核數(shù)量有縮減，但提供了最佳的單線程能力。

這一次，Arm也與傳統(tǒng)的架構(gòu)進(jìn)行了對(duì)比。Chris Bergey表示，Arm Neoverse能夠提供同等或者更高的單線程性能，它提供的是一個(gè)內(nèi)核而不是一個(gè)線程，因此有非常明確的定義和高可用性；此外，在實(shí)現(xiàn)更多CPU內(nèi)核數(shù)量支持和更低的能耗的同時(shí)還能提供很好的可擴(kuò)展性。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

通過(guò)Arm測(cè)量的數(shù)據(jù)來(lái)看，從單線程處理性能上來(lái)看，V1比N2更加強(qiáng)勁，值得一提的是及時(shí)在滿載、高核數(shù)配置中，Neoverse N2也能提供驚人的性能。

僅從單線程能力來(lái)說(shuō)，傳統(tǒng)計(jì)算架構(gòu)2021年升級(jí)的40核心80線程產(chǎn)品和64核心128線程產(chǎn)品依然無(wú)法與Neoverse N1相匹敵，而Neoverse V1和N2在單線程性能上則是遙遙領(lǐng)先競(jìng)爭(zhēng)對(duì)手。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

從單插槽吞吐量性能上來(lái)看，N2比V1更強(qiáng)勁，這也是Neoverse N2所聚焦的特性。Chris Bergey強(qiáng)調(diào)，性能固然重要，降低TCO也是互聯(lián)網(wǎng)公司真正關(guān)心的，這也是N2不同的著重點(diǎn)。

傳統(tǒng)計(jì)算架構(gòu)2021年升級(jí)的40核心80線程產(chǎn)品和64核心128線程產(chǎn)品雖然在單插槽吞吐量上超過(guò)了N1，但V1和N2的重磅升級(jí)遠(yuǎn)遠(yuǎn)甩開(kāi)了市場(chǎng)傳統(tǒng)產(chǎn)品。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

不容小覷的是，構(gòu)建V1和N2高性能SoC的關(guān)鍵要素就是Arm CMN-700 Mesh互連技術(shù)。前一代CMN-600為可擴(kuò)展、高內(nèi)核數(shù)、高性能SoC奠定了基礎(chǔ)，CMN-700則是奠定在此基礎(chǔ)上的。

值得一提的是，CMN-700與前一代相比得到全面參數(shù)提升，包括內(nèi)核數(shù)量、緩存大小、附加內(nèi)存、IO設(shè)備數(shù)量和類型。

CMN-700不僅加入了CXL功能，還針對(duì)傳統(tǒng)多插槽設(shè)計(jì)和新的芯片集或多芯片集成提高性能和優(yōu)化功能。“多芯片集成將為突破傳統(tǒng)的硅掩模版限制提供新的機(jī)遇，并為緊密耦合的異構(gòu)計(jì)算提供更大的靈活性”，Chris Bergey如是說(shuō)。

直面?zhèn)鹘y(tǒng)x86架構(gòu)：Arm Neoverse的性能革命

Arm多年IP積累的結(jié)晶

在摩爾定律放緩之下，異構(gòu)計(jì)算是提升算力的關(guān)鍵。Arm基礎(chǔ)設(shè)施事業(yè)部全球高級(jí)總監(jiān)鄒挺Frank Zou為記者介紹：“我們已經(jīng)看到一些合作伙伴把Neoverse V1和N2平臺(tái)應(yīng)用到廣泛場(chǎng)景中，其中就有合作伙伴將Neoverse N2的內(nèi)核用于異構(gòu)計(jì)算系統(tǒng)，和FPGA加速卡一起使用。還有合作伙伴將FPGA加速器和N2放在一個(gè)芯片上做成一個(gè)SoC芯片系統(tǒng)，通過(guò)Chiplet技術(shù)為緊密耦合的異構(gòu)計(jì)算提供更大的靈活性?！?span>

而如此強(qiáng)勁算力的Arm Neoverse自發(fā)布以來(lái)持續(xù)合作不斷，包括騰訊、Oracle、AWS、MeitY、SiPearl、ETRI等，并且英偉達(dá)最近公布的Grace芯片也是基于Arm Neoverse的。

Arm Neoverse之所以如此廣受信賴，是基于Arm多個(gè)IP的優(yōu)化組合。Chris Bergey對(duì)此解釋：“通過(guò)Neoverse產(chǎn)品，我們發(fā)現(xiàn)越來(lái)越多的客戶需要完整的解決方案，即一個(gè)平臺(tái)去承載他們的系統(tǒng)，他們可以在上面添加他們自己的加速器或者其他設(shè)備，并且可以對(duì)其進(jìn)行定制，我們要做的就是為客戶提供構(gòu)建科技大廈所需要的“磚瓦”，而不只是單個(gè)給客戶某一個(gè)單獨(dú)的IP，單獨(dú)的CPU或互聯(lián)IP?！?span>

當(dāng)然，單純的算力制衡并不是評(píng)判的標(biāo)準(zhǔn)，可擴(kuò)展性成了當(dāng)今HPC領(lǐng)域的重要指標(biāo)。Arm的技術(shù)專家為此解釋，Neoverse的產(chǎn)品線在可擴(kuò)展性方面具有非常獨(dú)一無(wú)二的技術(shù)特征。

第一個(gè)技術(shù)特征就是能夠支持大量CPU的硬件一致性指令緩存，實(shí)現(xiàn)擁有多虛擬機(jī)的龐大操作系統(tǒng)的優(yōu)化。第二，Neoverse產(chǎn)品同時(shí)還支持 MPAM（Memory Partitioning and Monitoring）和 C-busy（Completer busy）特性，能夠讓大量的內(nèi)核可以均衡利用那些DRAM以及系統(tǒng)緩存等共享資源。同時(shí)，在支持可擴(kuò)展性方面我們有CMN-700互連技術(shù)，能實(shí)現(xiàn)多達(dá)256個(gè)內(nèi)核的可擴(kuò)展性支持，同時(shí)還能連接到加速器以及合作伙伴的IP等。