Arm架構(gòu)在如今的電子行業(yè)中可以說是無處不在。自1990年Arm公司正式成立Armv4架構(gòu)到2011年Armv8架構(gòu),短短21年架構(gòu)經(jīng)過了5次重大升級。而Armv8意味著Arm正是從AArch32邁進AArch64,憑借強大的實力在過去的五年基于Arm架構(gòu)的設(shè)備出貨量超過了1000億。
十年轉(zhuǎn)瞬,Armv9架構(gòu)終于露出廬山真面目,適用于Arm全系列芯片的Armv9架構(gòu),這次的升級瞄準的則是日益強大的安全、人工智能(AI)和無處不在的專用處理的需求。實際上,Armv9架構(gòu)的推出也與正預(yù)示著行業(yè)的發(fā)展方向。憑借新架構(gòu),Arm提出了3000億的目標。
Armv9的三個技術(shù)特性
根據(jù)Arm高級副總裁、首席架構(gòu)師兼技術(shù)院士Richard Grisenthwaite的介紹,Armv9架構(gòu)是基于Armv8既往成功的基礎(chǔ),并增添了針對矢量處理的DSP、機器學習ML、安全等這三個技術(shù)特性。
Armv8之所以“統(tǒng)治”市場十年之久,最大的升級點便是引入了64架構(gòu),即AArch64,這也是Arm版本升級最大的一次改變。除此之外,AArch64摒棄了此前的處理器模式、優(yōu)先級級別等傳統(tǒng)概念,提出了EL(Exception level),并在兼容設(shè)計上定義了兩套運行環(huán)境ES(Execution state)。這些也都被Armv9所繼承,可以說Armv9是集大成者,將Arm三十多年的核心完美繼承下來。
矢量處理的DSP、機器學習ML處理能力提升要歸功于可伸縮矢量擴展(SVE2)和矩陣乘法指令的引入。相比SVE的128位矢量,SVE2可以支持多倍128位運算,最多2048位,因此才有如此魔力可以增強對在CPU上本地運行的5G系統(tǒng)、虛擬和增強現(xiàn)實以及ML工作負載的處理能力。
根據(jù)Richard Grisenthwaite的介紹,SVE2增強多項DSP和機器學習ML處理能力,例如Scatter-Gather DMA直接存儲器訪問,把它放到CPU架構(gòu)中,能實現(xiàn)更多的循環(huán),更大的DSP處理能力,從而支持更多的并行化。
安全能力提升則主要是通過Arm推出的全新的機密計算架構(gòu)CCA(Confidential Compute Architecture)實現(xiàn),根據(jù)介紹CCA通過打造基于硬件的安全運行環(huán)境來執(zhí)行計算,保護部分代碼和數(shù)據(jù),免于被存取或修改,甚至不受特權(quán)軟件的影響。同時還將基于此前的TrustZone安全技術(shù)引入動態(tài)創(chuàng)建機密領(lǐng)域(Realms)的概念,機密領(lǐng)域面向所有應(yīng)用,運行在獨立于安全或非安全環(huán)境之外的環(huán)境中,以實現(xiàn)保護數(shù)據(jù)安全的目的。
Armv9在算力上的提升
提到架構(gòu)的升級,就離不開算力這一個話題,Armv9架構(gòu)能夠為Arm后兩代產(chǎn)品提供30%的性能提升。根據(jù)介紹,以智能手機等移動平臺使用的Cortex-X/A系列為例,X1/A78這一代的性能相比16nm A72提升2.5倍,下一代的Matterhorn架構(gòu)及Makalu架構(gòu)會保持30%以上的IPC性能提升。
除了CPU性能以外,Armv9還非常重視整體的性能提升,包括降低內(nèi)存延遲(從150ns降至90ns)、頻率提升(從2.6GHz到3.3GHz)內(nèi)存帶寬(從20GB/s到60GB/s)、緩存等。
Richard Grisenthwaite強調(diào),Arm在新一代架構(gòu)Armv9上將保持這個速度,預(yù)計未來兩代移動和基礎(chǔ)設(shè)施CPU的性能提升將超過30%。,這個數(shù)據(jù)是根據(jù)業(yè)界標準評測工具來衡量的,而且這樣30%的算力提升完全是憑借于本身的架構(gòu)而不是借助于制程工藝來實現(xiàn)。
另外,隨著摩爾定律正在放緩,如何進一步提升算力呢?他認為,Arm將通過最大化地提升頻率、帶寬、緩存大小、并減少內(nèi)存延遲,以最大化CPU性能。
除了CPU,Arm還表示Mali GPU會增加更多高級功能,例如VRS可變幀率渲染、RT光線追蹤及其他高級渲染技術(shù)等。
由Armv9引發(fā)的市場競爭力
實際上,在去年Arm發(fā)布Arm? Cortex?-M55處理器和Arm Ethos?-U55神經(jīng)網(wǎng)絡(luò)處理器(NPU)兩款重磅“性能炸彈”時,就已開始蓄力發(fā)展人工智能(AI)。Cortex-M55是Arm歷來AI能力最為強大的Cortex-M處理器,能夠大幅提升DSP與ML的性能,同時更省電。
反觀行業(yè)趨勢,應(yīng)用開始要求提供更高的數(shù)字信號處理(DSP)性能,實時算法的復(fù)雜程度增加和浮點算法趨勢下,DSP核或硬件加速單元越來越多被部署內(nèi)嵌在器件之中。DSP一直影響著下一代產(chǎn)品創(chuàng)新,這是因為許多算法在字長和動態(tài)范圍有著很高的要求,DSP可免去定點到浮點的轉(zhuǎn)化工作加速產(chǎn)品上市,另外DSP浮點計算成本越來越接近定點計算。正因如此,便形成了Arm+DSP內(nèi)核的黃金搭檔。
另外,行業(yè)也正在將越來越多的機器學習工作負載變得更加普遍,雖然機器學習有著許多專用的加速器,不過相比來說大量的小范圍機器學習的主力仍然是CPU,因此矩陣乘法指令成為關(guān)鍵。
在安全性能上,Arm曾在此前進行了多維度的功能增強,包括PSA認證、TrustZone等。目前PSA認證已經(jīng)有有超過35個合作伙伴提供的60多種認證產(chǎn)品,而新推出的CCA則也將基于TrustZone提供更加安全的架構(gòu)。
從Armv9著眼的點來看,行業(yè)正逐漸對算力功耗平衡性和安全性能要求提高。Arm架構(gòu)可用在物聯(lián)網(wǎng)的大部分設(shè)備之上,因此對這兩項要求更加吃緊。大數(shù)據(jù)時代爆炸量的信息增長下,一方面將計算分成了多個維度,另一方面將會對數(shù)據(jù)安全提出更高的要求。
根據(jù)Arm的介紹,搭載ARMv9處理器的芯片最快在2021年年底就會面世,物聯(lián)網(wǎng)發(fā)展日趨成熟,這個時間點恰好提升競爭力的好時機。市場或?qū)碛凶非髽O致計算性能的高端產(chǎn)品、超低功耗的省電高手、主打安全可靠的產(chǎn)品。而Armv9經(jīng)過架構(gòu)的更新,能夠從底層和非制程方向進行大改革,相信能為市場帶來新的競爭力。
而在廣為受關(guān)注的國內(nèi)授權(quán)問題上,Arm強調(diào):“Arm既有源于美國的IP,也有非源于美國的IP。經(jīng)過全面的審查,Arm確定其Armv9架構(gòu)不受美國出口管理條例(EAR)的約束。Arm已將此通知美國政府相關(guān)部門,我們將繼續(xù)遵守美國商務(wù)部針對華為及其附屬公司海思的指導(dǎo)方針。”