可以賣給中國!ARM發(fā)布全新Ethos NPU:華為會用嗎?
10月23日,在北京召開的2019 ARM技術(shù)峰會上,ARM正式發(fā)布了全新的Ethos-N77/N57/N37系列NPU IP,進(jìn)一步加碼人工智能(AI)計(jì)算。
與此同時(shí),ARM還推出了針對主流移動游戲市場的高能效的Mali G57 GPU和針對主流及入門級市場的單位面積最高效的Mali-D37 DPU。
ARMv8及后續(xù)架構(gòu)將不受限制的繼續(xù)支持中國合作伙伴!
今年9月25日,ARM中國在深圳召開媒體溝通會,針對此前外界盛傳的“ARM斷供華為”一事,ARM表示與華為仍是合作伙伴,ARMv8及后續(xù)指令集可繼續(xù)授權(quán)!
10月23日,在2019 ARM技術(shù)峰會北京站上,ARM董事長兼CEO吳雄昂在開場致辭當(dāng)中再度重申,經(jīng)過法務(wù)嚴(yán)謹(jǐn)?shù)恼{(diào)查及相關(guān)調(diào)整,目前無論是ARMv8,還是后續(xù)的架構(gòu)都是源自英國的技術(shù),將可不受限制的繼續(xù)支持中國的合作伙伴!
此外,吳雄昂還指出,ARM在中國的合作伙伴已經(jīng)超過200家,中國合作伙伴出貨的基于ARM架構(gòu)的芯片已超過了160億顆,國產(chǎn)SoC芯片95%都是基于ARM架構(gòu)的。
吳雄昂強(qiáng)調(diào),ARM是唯一非源于美國的主流計(jì)算架構(gòu)。ARM中國承接ARM在中國的業(yè)務(wù)和技術(shù),在ARM標(biāo)準(zhǔn)之下自主創(chuàng)新、賦能產(chǎn)能,把中國工程師能力調(diào)動起來打造知識產(chǎn)權(quán)。這些知識產(chǎn)權(quán)將不只是提供給中國產(chǎn)業(yè),還要通過統(tǒng)一標(biāo)準(zhǔn)面向全球。
加碼AI計(jì)算,ARM發(fā)布Ethos系列NPU IP
根據(jù)ARM及研究機(jī)構(gòu)的預(yù)計(jì),到 2028 年,移動設(shè)備的數(shù)量將從現(xiàn)在的17億臺增長到 22 億臺,智能的IP Camera將由現(xiàn)在的1.6億臺增長到13億臺。在終端側(cè)具有人工智能的設(shè)備將會由現(xiàn)在的3億臺增長到32億臺。足見人工智能市場增長之迅速。
而隨著AI技術(shù)的興起和廣泛應(yīng)用,AI對于芯片的算力也提出了更高的要求。作為全球最大的處理器IP供應(yīng)商,ARM的Cortex CPU和Mali GPU在以智能手機(jī)為代表的移動終端市場占據(jù)了極大的市場份額,但是在AI計(jì)算領(lǐng)域,ARM此前一直都是依托于其Cortex CPU、Mali GPU及相關(guān)軟件開發(fā)工具來提升其AI計(jì)算的能力。
但是,傳統(tǒng)的CPU、GPU核心并不是AI計(jì)算的最佳載體。因此越來越多的芯片廠商開始推出了AI專用芯片,或者在SoC當(dāng)中加入AI計(jì)算專用的NPU內(nèi)核。
比如華為2017年就率先推出了集成NPU內(nèi)核的麒麟970處理器,同時(shí)蘋果推出的A11處理器也首次集成了NPU內(nèi)核。此后,高通、聯(lián)發(fā)科、三星、展銳等手機(jī)芯片廠商也紛紛開始在SoC當(dāng)中集成自己的NPU內(nèi)核。
在此趨勢之下,為了應(yīng)對市場對于AI內(nèi)核的需求,ARM在2018年年初也公布了針對AI的Project Trillium項(xiàng)目,其中就包括了全新的機(jī)器學(xué)習(xí)處理器IP、目標(biāo)檢測處理器IP和神經(jīng)網(wǎng)絡(luò)軟件庫。經(jīng)過了近兩年的時(shí)間,現(xiàn)在Project Trillium項(xiàng)目的成果也開始正式產(chǎn)品化。
▲ARM市場營銷副總裁Ian Smythe
今天,ARM市場營銷副總裁Ian Smythe在ARM技術(shù)峰會上正式發(fā)布了全新的Ethos系列NPU IP,包括針對高端市場的Ethos-N77、針對主流市場的Ethos-N57和低端市場的Ethos-N37。
Ethos-N77實(shí)際上就是ARM去年公布的Project Trillium項(xiàng)目中的那款機(jī)器學(xué)習(xí)處理器IP,其內(nèi)部集成了可配置的1-4MB的SRAM,在1GHz主頻下,7nm工藝下,可以提供最高4 TOPS的AI算力,每瓦性能高達(dá)5 TOP。另外,之前Proj
m項(xiàng)目公布的數(shù)據(jù)顯示,Ethos-N77的單位面積算力為4.6 TOPs/mm?(最新發(fā)布的可能有進(jìn)一步提升)。
那么Ethos-N77的這個(gè)性能在市場上處于什么水平呢?
根據(jù)資料顯示,華為麒麟970 NPU是基于寒武紀(jì)1A IP,算力是1.92TOPS。而蘋果A11的NPU算力僅為 TOPS,A12的NPU性能為5TOPS。而根據(jù)此前高通驍龍855發(fā)布之時(shí)的數(shù)據(jù)顯示,其整體(包括CPU+GPU+DSP等)的AI算力(超過7 TOPS)是華為麒麟980的兩倍,照此估算的話,0.6麒麟980的NPU性能大概在3.5 TOPS左右。
另外據(jù)了解,華為麒麟980的NPU是基于寒武紀(jì)IH8,是針對低功耗場景視覺領(lǐng)域的NPU內(nèi)核IP,而寒武紀(jì)IH8有 4 種可選的配置1T、2T、4T、8T OPS@1GHz,麒麟980應(yīng)該是4TOPS的版本。而麒麟990系列的NPU并未公布具體的OPS數(shù)據(jù),不過其采用了全新的達(dá)芬奇架構(gòu)以及兩個(gè)大核+一個(gè)小核的配置,性能應(yīng)該更強(qiáng)。
在單位面積的算力方面,根據(jù)芯智訊此前的估算,麒麟970的NPU的單位面積性能大概是1.48 TOPs/mm2,而麒麟980和990沒有相應(yīng)數(shù)據(jù)可以參考。而根據(jù)TechInsights的拆解,蘋果A12的NPU內(nèi)核的面積為5.79mm2,也就是說蘋果A12的NPU的單位面積算力約為0.86TOPS/mm2。
在每瓦算力方面,華為公布的資料顯示,麒麟810的每瓦算力可以達(dá)到6TOPS。蘋果的NPU未有相應(yīng)數(shù)據(jù)。寒武紀(jì)新的NPU內(nèi)核1M在7nm下每瓦性能為5TOPS。
從上面的數(shù)據(jù)對比來看,Ethos-N77的AI性能與蘋果A12和麒麟980的NPU相當(dāng),相比麒麟990系列的NPU性能可能要弱一些。在單位面積算力方面,遠(yuǎn)高于蘋果A12和麒麟970的NPU。在每瓦算力方面,也是遠(yuǎn)高于蘋果A12的NPU,略低于麒麟810。
綜合來看,ARM Ethos-N77各方面都還是比較出色的,達(dá)到了目前旗艦級NPU的水準(zhǔn)。
需要指出的是,4 TOPS的性能是單個(gè)Ethos-N77核心在1GHz主頻下的性能,如果配置雙核的話,那么性能無疑將進(jìn)一步提升,當(dāng)然功耗和面積會進(jìn)一步提升。
ARM此前就表示,Ethos系列IP是具有高可擴(kuò)展性、兼容性和可編程的,可以提供計(jì)算性能最低從2 GOPS到超過70 TOPS的產(chǎn)品。
另外,ARM還推出了針對主流市場的Ethos-N57,內(nèi)置了512KB SRAM,在1GHz主頻下,算力最高可達(dá)2TOPS;而針對低端市場的Ethos-N37,是為了提供面積最小的ML推論處理器(小于1mm?)而設(shè)計(jì),其同樣也內(nèi)置了512KB SRAM,在1GHz主頻下,算力可達(dá)1TOPS。
ARM表示,Ethos-N57和Ethos-N37針對Int8與Int16數(shù)據(jù)類型的支持性進(jìn)行了優(yōu)化,通過如創(chuàng)新的Winograd技術(shù)的落地,使性能比同類NPU提升超過200%,并且配備了先進(jìn)的數(shù)據(jù)管理技術(shù),以減少數(shù)據(jù)的移動與相關(guān)的耗電,在ML在性能與成本、面積、帶寬與電池壽命之間達(dá)成了比較好的平衡。
據(jù)芯智訊了解,除了移動市場之外,ARM的Ethos系列IP未來也將會開始進(jìn)入物聯(lián)網(wǎng)、工業(yè)、汽車、網(wǎng)絡(luò)以及服務(wù)器市場。
開源的AI開發(fā)框架ARM NN
我們都知道,此前高通驍龍845/855系列都并未內(nèi)置專門的NPU內(nèi)核,但是其仍然提供了較高的AI能力,而這一切得益于其神經(jīng)網(wǎng)絡(luò)引擎Neural Processing Engine的助力。即采用更為彈性的異構(gòu)的機(jī)器學(xué)習(xí)架構(gòu),在通用平臺內(nèi)做內(nèi)核優(yōu)化,使得AI計(jì)算合理的分布在CPU、GPU、DSP等每個(gè)單元上,從而可以針對不同移動終端提供彈性調(diào)用各個(gè)處理單元來進(jìn)行AI計(jì)算。
而ARM此次在發(fā)布Ethos系列NPU IP的同時(shí),也推出了開源AI開發(fā)框架ARM NN,強(qiáng)化異構(gòu)的AI計(jì)算,進(jìn)一步提升整體的AI性能。
據(jù)介紹,ARM NN是屬于偏底層的架構(gòu),而且在其基礎(chǔ)之上,可以支持其他的更高層級第三方的NN框架,并提供完整工具鏈,可實(shí)現(xiàn)在AI計(jì)算上對于ARM CPU/GPU/NPU內(nèi)核的合理調(diào)用,實(shí)現(xiàn)更高效的異構(gòu)的AI計(jì)算。
ARM表示,由于不同的SoC對于AI的加速方法是不一樣的,因此第三方應(yīng)用及開發(fā)者要用到片上系統(tǒng)的加速能力是比較困難的。而開源的ARM NN的推出,將降低開發(fā)者調(diào)用ARM內(nèi)核的難度,進(jìn)一步提升開發(fā)人員的體驗(yàn)。
此外,為了推進(jìn)基于ARM NN的內(nèi)容創(chuàng)建和開發(fā),ARM還與Unity(Unity最目前主要的3D引擎,50%的3D游戲,75%的VR內(nèi)容都是基于Unity引擎開發(fā))達(dá)成合作,進(jìn)一步優(yōu)化Unity引擎,使得基于Unity的開發(fā)者能夠更容易的訪問和更高效的利用ARM的內(nèi)核,在ARM CPU/GPU/NPU之間獲得更好的性能??梢詫?shí)現(xiàn)一次開發(fā),即可獲得ARM全系列的內(nèi)核的支持(即可支持眾多基于ARM不同類型的內(nèi)核的SoC),無需再重新編譯。
Mali G57 GPU:為主流市場帶來智能與沉浸式體驗(yàn)
今年6月,ARM針對高端市場推出了首款基于全新Valhall架構(gòu)的GPU—;—;Mali-G77。今天,ARM針對游戲市場推出了第二款基于Valhall架構(gòu)的高性能、高能效的GPU內(nèi)核—;—;Mali-G57。(Vahall架構(gòu)進(jìn)一步提升了并行執(zhí)行的能力,同時(shí)在代碼上也做了盡量的簡化,從編譯角度來講也更加友好。)
據(jù)介紹,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,機(jī)器學(xué)習(xí)性能提升了60%。并且Mali-G57還加入了針對虛擬現(xiàn)實(shí)(VR)提供注視點(diǎn)渲染支持,再加上機(jī)器學(xué)習(xí)性能的提升,可以支持更復(fù)雜的XR實(shí)境應(yīng)用。而且,Mali-G57還支持1-6個(gè)核心的配置,可以滿足不同市場定位的智能手機(jī)的需求。
ARM表示,Mali-G57可以將優(yōu)質(zhì)的智能與沉浸式體驗(yàn)帶到主流市場,包括高保真游戲、媲美電玩主機(jī)的移動設(shè)備圖型效果、DTV的4K/8K用戶接口,以及更為復(fù)雜的虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)的負(fù)荷。
Mali-D37:ARM單位面積效率最高的DPU
在今天的技術(shù)論壇上,ARM還推出了目前單位面積最高效的顯示處理器Mali-D37。
據(jù)介紹,Mali-D37是ARM第一個(gè)面向主流市場的基于Komeda架構(gòu)DPU,擁有極高的單位面積效率,在支持全高清(Full HD)與2K分辨率的組態(tài)下,16nm制程的面積將小于1mm?。
在性能方面,Mali-D37保留了高階的Mali-D71關(guān)鍵的顯示功能,包括與Assertive Display 5結(jié)合使用后,可混合顯示高動態(tài)對比(HDR)與標(biāo)準(zhǔn)動態(tài)對比(SDR)的合成內(nèi)容。另外,Mali-D37其通過將部分GPU核心顯示的工作負(fù)載卸載到Mali-D37來工作,以減少GPU的工作以及對于內(nèi)存的訪問,使得系統(tǒng)的功耗可以降低30%。
ARM表示,Mali-D37可以支持入門級智能手機(jī)、平板電腦等成本較低的設(shè)備,獲得2K級別的視覺效果與性能支持。
ARM的通用型NPU能否獲得成功?
從目前的市場趨勢來看,AI芯片正越來越向?qū)S没姆较虬l(fā)展,越來越多的算法廠商也都紛紛基于自身的算法推出了自己的AI芯片。同樣,正如前面我們所提到的,目前華為、蘋果、高通、三星、展銳等眾多的手機(jī)芯片廠商也都有推出自己的NPU內(nèi)核。那么ARM的“通用型”的Ethos NPU IP真的有市場嗎?
對此,ARM市場營銷副總裁Ian Smythe表示,ARM的Ethos NPU IP并不是孤立存在的,其主要的優(yōu)勢在于,在其本身提供出色的AI性能的同時(shí),可以更好與ARM的CPU、GPU進(jìn)行協(xié)同,以實(shí)現(xiàn)異構(gòu)的AI計(jì)算,從而進(jìn)一步提升整個(gè)系統(tǒng)層級的AI性能、降低功耗。而且,目前AI市場還是在初期,很多的AI算法仍在快速迭代,選擇“通用型”的NPU是比較安全的做法。
在采訪當(dāng)中,Ian Smythe向芯智訊確認(rèn),ARM的Ethos NPU IP也可被集成于比如RISC-V等其他架構(gòu)的SoC當(dāng)中,但是Ian Smythe也強(qiáng)調(diào),這樣并不能發(fā)揮出Ethos NPU與其它非ARM CPU/GPU在AI計(jì)算上的協(xié)同優(yōu)勢。
另外,ARM的Ethos NPU IP還實(shí)現(xiàn)了對于高中低階的全面覆蓋,但是目前眾多的芯片廠商主要還是在其高端SoC當(dāng)中集成了NPU,而隨著AI計(jì)算向邊緣側(cè)部署的趨勢,未來市場對于NPU的需求也將會越來越大。Ethos NPU IP的推出,將可幫助芯片設(shè)計(jì)廠商更簡單、更低成本的獲得不同檔位的NPU內(nèi)核的支持。
另一方面,目前的Android應(yīng)用生態(tài)基本都是基于ARM架構(gòu)的處理器,因此,如果采用ARM的Ethos NPU IP,結(jié)合開源的ARM NN框架,應(yīng)用開發(fā)者將可以更簡單、高效的調(diào)用ARM的CPU/GPU/NPU內(nèi)核,可以為用戶帶來更為出色的AI體驗(yàn)。而且,可以實(shí)現(xiàn)一次開發(fā),即可獲得ARM全系列的內(nèi)核的支持(這也意味著,可支持眾多基于ARM不同類型的內(nèi)核的SoC),無需再重新編譯。而對于其他的芯片廠商的NPU來說,開發(fā)者要想實(shí)現(xiàn)靈活高效的調(diào)用NPU,充分發(fā)揮其AI性能,則需要針對性的進(jìn)行優(yōu)化,而且還需要其提供相應(yīng)的權(quán)限和工具。即便是開發(fā)者開發(fā)應(yīng)用實(shí)現(xiàn)對于A廠商的NPU調(diào)用,同樣的應(yīng)用要想實(shí)現(xiàn)對于B廠商N(yùn)PU的調(diào)用,可能需要重新進(jìn)行編譯。顯然,對于應(yīng)用開發(fā)者來說,ARM的NPU所具備的生態(tài)優(yōu)勢無疑是其他廠商所無法比擬的。
最后,Ian Smythe強(qiáng)調(diào),ARM對于AI性能的提升是多維度的,一方面會持續(xù)推出更高性能的NPU IP,同時(shí)也在不斷提升ARM CPU/GPU的AI性能。
值得一提的是,Ian Smythe在演講當(dāng)中透露,ARM在下下一代的大核架構(gòu)Matterhorn當(dāng)中,加入Matrix Multiple(MatMul),令其ML(機(jī)器學(xué)習(xí))性能與前代CPU相比提升一倍。