Arm在2018年2月推出自己的人工智能平臺:Project Trillium。在硬件IP層面,除了支持機器學(xué)習(xí)功能的Cortex -A/Cortex-M CPU與Mali GPU,Project Trillium平臺還帶來了全新的機器學(xué)習(xí)專用IP核,即面向通用機器學(xué)習(xí)應(yīng)用的機器學(xué)習(xí)處理器(ML Processor),以及監(jiān)控、視頻識別場景專用的目標(biāo)檢測處理器(OD Processor)。
在3月7日北京Arm全球技術(shù)發(fā)布會上,Arm資深市場營銷總監(jiān)Ian Smythe表示,Trillium項目是Arm一個全新的技術(shù)產(chǎn)品架構(gòu),該項目能夠為客戶帶來最靈活、最高可擴展的機器學(xué)習(xí)產(chǎn)品方案。“我們相信Trilium項目能夠為客戶帶去市場上最優(yōu)秀的機器學(xué)習(xí)專用芯片和目標(biāo)檢測專用芯片?!?
據(jù)Ian介紹,Trillium項目中的機器學(xué)習(xí)處理器和目標(biāo)檢測處理器均為全新設(shè)計,與原有CPU、GPU相比,新處理器在機器學(xué)習(xí)應(yīng)用上的性能與效率均有大幅提升。機器學(xué)習(xí)處理器,可支持7納米工藝,具備每平方毫米4.6萬億次每秒(4TOPs)的計算力,效率可達(dá)3萬億次計算每秒每瓦(3TOPs/W),能否滿足移動設(shè)備對效率和成本的需求。“這款機器學(xué)習(xí)處理器專門為機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)引用而設(shè)計,其性能密度非常高,能效比也非常好,在實際應(yīng)用中優(yōu)化以后,性能還可以提高2到4倍?!?Ian指出,機器學(xué)習(xí)首款芯片將在2018年中面世。
Arm的第一代目標(biāo)檢測處理器已經(jīng)投產(chǎn),技術(shù)來源于2016年收購的Apical公司。跟隨Trillium推出的是第二代目標(biāo)檢測處理器,性能上有了更大提升,在全高清分辨率下可以做到實時每秒60幀的檢測,而對目標(biāo)物的檢測數(shù)量幾乎沒有限制。
在硬件IP之上,Arm也提供完整的機器學(xué)習(xí)軟件框架,其中有針對Arm所有硬件的專用計算庫,同時它也支持市場上所有主流人工智能框架。Arm 機器學(xué)習(xí)計算平臺能夠支持多樣化的機器學(xué)習(xí)使用場景,并且支持各式各樣的設(shè)備?!癆rm機器學(xué)習(xí)解決方案所應(yīng)用的第一個市場細(xì)分,就是移動手機以及智能攝像頭的市場。但Trillium項目的目標(biāo)是非常明確的,最終ML將會實現(xiàn)全場景的覆蓋?!?

機器學(xué)習(xí)正在由數(shù)據(jù)中心走向邊緣設(shè)備,由于應(yīng)用特性,在帶寬、功耗、基礎(chǔ)建設(shè)成本、用戶體驗、可靠性與安全方面,邊緣機器學(xué)習(xí)設(shè)備更有優(yōu)勢?!癆rm的機器學(xué)習(xí)平臺高可擴展的,從低至2到20GOPs,到高至70TOPs的應(yīng)用,Arm都有相應(yīng)產(chǎn)品。但是我們在做機器學(xué)習(xí)處理器時,首先要做到的是從小做起,從最低端的機器學(xué)習(xí)應(yīng)用做起。”
附錄:Arm Trillium平臺簡介
性能
Arm全新的機器學(xué)習(xí)和目標(biāo)檢測處理器不僅相比于獨立的CPU, GPU和各種加速器有了顯著的效率提升,而且遠(yuǎn)勝像DSP這樣的傳統(tǒng)可編程邏輯處理器。
Arm 機器學(xué)習(xí)處理器是專門針對機器學(xué)習(xí)而重新設(shè)計的。它基于高度可擴展的Arm 機器學(xué)習(xí)架構(gòu), 并達(dá)到了機器學(xué)習(xí)應(yīng)用場景要求的最高性能和效率:
-
在移動計算領(lǐng)域,Arm 機器學(xué)習(xí)處理器可以提供每秒超過4.6萬億次的運算能力。
-
憑借智能數(shù)據(jù)管理,每秒萬億次的運算(TOPs, Trillion Operations Per Second)在實際應(yīng)用中可以進一步實現(xiàn)2~4倍的有效吞吐量的提升。
-
在散熱和和成本受限的環(huán)境下,Arm 機器學(xué)習(xí)處理器能夠以超過每瓦特每秒3萬億次運算操作的效能(TOPs/W)達(dá)到無以倫比的性能。有關(guān)Arm機器學(xué)習(xí)處理器的更多細(xì)節(jié)可在我們的網(wǎng)站上找到。
Arm 目標(biāo)檢測處理器是專門為高效識別人或其他物體而設(shè)計的,它能夠在每幀圖像中識別出的物體對象的數(shù)目幾乎不受限制:
-
在全高清分辨率下可以做到實時每秒60幀的檢測。
-
性能可以達(dá)到傳統(tǒng)DSP的80倍,并且相對于以往的Arm技術(shù),檢測質(zhì)量有了顯著提高。有關(guān)Arm 目標(biāo)檢測處理器的更多細(xì)節(jié)可在我們的網(wǎng)站上找到。
組合使用時,Arm深度學(xué)習(xí)處理器和目標(biāo)檢測處理器性能表現(xiàn)會更好,它們搭配能夠提供高性能、高能效的人物檢測和識別解決方案?;谶@些技術(shù),用戶們將會在省電的模式下,在他們的智能設(shè)備上盡情體驗高分辨率的,且實時、精細(xì)的人臉識別功能。
當(dāng)和Arm Compute Library和CMSIS-NN一起使用時, Arm神經(jīng)網(wǎng)絡(luò)(NN)軟件庫專門為神經(jīng)網(wǎng)絡(luò)運算(NN)進行了優(yōu)化,并且無縫的把如TensorFlow、Caffe和Android NN等神經(jīng)網(wǎng)絡(luò)框架和全系列的Arm Cortex® CPU, Arm Mali? GPU, 和機器學(xué)習(xí)處理器高效連接在一起。這樣開發(fā)人員能夠充分利用底層Arm硬件的能力和性能,從而從ML應(yīng)用中獲得最高的性能。關(guān)于Arm NN軟件的更多細(xì)節(jié)可在我們的網(wǎng)站上找到。