Arm:從低端應(yīng)用殺入機(jī)器學(xué)習(xí)市場
Arm在2018年2月推出自己的人工智能平臺(tái):Project Trillium。在硬件IP層面,除了支持機(jī)器學(xué)習(xí)功能的Cortex -A/Cortex-M CPU與Mali GPU,Project Trillium平臺(tái)還帶來了全新的機(jī)器學(xué)習(xí)專用IP核,即面向通用機(jī)器學(xué)習(xí)應(yīng)用的機(jī)器學(xué)習(xí)處理器(ML Processor),以及監(jiān)控、視頻識(shí)別場景專用的目標(biāo)檢測處理器(OD Processor)。
在3月7日北京Arm全球技術(shù)發(fā)布會(huì)上,Arm資深市場營銷總監(jiān)Ian Smythe表示,Trillium項(xiàng)目是Arm一個(gè)全新的技術(shù)產(chǎn)品架構(gòu),該項(xiàng)目能夠?yàn)榭蛻魩碜铎`活、最高可擴(kuò)展的機(jī)器學(xué)習(xí)產(chǎn)品方案?!拔覀兿嘈臫rilium項(xiàng)目能夠?yàn)榭蛻魩ナ袌錾献顑?yōu)秀的機(jī)器學(xué)習(xí)專用芯片和目標(biāo)檢測專用芯片。”
據(jù)Ian介紹,Trillium項(xiàng)目中的機(jī)器學(xué)習(xí)處理器和目標(biāo)檢測處理器均為全新設(shè)計(jì),與原有CPU、GPU相比,新處理器在機(jī)器學(xué)習(xí)應(yīng)用上的性能與效率均有大幅提升。機(jī)器學(xué)習(xí)處理器,可支持7納米工藝,具備每平方毫米4.6萬億次每秒(4TOPs)的計(jì)算力,效率可達(dá)3萬億次計(jì)算每秒每瓦(3TOPs/W),能否滿足移動(dòng)設(shè)備對效率和成本的需求?!斑@款機(jī)器學(xué)習(xí)處理器專門為機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)引用而設(shè)計(jì),其性能密度非常高,能效比也非常好,在實(shí)際應(yīng)用中優(yōu)化以后,性能還可以提高2到4倍。” Ian指出,機(jī)器學(xué)習(xí)首款芯片將在2018年中面世。
Arm的第一代目標(biāo)檢測處理器已經(jīng)投產(chǎn),技術(shù)來源于2016年收購的Apical公司。跟隨Trillium推出的是第二代目標(biāo)檢測處理器,性能上有了更大提升,在全高清分辨率下可以做到實(shí)時(shí)每秒60幀的檢測,而對目標(biāo)物的檢測數(shù)量幾乎沒有限制。
在硬件IP之上,Arm也提供完整的機(jī)器學(xué)習(xí)軟件框架,其中有針對Arm所有硬件的專用計(jì)算庫,同時(shí)它也支持市場上所有主流人工智能框架。Arm 機(jī)器學(xué)習(xí)計(jì)算平臺(tái)能夠支持多樣化的機(jī)器學(xué)習(xí)使用場景,并且支持各式各樣的設(shè)備?!癆rm機(jī)器學(xué)習(xí)解決方案所應(yīng)用的第一個(gè)市場細(xì)分,就是移動(dòng)手機(jī)以及智能攝像頭的市場。但Trillium項(xiàng)目的目標(biāo)是非常明確的,最終ML將會(huì)實(shí)現(xiàn)全場景的覆蓋?!?
機(jī)器學(xué)習(xí)正在由數(shù)據(jù)中心走向邊緣設(shè)備,由于應(yīng)用特性,在帶寬、功耗、基礎(chǔ)建設(shè)成本、用戶體驗(yàn)、可靠性與安全方面,邊緣機(jī)器學(xué)習(xí)設(shè)備更有優(yōu)勢。“Arm的機(jī)器學(xué)習(xí)平臺(tái)高可擴(kuò)展的,從低至2到20GOPs,到高至70TOPs的應(yīng)用,Arm都有相應(yīng)產(chǎn)品。但是我們在做機(jī)器學(xué)習(xí)處理器時(shí),首先要做到的是從小做起,從最低端的機(jī)器學(xué)習(xí)應(yīng)用做起?!?
附錄:Arm Trillium平臺(tái)簡介
性能
Arm全新的機(jī)器學(xué)習(xí)和目標(biāo)檢測處理器不僅相比于獨(dú)立的CPU, GPU和各種加速器有了顯著的效率提升,而且遠(yuǎn)勝像DSP這樣的傳統(tǒng)可編程邏輯處理器。
Arm 機(jī)器學(xué)習(xí)處理器是專門針對機(jī)器學(xué)習(xí)而重新設(shè)計(jì)的。它基于高度可擴(kuò)展的Arm 機(jī)器學(xué)習(xí)架構(gòu), 并達(dá)到了機(jī)器學(xué)習(xí)應(yīng)用場景要求的最高性能和效率:
-
在移動(dòng)計(jì)算領(lǐng)域,Arm 機(jī)器學(xué)習(xí)處理器可以提供每秒超過4.6萬億次的運(yùn)算能力。
-
憑借智能數(shù)據(jù)管理,每秒萬億次的運(yùn)算(TOPs, Trillion Operations Per Second)在實(shí)際應(yīng)用中可以進(jìn)一步實(shí)現(xiàn)2~4倍的有效吞吐量的提升。
-
在散熱和和成本受限的環(huán)境下,Arm 機(jī)器學(xué)習(xí)處理器能夠以超過每瓦特每秒3萬億次運(yùn)算操作的效能(TOPs/W)達(dá)到無以倫比的性能。有關(guān)Arm機(jī)器學(xué)習(xí)處理器的更多細(xì)節(jié)可在我們的網(wǎng)站上找到。
Arm 目標(biāo)檢測處理器是專門為高效識(shí)別人或其他物體而設(shè)計(jì)的,它能夠在每幀圖像中識(shí)別出的物體對象的數(shù)目幾乎不受限制:
-
在全高清分辨率下可以做到實(shí)時(shí)每秒60幀的檢測。
-
性能可以達(dá)到傳統(tǒng)DSP的80倍,并且相對于以往的Arm技術(shù),檢測質(zhì)量有了顯著提高。有關(guān)Arm 目標(biāo)檢測處理器的更多細(xì)節(jié)可在我們的網(wǎng)站上找到。
組合使用時(shí),Arm深度學(xué)習(xí)處理器和目標(biāo)檢測處理器性能表現(xiàn)會(huì)更好,它們搭配能夠提供高性能、高能效的人物檢測和識(shí)別解決方案?;谶@些技術(shù),用戶們將會(huì)在省電的模式下,在他們的智能設(shè)備上盡情體驗(yàn)高分辨率的,且實(shí)時(shí)、精細(xì)的人臉識(shí)別功能。
當(dāng)和Arm Compute Library和CMSIS-NN一起使用時(shí), Arm神經(jīng)網(wǎng)絡(luò)(NN)軟件庫專門為神經(jīng)網(wǎng)絡(luò)運(yùn)算(NN)進(jìn)行了優(yōu)化,并且無縫的把如TensorFlow、Caffe和Android NN等神經(jīng)網(wǎng)絡(luò)框架和全系列的Arm Cortex® CPU, Arm Mali? GPU, 和機(jī)器學(xué)習(xí)處理器高效連接在一起。這樣開發(fā)人員能夠充分利用底層Arm硬件的能力和性能,從而從ML應(yīng)用中獲得最高的性能。關(guān)于Arm NN軟件的更多細(xì)節(jié)可在我們的網(wǎng)站上找到。