Arm：從低端應(yīng)用殺入機器學(xué)習(xí)市場

時間：2022-12-28 20:45:03

關(guān)鍵字： ARM 人工智能市場

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]Arm在2018年2月推出自己的人工智能平臺：Project Trillium。在硬件IP層面，除了支持機器學(xué)習(xí)功能的Cortex -A/Cortex-M CPU與Mali GPU，Project Trillium平臺還帶來了全新的機器學(xué)習(xí)專用IP核，即面向通用機器學(xué)習(xí)應(yīng)用的機器學(xué)習(xí)處理器（ML Processor），以及監(jiān)控、視頻識別場景專用的目標(biāo)檢測處理器（OD Processor）。

Arm在2018年2月推出自己的人工智能平臺：Project Trillium。在硬件IP層面，除了支持機器學(xué)習(xí)功能的Cortex -A/Cortex-M CPU與Mali GPU，Project Trillium平臺還帶來了全新的機器學(xué)習(xí)專用IP核，即面向通用機器學(xué)習(xí)應(yīng)用的機器學(xué)習(xí)處理器（ML Processor），以及監(jiān)控、視頻識別場景專用的目標(biāo)檢測處理器（OD Processor）。

在3月7日北京Arm全球技術(shù)發(fā)布會上，Arm資深市場營銷總監(jiān)Ian Smythe表示，Trillium項目是Arm一個全新的技術(shù)產(chǎn)品架構(gòu)，該項目能夠為客戶帶來最靈活、最高可擴展的機器學(xué)習(xí)產(chǎn)品方案。“我們相信Trilium項目能夠為客戶帶去市場上最優(yōu)秀的機器學(xué)習(xí)專用芯片和目標(biāo)檢測專用芯片?！?

據(jù)Ian介紹，Trillium項目中的機器學(xué)習(xí)處理器和目標(biāo)檢測處理器均為全新設(shè)計，與原有CPU、GPU相比，新處理器在機器學(xué)習(xí)應(yīng)用上的性能與效率均有大幅提升。機器學(xué)習(xí)處理器，可支持7納米工藝，具備每平方毫米4.6萬億次每秒（4TOPs）的計算力，效率可達(dá)3萬億次計算每秒每瓦（3TOPs/W），能否滿足移動設(shè)備對效率和成本的需求。“這款機器學(xué)習(xí)處理器專門為機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)引用而設(shè)計，其性能密度非常高，能效比也非常好，在實際應(yīng)用中優(yōu)化以后，性能還可以提高2到4倍?！?Ian指出，機器學(xué)習(xí)首款芯片將在2018年中面世。

Arm的第一代目標(biāo)檢測處理器已經(jīng)投產(chǎn)，技術(shù)來源于2016年收購的Apical公司。跟隨Trillium推出的是第二代目標(biāo)檢測處理器，性能上有了更大提升，在全高清分辨率下可以做到實時每秒60幀的檢測，而對目標(biāo)物的檢測數(shù)量幾乎沒有限制。

在硬件IP之上，Arm也提供完整的機器學(xué)習(xí)軟件框架，其中有針對Arm所有硬件的專用計算庫，同時它也支持市場上所有主流人工智能框架。Arm 機器學(xué)習(xí)計算平臺能夠支持多樣化的機器學(xué)習(xí)使用場景，并且支持各式各樣的設(shè)備?！癆rm機器學(xué)習(xí)解決方案所應(yīng)用的第一個市場細(xì)分，就是移動手機以及智能攝像頭的市場。但Trillium項目的目標(biāo)是非常明確的，最終ML將會實現(xiàn)全場景的覆蓋?！?

機器學(xué)習(xí)正在由數(shù)據(jù)中心走向邊緣設(shè)備，由于應(yīng)用特性，在帶寬、功耗、基礎(chǔ)建設(shè)成本、用戶體驗、可靠性與安全方面，邊緣機器學(xué)習(xí)設(shè)備更有優(yōu)勢?！癆rm的機器學(xué)習(xí)平臺高可擴展的，從低至2到20GOPs，到高至70TOPs的應(yīng)用，Arm都有相應(yīng)產(chǎn)品。但是我們在做機器學(xué)習(xí)處理器時，首先要做到的是從小做起，從最低端的機器學(xué)習(xí)應(yīng)用做起。”

附錄：Arm Trillium平臺簡介

性能

Arm全新的機器學(xué)習(xí)和目標(biāo)檢測處理器不僅相比于獨立的CPU, GPU和各種加速器有了顯著的效率提升，而且遠(yuǎn)勝像DSP這樣的傳統(tǒng)可編程邏輯處理器。

Arm 機器學(xué)習(xí)處理器是專門針對機器學(xué)習(xí)而重新設(shè)計的。它基于高度可擴展的Arm 機器學(xué)習(xí)架構(gòu)，并達(dá)到了機器學(xué)習(xí)應(yīng)用場景要求的最高性能和效率：

在移動計算領(lǐng)域，Arm 機器學(xué)習(xí)處理器可以提供每秒超過4.6萬億次的運算能力。
憑借智能數(shù)據(jù)管理，每秒萬億次的運算(TOPs， Trillion Operations Per Second)在實際應(yīng)用中可以進一步實現(xiàn)2~4倍的有效吞吐量的提升。
在散熱和和成本受限的環(huán)境下，Arm 機器學(xué)習(xí)處理器能夠以超過每瓦特每秒3萬億次運算操作的效能（TOPs/W）達(dá)到無以倫比的性能。有關(guān)Arm機器學(xué)習(xí)處理器的更多細(xì)節(jié)可在我們的網(wǎng)站上找到。

Arm 目標(biāo)檢測處理器是專門為高效識別人或其他物體而設(shè)計的，它能夠在每幀圖像中識別出的物體對象的數(shù)目幾乎不受限制：

在全高清分辨率下可以做到實時每秒60幀的檢測。
性能可以達(dá)到傳統(tǒng)DSP的80倍，并且相對于以往的Arm技術(shù)，檢測質(zhì)量有了顯著提高。有關(guān)Arm 目標(biāo)檢測處理器的更多細(xì)節(jié)可在我們的網(wǎng)站上找到。

組合使用時，Arm深度學(xué)習(xí)處理器和目標(biāo)檢測處理器性能表現(xiàn)會更好，它們搭配能夠提供高性能、高能效的人物檢測和識別解決方案?；谶@些技術(shù)，用戶們將會在省電的模式下，在他們的智能設(shè)備上盡情體驗高分辨率的，且實時、精細(xì)的人臉識別功能。

當(dāng)和Arm Compute Library和CMSIS-NN一起使用時, Arm神經(jīng)網(wǎng)絡(luò)（NN）軟件庫專門為神經(jīng)網(wǎng)絡(luò)運算（NN）進行了優(yōu)化，并且無縫的把如TensorFlow、Caffe和Android NN等神經(jīng)網(wǎng)絡(luò)框架和全系列的Arm Cortex® CPU, Arm Mali? GPU, 和機器學(xué)習(xí)處理器高效連接在一起。這樣開發(fā)人員能夠充分利用底層Arm硬件的能力和性能，從而從ML應(yīng)用中獲得最高的性能。關(guān)于Arm NN軟件的更多細(xì)節(jié)可在我們的網(wǎng)站上找到。