嵌入式神經(jīng)網(wǎng)絡(luò)的“戰(zhàn)爭一觸即發(fā)”
隨著許多嵌入式系開始變得「智能」且「自主」,以人工智能(AI)神經(jīng)網(wǎng)絡(luò)為導(dǎo)向的嵌入式系統(tǒng)市場即將起飛,神經(jīng)網(wǎng)絡(luò)加速器大戰(zhàn)一觸發(fā)。
嵌入式神經(jīng)網(wǎng)絡(luò)加速器市場持續(xù)升溫,從智能音箱、無人機到智能燈泡等越來越多的系統(tǒng)準(zhǔn)備在本地執(zhí)行神經(jīng)網(wǎng)絡(luò),以取代傳送至云端進(jìn)行運算的途徑。
Movidius副總裁兼總經(jīng)理Remi El-Ouazzane日前在接受訪問時,將這個成長中的趨勢定義為「讓事情變得更智能與自主的一場競賽」。
Remi El-Ouzaane,Movidius副總裁兼總經(jīng)理Remi El-Ouazzane
英特爾旗下子公司Movidius在上周推出了一款采用USB外形的獨立式人工智能(AI)加速器。 El-Ouazzane說,這款名為Movidius神經(jīng)運算棒(Neural Compute Stick)的AI加速器設(shè)計,可輕松簡單地插入Raspberry Pi或X86 PC,讓大學(xué)研究人員、獨立軟件開發(fā)人員與程序增補人員易于為嵌入式系統(tǒng)進(jìn)行編譯、調(diào)整以及加速深度學(xué)習(xí)應(yīng)用。
Movidius在去年秋天被英特爾收購后,如今已成為英特爾新技術(shù)部門的一部份。 Movidius之前曾經(jīng)開發(fā)出業(yè)界首款視覺處理器——Myriad 2 VPU。 如今,El-Ouazzane表示,推出這款運算棒的最終目標(biāo)在于讓Movidius VPU成為可在邊緣執(zhí)行神經(jīng)網(wǎng)絡(luò)的「參考架構(gòu)」。
Movidius Myria 2 VPU方塊圖盡管目標(biāo)遠(yuǎn)大,但業(yè)界分析師隨即指出,Movidius Myriad 2 VPU當(dāng)然不是嵌入式系統(tǒng)中可在邊緣執(zhí)行神經(jīng)網(wǎng)絡(luò)的唯一選擇。
催生新產(chǎn)品類別:神經(jīng)加速器
Tirias Research首席分析師Jim McGregor表示:「從技術(shù)上來看,您可以使用任何具有處理組件的開發(fā)板,并用于執(zhí)行一種模型。 例如機器學(xué)習(xí)(Machine learning)/AI模型已經(jīng)執(zhí)行于各種廣泛的處理器和SoC了,特別是針對行動領(lǐng)域。 」
高通(Qualcomm)以Snapdragon系列實現(xiàn)的影像辨識可說是最佳的例子。 高通從Snapdragon 820開始采用自家開發(fā)的模型,McGregor說:「Snapdragon基本上就是推理引擎」。
具有平行處理組件(如GPU、DSP和FPGA)的處理解決方案非常適于作為推理引擎。 McGregor解釋說,許多正在開發(fā)中的客制化芯片解決方案都采用可內(nèi)建于SoC的DSP或FPGA。
Linley Gwennap首席分析師Linley Gwennap對此表示贊同。 他在最近出刊的《微處理器報告》(Microprocessor Report)中寫道:高通、蘋果(Apple)和英特爾(Movidius)都在「打造一種新的產(chǎn)品類別:神經(jīng)加速器。 」
Gwennap解釋說,對于這些以客戶端為基礎(chǔ)的加速器需求來自于要求極低延遲的自動駕駛車。 Gwennap在該報告的評論中指出,在本地進(jìn)行處理的新技術(shù)將會開始「滲透至一些較低成本的應(yīng)用」。 他預(yù)測,「在消費裝置中,小型的神經(jīng)加速器可能是SoC中的一個重要區(qū)塊,就像是繪圖核心或圖像處理器一樣。 幾家知識產(chǎn)權(quán)(IP)供貨商開始提供這一類加速器,期望盡可能地降低額外的硬件成本。 」
Gwennap在的訪談中指出,Movidius Neural Compute Stick對于開發(fā)人員幾乎沒有什么不同。 「對于開發(fā)人員來說,這并沒什么不起。 典型的PC就能產(chǎn)生至少100GFLOPS,特別是如果它還內(nèi)建繪圖卡,直接在PC上進(jìn)行開發(fā)會更好。 對于需要較低功率處理器的嵌入式系統(tǒng),高通Snapdragon 835提供超過250GOPS的效能,對于大多數(shù)的推理應(yīng)用來說都夠了。 」
不過,Movidius的El-Ouazzane并不贊同這樣的看法。
首先,Movidius Neural Compute Stick利用USB讓神經(jīng)網(wǎng)絡(luò)更易于存取,有利于制造商或程序增補人員用于開發(fā)深度神經(jīng)網(wǎng)絡(luò)原型或進(jìn)行調(diào)整。
其次是電源效率的問題。 El-Ouazzane指出,Movidius的解決方案可讓神經(jīng)網(wǎng)絡(luò)在邊緣運算時旳功耗小于2瓦(W)。
然后,還有成本的考慮。 El-Ouazzane說:「我認(rèn)為這是一個殺手級因素。 Movidius Neural Compute Stick要價79美元,可望讓神經(jīng)網(wǎng)絡(luò)的發(fā)展變得『超級普遍』。 」
他預(yù)期開發(fā)人員能使用Movidius的神經(jīng)運算平臺(Neural Compute Platform)應(yīng)用程序編程接口(API),「將經(jīng)過訓(xùn)練的Caffe、前饋卷積神經(jīng)網(wǎng)絡(luò)(CNN)輸入工具套件中,并進(jìn)行配置,然后編譯成一種可用于嵌入式部署的調(diào)整版本。 」
以AI為導(dǎo)向的嵌入式應(yīng)用?
隨著許多嵌入式系開始變得「智能」且「自主」,El-Ouazzane預(yù)計以AI為導(dǎo)向的嵌入式系統(tǒng)即將爆發(fā)。
但是,不久的將來即將出現(xiàn)什么樣的AI裝置?
McGregor預(yù)測,「我認(rèn)為在2025年以前,每個人所接觸的每一款新系統(tǒng)/平臺都將具有某種程度的AI元素,它可能內(nèi)建于裝置本身,或存在于網(wǎng)絡(luò)、云端,或是分散在其間。 」
他補充說:「它可能就像是用戶接口或應(yīng)用一樣簡單,或者是像虛擬助理或自主控制般復(fù)雜的某種裝。 目前已經(jīng)有許多應(yīng)用已經(jīng)導(dǎo)入了AI,包括虛擬助理、搜索引擎、財務(wù)建模、與文章寫作。..。. 等等。 」
他說:「而在裝置上,AI將因各種不同的原因而持續(xù)成長,特別是數(shù)據(jù)的安全、實時互動/處理以及帶寬限制等。 然而,在裝置上進(jìn)行訓(xùn)練才是真正的挑戰(zhàn),最終可能需要新的處理模型。 」
英特爾想掌握一切。
當(dāng)然,Movidus現(xiàn)在是英特爾的子公司,但其目標(biāo)并不僅限于有更多嵌入式系統(tǒng)在邊緣執(zhí)行神經(jīng)網(wǎng)絡(luò)。 El-Ouazzane將其產(chǎn)品發(fā)布架構(gòu)在英特爾端對端AI產(chǎn)品組合的更大脈絡(luò)之下。
他指出,英特爾擁有廣泛的AI產(chǎn)品組合,并為其提供一整套完整的開發(fā)工具和資源。
「無論是在英特爾Nervana云端上訓(xùn)練AI神經(jīng)網(wǎng)絡(luò)、優(yōu)化新興的工作負(fù)載(如AI、、VR和AR),以及使用英特爾Xeon Scalable處理器實現(xiàn)自動駕駛,或是以Movidius視覺處理器技術(shù)將AI導(dǎo)入邊緣,」英特爾宣稱該公司已為下一代AI驅(qū)動的產(chǎn)品和服務(wù)提供了全面的AI產(chǎn)品組合、工具、訓(xùn)練和部署選擇。
然而,Movidus是否真的能在即將變得無所不在的AI嵌入式系統(tǒng)中成為其關(guān)鍵參考架構(gòu),目前還不而知。
Tirias Research的McGregor盡管認(rèn)同Neural Compute Stick是「一款可在新設(shè)計中快速評估AI模型訓(xùn)練效能的有利工具,」但他仍指出,「設(shè)計人員仍然必須在最后的系統(tǒng)設(shè)計時間執(zhí)行類測試,特別是如果他們并未使用Moviduis的芯片和/或Caffe架構(gòu)。 」
The Linley Group的Gwennap還認(rèn)為,Movidius無法達(dá)到其目標(biāo)——實現(xiàn)在邊緣運算神經(jīng)網(wǎng)絡(luò)的嵌入式系統(tǒng)設(shè)計。
區(qū)隔推理引擎與訓(xùn)練
Gwennap指出,「值得注意的是,新的AI時代并不會有『參考架構(gòu)』。 諸如TensorFlow和Caffe等架構(gòu)將會把軟件(神經(jīng)網(wǎng)絡(luò))和硬件分開來。 」他補充說:「映像到Myriad VPU的網(wǎng)絡(luò)可以輕易地映像到Snapdragon或其他處理器上。 因此,AI處理器將在性能和效率的基礎(chǔ)上進(jìn)行競爭,而不是鎖定于指令集。 」
同樣地,他也不認(rèn)同「同樣的工具適用于訓(xùn)練和推理」的論點。 Gwennap說:「一旦網(wǎng)絡(luò)開始接受訓(xùn)練,就可以輕松地部署在支持主流架構(gòu)的任何平臺上。 而且,主流的架構(gòu)都是開放源碼,以避免單一家廠商鎖定。 」。
El-Ouazzane看好AI處理器抽取底層硬件的能力,它讓設(shè)計者可將推論與練訓(xùn)分離開來。 但他重申先前的觀點,從長遠(yuǎn)來看,能夠使用相同的工具進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和部署,才有助于系統(tǒng)設(shè)計人員。
他以Movidius的開發(fā)藍(lán)圖為例表示,未來三年,深度學(xué)習(xí)的效能預(yù)計將會增加50倍。 「為了在不增加功耗的情況下實現(xiàn)這一目標(biāo),我們可以在訓(xùn)練方面設(shè)計許多架構(gòu)技巧。 」El-Ouazzane補充說:「當(dāng)你在斟酌這些技巧時,讓學(xué)習(xí)和推理方面置于同一平臺是至關(guān)重要的。 」