Arm移動處理器那么牛,為何明年Q1才發(fā)布AI處理器?
AI熱潮來勢洶洶,即便算法還不成熟,處理器算力還不足夠,但大部分手機廠商已經(jīng)讓其旗艦手機用戶或多或少地享受到了所謂的AI功能。其中,蘋果和華為更是用集成NPU的自研處理器增強其手機的AI功能作為一大賣點。有意思的是,無論是手機處理器市場市占最高的高通還是目前移動設(shè)備處理器IP最重要的提供方Arm,都遲遲沒有推出集成NPU的處理器,這究竟是為什么?
Arm的AI處理器時間上已經(jīng)落后?
AI迎來了第三波熱潮,但目前AI芯片受到了更大的關(guān)注,其中除了有芯片算力是AI發(fā)展的基礎(chǔ)外,AI芯片市場的迅速增長也是一個重要原因。Allied Market Research發(fā)布的一份報告指出,2017年全球機器學(xué)習(xí)芯片市場規(guī)模約24億美元,預(yù)計到2025年這一市場規(guī)模將達到約378億美元,復(fù)合年增長率(CAGR)為40.8%。
因此,我們看到不同類型的AI芯片不斷地被大大小小的公司推向市場。對此,Arm機器學(xué)習(xí)部門商業(yè)與市場副總裁Dennis Laudick接受專訪時表示:“從CPU、GPU發(fā)展的歷史看,剛開始市場上會有多種多樣的選擇,但市場最終會收斂和融合,留下最合適的產(chǎn)品。我相信NPU的發(fā)展也會遵循同樣的規(guī)律?!?/p>
Arm機器學(xué)習(xí)部門商業(yè)與市場副總裁Dennis Laudick
在眾多新入局AI芯片市場的公司中,值得注意的是以前更加擅長軟件的科技巨頭們都紛紛開始自主研發(fā)AI芯片。對此,Cadence首席執(zhí)行官、華登國際創(chuàng)始人陳立武此前接受采訪時表示科技巨頭們積極布局AI是因為他們不希望落后,因為他們有很多數(shù)據(jù)。Dennis Laudick也發(fā)表了自己的看法,他表示:“AI發(fā)展中訓(xùn)練和推理都非常重要,科技巨頭有大量的數(shù)據(jù),因此也有包括機器學(xué)習(xí)在內(nèi)的許多需求。他們在構(gòu)建自己AI生態(tài)的時候在AI算法和模型層面更多是依賴學(xué)校的研究,因此他們對硬件更感興趣?!?/p>
不過,作為全球最大的IP授權(quán)商,也是目前移動處理器IP首要的提供商,Arm直到2018年初才首次公開其ML處理器(Machine Learning Processor)的相關(guān)消息,產(chǎn)品的正式發(fā)布要到明年。這是為什么?Dennis Laudick說道:“我們一直都在關(guān)注AI的進展,在機器學(xué)習(xí)方面的工作也已經(jīng)有幾年的時間,最新的Arm Cortex A57/A75/A76都有對機器學(xué)習(xí)的擴展。雖然我們多年來一直致力于機器學(xué)習(xí),但這項技術(shù)存在一些問題,也不穩(wěn)定。如數(shù)據(jù)類型,到底是整數(shù)還是浮點數(shù),F(xiàn)P16,F(xiàn)P32,8位整數(shù)誰更適合機器學(xué)習(xí),針對此現(xiàn)在已經(jīng)有大量的研究。但要在早期的市場上要提供解決方案就需支持所有的數(shù)據(jù)類型和模型,而不是優(yōu)化,這會帶來處理器面積大且耗電的問題,我們需要等待技術(shù)的穩(wěn)定?!?/p>
因此,對于想要讓機器學(xué)習(xí)技術(shù)更加簡單易用的Arm而言,方法有兩個,一個是不斷改善現(xiàn)有處理器,另一個就是推出新的神經(jīng)處理單元(NPU)。在技術(shù)還不夠穩(wěn)定的時候我們看到Arm不斷改進Cortex CPU和Mali GPU,并配合軟件實現(xiàn)AI功能。對于Arm推出NPU的時間點,Dennis Laudick表示:“最近我們已經(jīng)看到機器學(xué)習(xí)技術(shù)正在穩(wěn)定和成熟,市場需求也正在不斷增加,我們認為現(xiàn)在是進入市場的最佳時機?!?/p>
可以認為,基于Arm在處理器IP市場和整個生態(tài)鏈的關(guān)鍵地位,推出ML處理器的時間點晚一些不是什么大問題,更吸引人關(guān)注的是Arm的ML處理器到底如何。
Arm明年第一季度推出AI處理器
對于將在2019年第一季度發(fā)布的Arm ML處理器,Dennis Laudick介紹,其定位與現(xiàn)有的Cortex CPU一樣是系列產(chǎn)品,根據(jù)市場需求會性能范圍是1-4 TOP/s,匹配不同的CPU滿足手表、手機、智能家居、汽車等市場的需求。Arm ML處理器主要有三個部分,一個是MAC引擎,主要執(zhí)行卷積計算;二是可編程引擎,可以支持未來新的算子和網(wǎng)絡(luò);三是數(shù)據(jù)管理,減少AI計算的耗能。
他特別指出,Arm在ML處理器的數(shù)據(jù)管理上做了很多的設(shè)計和思考,因為AI的數(shù)據(jù)搬遷比數(shù)據(jù)的計算更耗能。他們分析AI處理器中卷積運算所需能量比不高,但數(shù)據(jù)的管理和搬遷可能是運算所需功耗的一百倍。因此他們通過分析技術(shù)降低功耗,其中一個技術(shù)是數(shù)據(jù)的壓縮,可以減少數(shù)據(jù)的搬遷量,另一個是選擇神經(jīng)網(wǎng)絡(luò)單元權(quán)重激活或者不激活,還有就是數(shù)據(jù)的過濾,用特殊的方法免除不必要的加工。他們希望通過對不同場景的深入分析,盡量做到數(shù)據(jù)高效、多次使用,減少數(shù)據(jù)搬遷降低功耗。
當(dāng)然,即便是經(jīng)驗豐富的Arm,認識到AI處理器最重要的是數(shù)據(jù)管理也走了一些彎路。Dennis Laudick表示:“Arm有很多種不同類型的處理器技術(shù),當(dāng)我們第一次看到機器學(xué)習(xí)時想到的是是否可以從其中的一種處理器開始,因此我們開始用了GPU的方法,但最終發(fā)現(xiàn)機器學(xué)習(xí)處理器面臨的不是處理問題而是數(shù)據(jù)問題,所以取消了早期GPU的方法,創(chuàng)建了一個全新的處理器專注于數(shù)據(jù)以及機器學(xué)習(xí)中的數(shù)據(jù)類型,可以執(zhí)行并行指令?!?/p>
Dennis Laudick也同時指出,無論是CPU、GPU、FPGA還是ASIC都可以運行機器學(xué)習(xí)算法,不同點在于比如實現(xiàn)同樣的人臉解鎖功能,GPU需要的時間少于CPU,而NPU則能夠?qū)崿F(xiàn)最快的速度和最低的功耗。引人思考的是,Dennis Laudick認為不同類型的AI處理器適用于AI早期市場,機器學(xué)習(xí)領(lǐng)域市場最終可能是CPU占80%的市場,NPU占20%的市場。他認為CPU在不斷改進,而市場上更廣泛的NPU也不斷出現(xiàn),最終GPU和FPGA將會消失,留下最通用的CPU和最專用的NPU。
不過,在Dennis Laudick看來軟件才是AI處理器中更關(guān)鍵的部分。他表示:“Arm的AI處理器是一個異構(gòu)的系統(tǒng),其中包含CPU、GPU、NPU等,但作為IP核想要實現(xiàn)更好的可配置性軟件體系非常重要。所以在硬件之上有我們特別優(yōu)化的Compute Library,它會把底層的硬件和驅(qū)動進行充分優(yōu)化,根據(jù)算子的不同需求驅(qū)動硬件,可以提升幾倍到十幾倍的效率。再上一層是Arm nn,可以將TensorFlow、Caffe等神經(jīng)網(wǎng)絡(luò)框架轉(zhuǎn)換成Compute Library可以執(zhí)行的任務(wù),讓開發(fā)者不用關(guān)心底層的硬件,只需要使用標(biāo)準(zhǔn)架構(gòu)進行開發(fā)就可以?!?/p>
至于Arm nn以及Compute Library是如何實現(xiàn)根據(jù)需求做機智性的決策充分發(fā)揮異構(gòu)系統(tǒng)的優(yōu)勢的問題,Dennis Laudick表示,Arm實際上借助了許多專家的分析,通過跨越團隊的專家團隊分析應(yīng)用程序和軟件,試圖找到瓶頸和限制,最終保證軟件非常優(yōu)化。為了讓Arm nn和Compute Library更加優(yōu)化,Arm也鼓勵硬件架構(gòu)師和軟件分析團隊緊密合作。
還可以看到,Arm Project Trillium中除了有ML處理器、NN SDK,還有OD(Object Detection,對象檢測)處理器,Arm認為,手機、攝像頭、汽車等都是機器學(xué)習(xí)中對象檢測的頭號應(yīng)用,因此對象檢測市場足夠大,值得做一個額外的處理器,特別是針對物體識別。
AI處理器獲勝軟件和數(shù)據(jù)更關(guān)鍵?
需要指出的是,NPU是目前執(zhí)行機器學(xué)習(xí)任務(wù)效率最高的處理器,但對價格比較敏感的產(chǎn)品,NPU的成本難以承受,只擁有CPU,并且使用CPU處理機器學(xué)習(xí)就已足夠。因此在物聯(lián)網(wǎng)和AI領(lǐng)域,基于RISC-V指令集的CPU也受到了不少的關(guān)注,一些人也認為RISC-V處理器未來將會在物聯(lián)網(wǎng)智能終端成為Arm的競爭對手。
對此,Dennis Laudick表示:“基于RISC-V指令集的處理器是一個CPU,它并沒有真正與我們的NPU產(chǎn)生競爭,在CPU方面,我們已經(jīng)進行了兩到三代的機器學(xué)習(xí)改進,比如支持向量擴展,RISC-V也開始實施其中的一些改進,不過這些事情我們已經(jīng)做過?!?/p>
他進一步指出,在機器學(xué)習(xí)方面,很多芯片公司專注于硬件,與他們有所不同,為了能夠讓每個人都能更好地獲得機器學(xué)習(xí),我們最重要的事情就是確保軟件生態(tài)系統(tǒng)具有一致的平臺。因為程序開發(fā)人員創(chuàng)建一個應(yīng)用程序是希望其能夠運行在更多設(shè)備上,通過提供一個通用、穩(wěn)定的軟件平臺,能夠確保我們拓展CPU以提高機器學(xué)習(xí)的能力。并且我們?yōu)槭袌鎏峁┬碌挠布δ軙r,軟件社區(qū)也會變得非常有創(chuàng)意。軟件生態(tài)系統(tǒng)是Arm成功的關(guān)鍵所在,Arm推出良好的處理器是因為軟件生態(tài)系統(tǒng)有這樣的需求,這也是Arm過去20年已經(jīng)做的事情。
也了解到,為了能夠更好的構(gòu)建軟件生態(tài),Arm將會選擇與工程師、軟件公司等進行廣泛合作。其中也與Android生態(tài)的大公司進行了合作,Arm在中國生態(tài)系統(tǒng)中的大公司花費的時間也越來越多。因此,Dennis Laudick認為近兩年的AI熱潮會對于軟件行業(yè)帶來革命性的變化,因為傳統(tǒng)的軟件在概率判斷,評估猜測方面有一些局限性,AI對概率判斷的準(zhǔn)確度和猜測的準(zhǔn)確度上有其特點,AI也將帶來軟件2.0的時代。
至于許多人都關(guān)心的在AI芯片市場中誰將取得最終勝利的問題,Dennis Laudick認為:“AI還處于比較早期的階段,現(xiàn)在判斷誰能勝出為時尚早。不過,全球的大公司都在AI上投入了大量的資金,但有一個巨大的差異是中國的公司更容易獲得數(shù)據(jù),也能更輕松的使用這些數(shù)據(jù),所以我認為在機器學(xué)習(xí)方面中國的公司在數(shù)據(jù)方面更具有優(yōu)勢,但還不知道它將如何發(fā)揮作用?!?/p>
小結(jié)
Dennis作為擁有20余年移動、汽車與消費電子領(lǐng)域從業(yè)經(jīng)驗的資深人士,對于AI發(fā)展有著自己的觀察,對Arm的AI處理器的解讀也讓我們得以更進一步了解即將在明年第一季度發(fā)布的Arm ML處理器。在算法、模型都還不夠穩(wěn)定的時候,作為提供處理器IP和通用處理器的公司,Arm和高通沒有著急推出NPU,而是通過優(yōu)化硬件和軟件提升AI性能是一個明智的選擇,畢竟他們與華為和蘋果這樣手機處理器只為自己所用的公司有著巨大的差別。
在整個采訪的過程中,Dennis反復(fù)提到軟件的重要性,這對于一些AI芯片企業(yè)而言或許是一個提醒,畢竟現(xiàn)在已經(jīng)有越來越多的IC設(shè)計公司意識到了AI時代與軟件團隊合作的重要性。那么,除了硬件和軟件,數(shù)據(jù)又將如何影響AI芯片市場的競爭?