在巨頭陰影下 AI芯片初創(chuàng)企業(yè)如何突圍?
掃描二維碼
隨時(shí)隨地手機(jī)看文章
人類歷史上第一次出現(xiàn)人工智能這個(gè)詞,已經(jīng)是半個(gè)多世紀(jì)以前的事了。近年來,在深度學(xué)習(xí)的驅(qū)動(dòng)下,人工智能浪潮走入了一個(gè)新時(shí)代,AI芯片也遍地開花,創(chuàng)業(yè)公司如雨后春筍般出現(xiàn)。但是,AI芯片這個(gè)江湖,依舊是英偉達(dá)以GPU獨(dú)霸江湖,在圖形處理方面占據(jù)著絕對(duì)的優(yōu)勢(shì),市場(chǎng)占有率達(dá)到了一半以上,英特爾、谷歌、亞馬遜等巨頭也紛紛追趕,不過江湖兇險(xiǎn),在AI芯片這塊寶地還未明朗之前,誰也不敢確定會(huì)發(fā)生什么。
1.什么是AI芯片?
一般來說,AI芯片被稱為AI加速器或計(jì)算卡,即專門用于加速AI應(yīng)用中的大量計(jì)算任務(wù)的模塊(其他非計(jì)算任務(wù)仍由CPU負(fù)責(zé))。AI的三大關(guān)鍵基礎(chǔ)要素分別是是數(shù)據(jù)、算法和算力。傳統(tǒng)的 CPU一般都不是很適合人工智能算法的執(zhí)行,主要原因在于其計(jì)算指令遵循串行執(zhí)行的方式,沒能發(fā)揮出芯片的全部潛力。與之不同的是, GPU 具有高并行結(jié)構(gòu),在處理圖形數(shù)據(jù)和復(fù)雜算法方面擁有比 CPU 更高的效率。其實(shí)這個(gè)道理很簡(jiǎn)單,CPU負(fù)責(zé)邏輯推斷,GPU負(fù)責(zé)處理圖形數(shù)據(jù)處理,GPU擁有大體量的邏輯運(yùn)算單元用于數(shù)據(jù)處理,對(duì)于密集型數(shù)據(jù)可以進(jìn)行并行處理。最近提出的NPU以及谷歌的TPU都是整合數(shù)據(jù)、加強(qiáng)算力的一種手段,在CPU時(shí)代由于圖形處理對(duì)性能提出更高的要求而出現(xiàn)英偉達(dá),在下一個(gè)人工智能時(shí)代,在大數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,誰會(huì)搶下新一代處理器的算力巔峰成為下一個(gè)獨(dú)霸江湖的王者呢?
2.下一個(gè)風(fēng)口—;—;通用
目前, GPU在訓(xùn)練方面已經(jīng)發(fā)展到較為成熟的階段。谷歌、 FACEBOOK、微軟、 TWITTER 和百度等公司都在使用 GPU 分析圖片、視頻和音頻文件,以改進(jìn)搜索和圖像標(biāo)簽等應(yīng)用功能。但是英偉達(dá)也存在很大的問題,深度學(xué)習(xí)算法分為訓(xùn)練和推斷兩部分, GPU 平臺(tái)在算法訓(xùn)練上非常高效。但在推斷中對(duì)于單項(xiàng)輸入進(jìn)行處理的時(shí)候,并行計(jì)算的優(yōu)勢(shì)不能完全發(fā)揮出來。
由此,一些企業(yè)將目光投向?qū)S锰幚硇酒?,專用處理芯片可以分為定制的ASIC和半定制的FPGA兩大類, FPGA的前期啟動(dòng)成本低,后期可以進(jìn)行再編程,但這種優(yōu)勢(shì)是以更高總成本、功耗以及犧牲性能為代價(jià);ASIC運(yùn)行速度比FPGA快,但設(shè)計(jì)和制造周期更長(zhǎng),適應(yīng)性差,目前邊緣計(jì)算和嵌入式應(yīng)用市場(chǎng)應(yīng)用較多。很多初創(chuàng)公司則往往從門檻較低的專用芯片入手。
在AI技術(shù)日趨復(fù)雜,用于實(shí)現(xiàn)智能化的神經(jīng)網(wǎng)絡(luò)架構(gòu)越來越多的今天,“通用”才是AI的未來。它最理想化的方式是淡化人工干預(yù)的通用智能芯片,必須具備可編程性、架構(gòu)的動(dòng)態(tài)可變性等特點(diǎn)。就目前而言,實(shí)現(xiàn)通用AI的主要直面兩大挑戰(zhàn):一是通用性(算法和架構(gòu)),二是實(shí)現(xiàn)的復(fù)雜度。通用AI芯片的復(fù)雜度來自于任務(wù)的多樣性和對(duì)自學(xué)習(xí)、自適應(yīng)能力的支持。因此,我們認(rèn)為通用AI芯片的發(fā)展方向不會(huì)是一蹴而就地采用某一種芯片來解決問題,因?yàn)槔碚撃P秃退惴ㄉ形赐晟啤W钣行У姆绞绞窍扔靡粋€(gè)多種芯片設(shè)計(jì)思路組合的靈活的異構(gòu)系統(tǒng)來支持,各取所長(zhǎng),取長(zhǎng)補(bǔ)短。一旦架構(gòu)成熟,就可以考慮設(shè)計(jì)SoC來在一個(gè)芯片上支持通用AI。
目前,在AI芯片領(lǐng)域,由于在圖形處理方面的出色表現(xiàn),英偉達(dá)處于一家獨(dú)大的局面,占據(jù)全球AI芯片50%以上市場(chǎng)份額。此外,英特爾作為多年的芯片巨頭,英偉達(dá)保持了極大的投入力度,快速提高GPU的核心性能,增加新型功能,保持了在AI訓(xùn)練市場(chǎng)的霸主地位。
3.挑戰(zhàn)英偉達(dá)
如果說云端訓(xùn)練芯片是NVIDIA一家獨(dú)大,那云端推理芯片則是百家爭(zhēng)鳴,各有千秋。 相比訓(xùn)練芯片,推理芯片考慮的因素更加綜合:?jiǎn)挝还乃懔?,時(shí)延,成本等等。AI發(fā)展初期推理也采用GPU進(jìn)行加速,目前來看,競(jìng)爭(zhēng)態(tài)勢(shì)中英偉達(dá)依然占大頭,但由于應(yīng)用場(chǎng)景的特殊性,依據(jù)具體神經(jīng)網(wǎng)絡(luò)算法優(yōu)化會(huì)帶來更高的效率,F(xiàn)PGA/ASIC的表現(xiàn)可能更突出。除了英偉達(dá)、谷歌、英特爾、賽靈思等傳統(tǒng)芯片大廠涉足云端推理芯片以外,越來越多的初創(chuàng)公司也加入競(jìng)爭(zhēng),其中有一家以色列芯片公司Habana Labs十分突出。以英偉達(dá)在圖形處理和算力方面的絕對(duì)優(yōu)勢(shì),在人工智能芯片領(lǐng)域甚至未將英特爾、谷歌當(dāng)作競(jìng)爭(zhēng)對(duì)手,英特爾專注CPU、谷歌則精力多在于AI落地,這二者都不會(huì)對(duì)英偉達(dá)超過一半的市場(chǎng)份額造成沖擊,英偉達(dá)方面曾提到,對(duì)自己未來在AI領(lǐng)域市場(chǎng)份額造成沖擊的反而是一些新興芯片企業(yè),Habana就是其中之一。
這家芯片公司成立于 2016 年,在去年 9 月,Habana 曾推出名為 Goya 的人工智能推理芯片,并已擁有很多客戶。而在去年 11 月,Habana 完成了價(jià)值 7500 萬美元的 B 輪融資。去年 9 月,Habana 公司推出的 Goya 人工智能芯片著實(shí)吸引了一把眼球:其在 ResNet-50 上,四倍于英偉達(dá) Tesla T4 的處理性能,兩倍的能耗比,僅僅 1.01ms 的處理延遲讓人們感受了 ASIC 的強(qiáng)大能力。
4.從零開始—;—;Habana的架構(gòu)優(yōu)勢(shì)
為何在更小的功耗下,Habana 的芯片有著更強(qiáng)的機(jī)器學(xué)習(xí)算力?答案在于架構(gòu)。“CPU 和 GPU 的架構(gòu)是以解決和深度學(xué)習(xí)完全不同的任務(wù)為導(dǎo)向構(gòu)建的,CPU 面向通用計(jì)算,GPU 面向圖形處理,”Habana 首席商務(wù)官 Eitan Medina 介紹道。“在人工智能方面,GPU 的成功幾乎是“偶然”的,因?yàn)樗哂懈叩牟⑿卸?。然而如果你從零開始,觀察神經(jīng)網(wǎng)絡(luò)的特性的話,投入足夠精力,你就可以獲得一個(gè)更好的架構(gòu)。這就是 Habana 正在做的事。 ”
“人工智能處理器的性能包括兩點(diǎn),計(jì)算和延遲。” Eitan Medina認(rèn)為,原用于通用計(jì)算的GPU和CPU,適用于人工智能計(jì)算處理時(shí),在架構(gòu)上存在“先天不足”,因此從性能方面看,針對(duì)AI需求設(shè)計(jì)的專用芯片架構(gòu)存在優(yōu)勢(shì)。
Habana自然考慮到了這點(diǎn)。據(jù)Eitan Medina所說,公司工程師從最早、最基礎(chǔ)層面就開始對(duì)芯片的架構(gòu)進(jìn)行了設(shè)計(jì),專門針對(duì)AI需求。其團(tuán)隊(duì)成員也主要來自處理器、DSP、系統(tǒng)設(shè)計(jì)以及網(wǎng)絡(luò)設(shè)計(jì)等領(lǐng)域全球知名企業(yè)的精英,能夠支持Habana從軟件到硬件的研發(fā)需求。 在談及處理器架構(gòu)的時(shí)候,Habana中國(guó)區(qū)總經(jīng)理于明揚(yáng)表示,兩款處理板卡的性能提升完全是來源于架構(gòu),而不是因?yàn)楣に?。目前在Habana的研發(fā)投入中有有大約60%的人力是進(jìn)行軟件開發(fā)的,Habana在開始做AI芯片之前,其實(shí)是一個(gè)軟件公司,所以他們非常了解軟件工程師的想法,知道該在何處發(fā)力。
正如計(jì)算機(jī)科學(xué)家蘭德艾倫K曾經(jīng)說過:“真正認(rèn)真對(duì)軟件的人應(yīng)該做自己的硬件?!保琀abana由一個(gè)軟件公司上溯到硬件,這種模式使其能夠更好地整合硬件資源,目前Habana發(fā)布的Goya和Gaudi兩款板卡都是采用16nm工藝,由臺(tái)積電代工。
支持RDMA是AI訓(xùn)練芯片的下一代發(fā)展方向,也是Gaudi作出的突破之一,Gaudi更進(jìn)一步,集成了RDMA over Converged Ethernet(即RoCE v2)功能,從而讓AI系統(tǒng)能夠使用標(biāo)準(zhǔn)以太網(wǎng)擴(kuò)展至任何規(guī)模。Gaudi 中集成了 10 個(gè) 100GbE 帶寬的 RoCE RDMA 以太網(wǎng)端口。這意味著 Habana 的用戶可以用常規(guī)以太網(wǎng)環(huán)境實(shí)現(xiàn)擴(kuò)展。并行處理就是在訓(xùn)練過程中把任務(wù)分解到每個(gè)處理器上,再通過高速網(wǎng)絡(luò)把運(yùn)算結(jié)果聯(lián)系到一起。Habana 的芯片通過以太網(wǎng)鏈接可以實(shí)現(xiàn)樹狀結(jié)構(gòu)的層級(jí)化,達(dá)到接近完美的吞吐效率。
Habana表示,其愿景是成為人工智能芯片領(lǐng)域的領(lǐng)導(dǎo)者。不過在目前AI大勢(shì)未明之前,一切都有可能吧,讓我們拭目以待。