在巨頭陰影下 AI芯片初創(chuàng)企業(yè)如何突圍？

時(shí)間：2019-08-21 11:32:01

關(guān)鍵字： ai芯片初創(chuàng)企業(yè) 芯片英偉達(dá)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]人類歷史上第一次出現(xiàn)人工智能這個(gè)詞，已經(jīng)是半個(gè)多世紀(jì)以前的事了。近年來，在深度學(xué)習(xí)的驅(qū)動(dòng)下，人工智能浪潮走入了一個(gè)新時(shí)代，AI芯片也遍地開花，創(chuàng)業(yè)公司如雨后春筍般出現(xiàn)。但是，AI芯片這個(gè)江湖，依舊是英

人類歷史上第一次出現(xiàn)人工智能這個(gè)詞，已經(jīng)是半個(gè)多世紀(jì)以前的事了。近年來，在深度學(xué)習(xí)的驅(qū)動(dòng)下，人工智能浪潮走入了一個(gè)新時(shí)代，AI芯片也遍地開花，創(chuàng)業(yè)公司如雨后春筍般出現(xiàn)。但是，AI芯片這個(gè)江湖，依舊是英偉達(dá)以GPU獨(dú)霸江湖，在圖形處理方面占據(jù)著絕對(duì)的優(yōu)勢(shì)，市場(chǎng)占有率達(dá)到了一半以上，英特爾、谷歌、亞馬遜等巨頭也紛紛追趕，不過江湖兇險(xiǎn)，在AI芯片這塊寶地還未明朗之前，誰也不敢確定會(huì)發(fā)生什么。

1.什么是AI芯片？

一般來說，AI芯片被稱為AI加速器或計(jì)算卡，即專門用于加速AI應(yīng)用中的大量計(jì)算任務(wù)的模塊（其他非計(jì)算任務(wù)仍由CPU負(fù)責(zé)）。AI的三大關(guān)鍵基礎(chǔ)要素分別是是數(shù)據(jù)、算法和算力。傳統(tǒng)的 CPU一般都不是很適合人工智能算法的執(zhí)行，主要原因在于其計(jì)算指令遵循串行執(zhí)行的方式，沒能發(fā)揮出芯片的全部潛力。與之不同的是， GPU 具有高并行結(jié)構(gòu)，在處理圖形數(shù)據(jù)和復(fù)雜算法方面擁有比 CPU 更高的效率。其實(shí)這個(gè)道理很簡(jiǎn)單，CPU負(fù)責(zé)邏輯推斷，GPU負(fù)責(zé)處理圖形數(shù)據(jù)處理，GPU擁有大體量的邏輯運(yùn)算單元用于數(shù)據(jù)處理，對(duì)于密集型數(shù)據(jù)可以進(jìn)行并行處理。最近提出的NPU以及谷歌的TPU都是整合數(shù)據(jù)、加強(qiáng)算力的一種手段，在CPU時(shí)代由于圖形處理對(duì)性能提出更高的要求而出現(xiàn)英偉達(dá)，在下一個(gè)人工智能時(shí)代，在大數(shù)據(jù)驅(qū)動(dòng)的時(shí)代，誰會(huì)搶下新一代處理器的算力巔峰成為下一個(gè)獨(dú)霸江湖的王者呢？

2.下一個(gè)風(fēng)口—;—;通用

目前， GPU在訓(xùn)練方面已經(jīng)發(fā)展到較為成熟的階段。谷歌、 FACEBOOK、微軟、 TWITTER 和百度等公司都在使用 GPU 分析圖片、視頻和音頻文件，以改進(jìn)搜索和圖像標(biāo)簽等應(yīng)用功能。但是英偉達(dá)也存在很大的問題，深度學(xué)習(xí)算法分為訓(xùn)練和推斷兩部分， GPU 平臺(tái)在算法訓(xùn)練上非常高效。但在推斷中對(duì)于單項(xiàng)輸入進(jìn)行處理的時(shí)候，并行計(jì)算的優(yōu)勢(shì)不能完全發(fā)揮出來。

由此，一些企業(yè)將目光投向?qū)Ｓ锰幚硇酒?，專用處理芯片可以分為定制的ASIC和半定制的FPGA兩大類， FPGA的前期啟動(dòng)成本低，后期可以進(jìn)行再編程，但這種優(yōu)勢(shì)是以更高總成本、功耗以及犧牲性能為代價(jià)；ASIC運(yùn)行速度比FPGA快，但設(shè)計(jì)和制造周期更長(zhǎng)，適應(yīng)性差，目前邊緣計(jì)算和嵌入式應(yīng)用市場(chǎng)應(yīng)用較多。很多初創(chuàng)公司則往往從門檻較低的專用芯片入手。

在AI技術(shù)日趨復(fù)雜，用于實(shí)現(xiàn)智能化的神經(jīng)網(wǎng)絡(luò)架構(gòu)越來越多的今天，“通用”才是AI的未來。它最理想化的方式是淡化人工干預(yù)的通用智能芯片，必須具備可編程性、架構(gòu)的動(dòng)態(tài)可變性等特點(diǎn)。就目前而言，實(shí)現(xiàn)通用AI的主要直面兩大挑戰(zhàn)：一是通用性（算法和架構(gòu)），二是實(shí)現(xiàn)的復(fù)雜度。通用AI芯片的復(fù)雜度來自于任務(wù)的多樣性和對(duì)自學(xué)習(xí)、自適應(yīng)能力的支持。因此，我們認(rèn)為通用AI芯片的發(fā)展方向不會(huì)是一蹴而就地采用某一種芯片來解決問題，因?yàn)槔碚撃Ｐ秃退惴ㄉ形赐晟啤Ｗ钣行У姆绞绞窍扔靡粋€(gè)多種芯片設(shè)計(jì)思路組合的靈活的異構(gòu)系統(tǒng)來支持，各取所長(zhǎng)，取長(zhǎng)補(bǔ)短。一旦架構(gòu)成熟，就可以考慮設(shè)計(jì)SoC來在一個(gè)芯片上支持通用AI。

目前，在AI芯片領(lǐng)域，由于在圖形處理方面的出色表現(xiàn)，英偉達(dá)處于一家獨(dú)大的局面，占據(jù)全球AI芯片50%以上市場(chǎng)份額。此外，英特爾作為多年的芯片巨頭，英偉達(dá)保持了極大的投入力度，快速提高GPU的核心性能，增加新型功能，保持了在AI訓(xùn)練市場(chǎng)的霸主地位。

3.挑戰(zhàn)英偉達(dá)

如果說云端訓(xùn)練芯片是NVIDIA一家獨(dú)大，那云端推理芯片則是百家爭(zhēng)鳴，各有千秋。相比訓(xùn)練芯片，推理芯片考慮的因素更加綜合：?jiǎn)挝还乃懔?，時(shí)延，成本等等。AI發(fā)展初期推理也采用GPU進(jìn)行加速，目前來看，競(jìng)爭(zhēng)態(tài)勢(shì)中英偉達(dá)依然占大頭，但由于應(yīng)用場(chǎng)景的特殊性，依據(jù)具體神經(jīng)網(wǎng)絡(luò)算法優(yōu)化會(huì)帶來更高的效率，F(xiàn)PGA/ASIC的表現(xiàn)可能更突出。除了英偉達(dá)、谷歌、英特爾、賽靈思等傳統(tǒng)芯片大廠涉足云端推理芯片以外，越來越多的初創(chuàng)公司也加入競(jìng)爭(zhēng)，其中有一家以色列芯片公司Habana Labs十分突出。以英偉達(dá)在圖形處理和算力方面的絕對(duì)優(yōu)勢(shì)，在人工智能芯片領(lǐng)域甚至未將英特爾、谷歌當(dāng)作競(jìng)爭(zhēng)對(duì)手，英特爾專注CPU、谷歌則精力多在于AI落地，這二者都不會(huì)對(duì)英偉達(dá)超過一半的市場(chǎng)份額造成沖擊，英偉達(dá)方面曾提到，對(duì)自己未來在AI領(lǐng)域市場(chǎng)份額造成沖擊的反而是一些新興芯片企業(yè)，Habana就是其中之一。

這家芯片公司成立于 2016 年，在去年 9 月，Habana 曾推出名為 Goya 的人工智能推理芯片，并已擁有很多客戶。而在去年 11 月，Habana 完成了價(jià)值 7500 萬美元的 B 輪融資。去年 9 月，Habana 公司推出的 Goya 人工智能芯片著實(shí)吸引了一把眼球：其在 ResNet-50 上，四倍于英偉達(dá) Tesla T4 的處理性能，兩倍的能耗比，僅僅 1.01ms 的處理延遲讓人們感受了 ASIC 的強(qiáng)大能力。

4.從零開始—;—;Habana的架構(gòu)優(yōu)勢(shì)

為何在更小的功耗下，Habana 的芯片有著更強(qiáng)的機(jī)器學(xué)習(xí)算力？答案在于架構(gòu)。“CPU 和 GPU 的架構(gòu)是以解決和深度學(xué)習(xí)完全不同的任務(wù)為導(dǎo)向構(gòu)建的，CPU 面向通用計(jì)算，GPU 面向圖形處理，”Habana 首席商務(wù)官 Eitan Medina 介紹道。“在人工智能方面，GPU 的成功幾乎是“偶然”的，因?yàn)樗哂懈叩牟⑿卸?。然而如果你從零開始，觀察神經(jīng)網(wǎng)絡(luò)的特性的話，投入足夠精力，你就可以獲得一個(gè)更好的架構(gòu)。這就是 Habana 正在做的事。 ”

“人工智能處理器的性能包括兩點(diǎn)，計(jì)算和延遲。” Eitan Medina認(rèn)為，原用于通用計(jì)算的GPU和CPU，適用于人工智能計(jì)算處理時(shí)，在架構(gòu)上存在“先天不足”，因此從性能方面看，針對(duì)AI需求設(shè)計(jì)的專用芯片架構(gòu)存在優(yōu)勢(shì)。

Habana自然考慮到了這點(diǎn)。據(jù)Eitan Medina所說，公司工程師從最早、最基礎(chǔ)層面就開始對(duì)芯片的架構(gòu)進(jìn)行了設(shè)計(jì)，專門針對(duì)AI需求。其團(tuán)隊(duì)成員也主要來自處理器、DSP、系統(tǒng)設(shè)計(jì)以及網(wǎng)絡(luò)設(shè)計(jì)等領(lǐng)域全球知名企業(yè)的精英，能夠支持Habana從軟件到硬件的研發(fā)需求。在談及處理器架構(gòu)的時(shí)候，Habana中國(guó)區(qū)總經(jīng)理于明揚(yáng)表示，兩款處理板卡的性能提升完全是來源于架構(gòu)，而不是因?yàn)楣に?。目前在Habana的研發(fā)投入中有有大約60%的人力是進(jìn)行軟件開發(fā)的，Habana在開始做AI芯片之前，其實(shí)是一個(gè)軟件公司，所以他們非常了解軟件工程師的想法，知道該在何處發(fā)力。

正如計(jì)算機(jī)科學(xué)家蘭德艾倫K曾經(jīng)說過：“真正認(rèn)真對(duì)軟件的人應(yīng)該做自己的硬件?！保琀abana由一個(gè)軟件公司上溯到硬件，這種模式使其能夠更好地整合硬件資源，目前Habana發(fā)布的Goya和Gaudi兩款板卡都是采用16nm工藝，由臺(tái)積電代工。

支持RDMA是AI訓(xùn)練芯片的下一代發(fā)展方向，也是Gaudi作出的突破之一，Gaudi更進(jìn)一步，集成了RDMA over Converged Ethernet（即RoCE v2）功能，從而讓AI系統(tǒng)能夠使用標(biāo)準(zhǔn)以太網(wǎng)擴(kuò)展至任何規(guī)模。Gaudi 中集成了 10 個(gè) 100GbE 帶寬的 RoCE RDMA 以太網(wǎng)端口。這意味著 Habana 的用戶可以用常規(guī)以太網(wǎng)環(huán)境實(shí)現(xiàn)擴(kuò)展。并行處理就是在訓(xùn)練過程中把任務(wù)分解到每個(gè)處理器上，再通過高速網(wǎng)絡(luò)把運(yùn)算結(jié)果聯(lián)系到一起。Habana 的芯片通過以太網(wǎng)鏈接可以實(shí)現(xiàn)樹狀結(jié)構(gòu)的層級(jí)化，達(dá)到接近完美的吞吐效率。

Habana表示，其愿景是成為人工智能芯片領(lǐng)域的領(lǐng)導(dǎo)者。不過在目前AI大勢(shì)未明之前，一切都有可能吧，讓我們拭目以待。