AI芯片：現(xiàn)實版螳螂捕蟬黃雀在后

時間：2017-05-12 14:02:38

關鍵字： ai芯片存儲技術英偉達英特爾

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]谷歌的無人車在美國開了幾十萬公里，通過訓練練出一個自動駕駛的AI模型。這個模型訓練出來之后，未來可以部署到每一臺量產的谷歌無人車，實現(xiàn)自動駕駛。在自動駕駛中，這個AI模型就必須實時進行推斷。

谷歌的無人車在美國開了幾十萬公里，通過訓練練出一個自動駕駛的AI模型。這個模型訓練出來之后，未來可以部署到每一臺量產的谷歌無人車，實現(xiàn)自動駕駛。在自動駕駛中，這個AI模型就必須實時進行推斷。

圖片來自網(wǎng)絡

英偉達Q1的財報發(fā)布后幾小時，股價就暴漲14%。

老黃的Keynote還沒講完，英偉達市值就被推高20%，突破700億美元。

華爾街瘋狂的背后，是人工智能的大潮，與推動這一大潮的全新技術。

英偉達最新的GPU芯片——TeslaV100及其TensorCore，必將讓這科技的大潮又起一層浪。

眼看著英偉達在這人工智能的浪潮中一騎絕塵，它的技術到底能有多厲害?難道其他芯片巨頭就真的在吃干飯嗎?

今天，我們特意邀請到兩位芯片領域的專家，專門來聊聊英偉達的新技術，以及這場AI芯片大戰(zhàn)的關鍵看點。

英偉達領先多少

昨天以前，英偉達在深度學習芯片領域已經(jīng)非常領先了，但是還不是遙不可及。

但在一口氣發(fā)布的7個產品和計劃后，特別是其中的TeslaV100，確實震撼?？梢哉f，大大拉開了它與競爭對手的距離。

這不由得讓人想起90年代，思科成為互聯(lián)網(wǎng)第一波紅利的最大獲益者?，F(xiàn)在AI時代的到來，盡管我們還不知道它這一輪到底能沖多高，但大家都還在摩拳擦掌、買槍買炮。

而英偉達卻第一時間成為一家獨大的軍火商，肯定是AI第一波紅利的最大獲益者。

英偉達在GTC大會推出的全新GPU，確實在技術上劃了時代，吊打所有對手。

通用的GPU單元，專門的Tensor加速器，矩陣運算絕對性能爆炸，同時還兼顧其他算法。不愧是英偉達憑借多年在深度學習領域的積累、對需求深刻洞察之后推出的心血大作，比上一代強大十倍的性能，既適合訓練又適合部署。

就此，老黃已直接對絕大多數(shù)做深度學習芯片的創(chuàng)業(yè)項目宣判了死刑。

為什么GPU就適合AI?

我們來科普一下。深度學習是機器學習的一種技術，基于深度神經(jīng)網(wǎng)絡，這一輪AI主要就是深度學習技術突破引領的。

而深度學習里面絕大多數(shù)的運算都是矩陣運算，矩陣運算天生就容易并行，而GPU最擅長的就是做并行數(shù)學計算，所以特別適合做深度學習。

2012年的時候，Geoffrey Hinton的學生Alex Krizhevsky用GPU來做深度學習，并且取得了ImageNet大賽冠軍。經(jīng)過他們的評測，用GPU比CPU快60倍。

人工智能研究者一找上GPU，英偉達立馬抓住機會，短時間內動用數(shù)千工程師、投入20億美元，研發(fā)出第一臺專門為深度學習優(yōu)化的Pascal GPU。所以，在深度學習大行其道的今天，英偉達就成了大贏家了。而深度學習中GPU的應用，有這兩個場景：一個是訓練，一個是部署。所謂訓練，就是AI的構建過程，研究員在線下通過喂給AI算法大量的數(shù)據(jù)，產生出一個模型。而部署，就是把訓練好的這個模型拿到應用現(xiàn)場去用，去做推斷。

比如說，谷歌的無人車在美國開了幾十萬公里，通過訓練練出一個自動駕駛的AI模型。這個模型訓練出來之后，未來可以部署到每一臺量產的谷歌無人車，實現(xiàn)自動駕駛。在自動駕駛中，這個AI模型就必須實時進行推斷。

訓練階段，我們主要關心的是大規(guī)模的計算吞吐率，而到了部署中，更強調的是絕對的計算能力、低延遲、高性能功耗比、高穩(wěn)定性。

現(xiàn)在在AI界，訓練模型普遍采用英偉達的GPU，但是到了部署領域呢，有人用GPU，有人用谷歌的TPU，有人用英特爾，還有一大批嵌入式芯片開發(fā)商正在開發(fā)專用的前端深度學習芯片。

但是，剛剛發(fā)布的V100，既適合做訓練，又適合做推斷，除了功耗較大以外，在能力方面實現(xiàn)了左右通殺，所以確實厲害。

另外，英偉達還有一個專門用來部署的運行時環(huán)境叫TeslaRT。所以英偉達在AI芯片領域真有點一騎絕塵的架勢了。

難道無人能擋英偉達?

AI芯片這么大的一塊蛋糕，總得多有幾個人來分才熱鬧，就算英偉達現(xiàn)在的優(yōu)勢不容置疑，那接下來的疑問就是，它的優(yōu)勢究竟能持續(xù)多久?

谷歌TPU

幾天前，在谷歌TPU團隊出走半數(shù)后，計算機體系架構的宗師DavidPatterson宣布他要加入谷歌，正式參與TPU項目。

上個月，谷歌關于TPU性能的論文披露說，TPU運行速度是英偉達和英特爾相關處理器的15-30倍，能效高出30-80倍。

谷歌的TPU適用于部署，能跟谷歌自家的TensorFlow緊密結合?？上情]源的，谷歌視它為核心競爭力，應該不會開放給別人用。

TPU的第一版很驚艷，不過缺點也很多?，F(xiàn)在從谷歌的論文來看，這個架構有點過時，實踐當中也會有很大局限性。雖說這次DavidPatterson加入谷歌TPU團隊的動靜很大，但我們還是應當保持冷靜、繼續(xù)觀察。

英特爾

另一個能跟英偉達叫板的，就是老牌芯片巨頭英特爾，但它的CPU擅長高速處理數(shù)字，卻不擅長處理音視頻等非結構化數(shù)據(jù)。

于是在去年，英特爾耗資4億美元收購深度學習初創(chuàng)企業(yè)Nervana，試圖通過Nervana Systems在硅層實現(xiàn)機器學習。今年3月，這家土豪又怒砸153億美元收購一家以色列芯片公司Mobileye，土豪要用自己家的高性能計算和網(wǎng)絡連接能力，結合Mobileye的計算機視覺專業(yè)技術，打造從云端直達每輛汽車的無人駕駛解決方案，深化它在自動駕駛領域的布局。

收購Nervana，是英特爾非常厲害的一招。因為，這家公司前幾年一直在幫英偉達優(yōu)化GPU平臺。他們是一群頂級黑客團隊，hack了GPU的native指令集，寫出了比當時的cudnn(NVIDIA自己的深度學習數(shù)學庫)還要快若干倍的數(shù)學庫。他們的成果都開源給了社區(qū)，cudnn后面的進步很大程度是因為吸收了這些成果。這家公司被英特爾收購后，就斷了繼續(xù)為英偉達提供服務的可能，同時也極大增強了英特爾的實力。

英特爾現(xiàn)在是allinAI，它的幾大產品線，都會重點針對深度學習進行專門定制，比如之前作為HPC平臺的XeonPhi加速計算卡，收購的AlteraFPGA，包括NervanaSystem，都是各自獨立的深度學習產品線。其他還包括IoT部門，還有收購的Movidius公司，這些是提供嵌入式和端的解決方案。

小編聽完，真是眼界大開。

這樣來看，在深度學習芯片上，英偉達一馬當先，英特爾黃雀在后，而谷歌的TPU，還真是任重而道遠啊。