忘掉酷睿和驍龍：人工智能時(shí)代你該認(rèn)識(shí)這些芯片

時(shí)間：2017-08-28 10:41:41

關(guān)鍵字： GPU 人工智能芯片

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]新的革命需要新的武器?？犷：万旪垈儾荒軡M足需求，人工智能計(jì)算需要新的芯片。當(dāng)我們談起處理器，我們過(guò)去談的是酷睿、GTX 和驍龍——現(xiàn)在是時(shí)候了解一些人工智能時(shí)代的芯片了。通過(guò)本文，我將用比較通俗易懂的語(yǔ)言為你介紹幾款主流的深度學(xué)習(xí)加速處理器。

新的技術(shù)革命需要新的武器。

如果你今天問身邊懂科技的朋友“未來(lái)是什么時(shí)代?”他八成會(huì)告訴你是人工智能的時(shí)代。

已經(jīng)開發(fā)了數(shù)十年，但在近幾年得到迅猛發(fā)展的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)，正在驅(qū)動(dòng)一次人工智能革命。而革命的對(duì)象正是微信、Facebook 等主流科技產(chǎn)品背后的那些科技公司。

新的革命需要新的武器?？犷：万旪垈儾荒軡M足需求，人工智能計(jì)算需要新的芯片。當(dāng)我們談起處理器，我們過(guò)去談的是酷睿、GTX 和驍龍——現(xiàn)在是時(shí)候了解一些人工智能時(shí)代的芯片了。通過(guò)本文，我將用比較通俗易懂的語(yǔ)言為你介紹幾款主流的深度學(xué)習(xí)加速處理器。

GPU，也就是我們常說(shuō)的顯卡，得益于其硬件架構(gòu)對(duì)并行計(jì)算支持比較好，最一開始大家都用 GPU 來(lái)搞深度學(xué)習(xí)。一個(gè)很經(jīng)典的例子就是斯坦福教授吳恩達(dá)跑到 Google，帶隊(duì)用大量 GPU 做出了一個(gè)專門跑神經(jīng)網(wǎng)絡(luò)的大規(guī)模計(jì)算集群，也就是后來(lái)的 Google 大腦。

但在深度學(xué)習(xí)專家眼中，GPU 仍不是最優(yōu)的答案。它的性能很好，但耗電驚人。而且另一個(gè)搞笑的原因是，由于挖比特幣和以太坊需要，顯卡到處都缺貨，深度學(xué)習(xí)研究者經(jīng)常買不到或者買不起。神啊，賜他們一臺(tái)不挖礦，只跑深度學(xué)習(xí)的處理器可好?

即將前往麻省理工學(xué)院 (MIT) 擔(dān)任助理教授的深度學(xué)習(xí)專家韓松告訴PingWest 品玩，深度學(xué)習(xí)的計(jì)算模式和常規(guī)計(jì)算有很大不同，高度穩(wěn)定且不需要很高精確性。“1 乘以 1 可以不等于一”，這是其他計(jì)算不能允許的。

另一方面，深度學(xué)習(xí)專門硬件的特點(diǎn)是計(jì)算高效，缺點(diǎn)是很貴，需要有大量需求開發(fā)和使用才比較經(jīng)濟(jì)，韓松指出，現(xiàn)在深度學(xué)習(xí)應(yīng)用的已經(jīng)非常廣，給人工智能開發(fā)專門的計(jì)算硬件是值得的。

Facebook 人工智能研究院院長(zhǎng)燕樂存 (Yann LeCun)，20 多年前在貝爾實(shí)驗(yàn)室就開發(fā)過(guò)一款名叫 ANNA 的人工智能專門芯片。那時(shí)他還在做光學(xué)字符識(shí)別 (OCR) 研究，而 ANNA 識(shí)別字符的速度達(dá)到了驚人的 1000 個(gè)/秒，比同時(shí)代其他處理器都快得多。你也可以說(shuō)，ANNA 是最早的“人工智能芯片”，或者更準(zhǔn)確來(lái)說(shuō)，深度學(xué)習(xí)加速處理器之一。

現(xiàn)在?人工智能芯片多到一雙手已經(jīng)數(shù)不過(guò)來(lái)了。幾乎每一家過(guò)去的“軟件”或者“服務(wù)”公司，那些跟硬件一直沒太大關(guān)系的大型科技公司，比如 Google、亞馬遜、微軟，都已經(jīng)開始使用，或者正在研發(fā)自己的深度學(xué)習(xí)加速處理器。

Google 的人工智能驅(qū)動(dòng)著每一次搜索的結(jié)果展現(xiàn)，F(xiàn)acebook 用人工智能來(lái)優(yōu)化用戶的時(shí)間線，在用數(shù)千種語(yǔ)言發(fā)布的內(nèi)容之間互譯，騰訊也在西雅圖設(shè)立了實(shí)驗(yàn)室進(jìn)行人工智能基礎(chǔ)研究，嘗試將其用在微信等用戶過(guò)億的產(chǎn)品中。

而這種變化對(duì)芯片行業(yè)的巨頭們帶來(lái)了新的沖擊，他們有的發(fā)現(xiàn)自己已經(jīng)過(guò)時(shí)了，有的正在極速追趕 Google，通過(guò)收購(gòu)的方式拓展自己的產(chǎn)品線，在人工智能芯片市場(chǎng)還未開始論資排輩之前，就先占上一把交椅。

Google：TPU

是什么： Tensor Processing Unit(張量處理單元)，是 Google 開發(fā)的專門目的集成電路 (ASIC) 。

性能：TPU 已經(jīng)開發(fā)出了第二代，每顆帶寬 600GB/s，算力達(dá)到 45 TFLOPS (8位整數(shù))。

它的模組化能力出眾，Google 的用法是將 4 顆 TPU 放在一塊電路板上，組成一個(gè) 180 TFLOPS 的模組“Cloud TPU”，用它們來(lái)替換深度學(xué)習(xí)云機(jī)房里的 CPU 和 GPU，單機(jī)最多可以拼接 256 塊 Cloud TPU，算力達(dá)到驚人的 11.5 PFLOPS(下圖)。

用途：前面提到，Google 過(guò)去用顯卡組建大規(guī)模計(jì)算集群，能耗較高，訓(xùn)練速度較慢，該公司需要一個(gè)專門的計(jì)算架構(gòu)，去更高效地訓(xùn)練和使用深度神經(jīng)網(wǎng)絡(luò)。所以 Google 開發(fā)了 TPU。

TPU 于面向大規(guī)模低精度的深度學(xué)習(xí)計(jì)算而設(shè)計(jì)和優(yōu)化，適合神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理(在具體用途和場(chǎng)景中運(yùn)行神經(jīng)網(wǎng)絡(luò))?，F(xiàn)在，TPU 不僅 Google 員工的內(nèi)部工作系統(tǒng)，還支持著搜索、照片、翻譯、街景等 Google 旗下產(chǎn)品。就連擊敗了李世乭、柯潔的圍棋人工智能程序 AlphaGo，也運(yùn)行在 TPU 上。

微軟：HPU 和“腦波計(jì)劃”DPU

是什么：HPU 是微軟在混合現(xiàn)實(shí)頭顯 HoloLens 里自行設(shè)計(jì)，并由合作伙伴生產(chǎn)的“協(xié)處理器”。具體是用一塊 FPGA(現(xiàn)場(chǎng)可編程門陣列)，一種非常靈活的半定制化電路實(shí)現(xiàn)的。

“腦波計(jì)劃”(Project Brainwave) 則是微軟前不久剛剛宣布的人工智能硬件加速計(jì)劃，包括一個(gè)大量芯片組成的分布式計(jì)算架構(gòu)，和一套直接運(yùn)行在芯片上的“操作系統(tǒng)”。腦波計(jì)劃的硬件核心是 DPU (DNN Processing Unit)，也即深度神經(jīng)網(wǎng)絡(luò)處理單元——本質(zhì)上還是 FPGA。

性能：HoloLens 一代內(nèi)置的 HPU，能夠在 10W 功耗下提供 1TFLOPS 算力。微軟上個(gè)月剛剛宣布了新一代 HPU，具體細(xì)節(jié)未知，但可以預(yù)料到的是功耗會(huì)進(jìn)一步降低，性能會(huì)繼續(xù)提高。

至于“腦波計(jì)劃”，它的信息十分有限，但看起來(lái)支持多種 FPGA，目前微軟展示的技術(shù)用的是英特爾的 14 納米制程 FPGA。這種芯片單顆計(jì)算力約 10 TFLOPS(單精度)，功效為 80GFLOPS/W。

用途：HoloLens 一代已經(jīng)內(nèi)置了一塊英特爾的 CPU 和集成 GPU，為什么它還需要 HPU?其實(shí)，作為混合現(xiàn)實(shí)或者增強(qiáng)現(xiàn)實(shí)頭顯，HoloLens 需要確保佩戴者的舒適，降低運(yùn)動(dòng)和姿態(tài)變化和畫面變化的延時(shí)，所以它需要結(jié)合傳感器數(shù)據(jù)進(jìn)行海量的計(jì)算。但 CPU 和 GPU 主要跑操作系統(tǒng)(Windows 10)和處理圖像，沒有多余的算力給傳感器。如果讓它們來(lái)做這部分的計(jì)算，不但延時(shí)高用戶會(huì)眩暈，也更費(fèi)電，還搶走了操作系統(tǒng)的算力，提高了藍(lán)屏危險(xiǎn)……

HPU 就是用來(lái)做這部分工作的。而在 HoloLens 二代里，微軟打算讓 HPU 承擔(dān)更復(fù)雜的任務(wù)：本地運(yùn)行深度神經(jīng)網(wǎng)絡(luò)。根據(jù)有限的信息，HPU 二代可以高功效運(yùn)行類型非常豐富的深度神經(jīng)網(wǎng)絡(luò)，為 HoloLens 加入更多人工智能功能(比如本地圖像識(shí)別、語(yǔ)音處理等)開了大門。

至于“腦波計(jì)劃”，從同樣有限的信息來(lái)看，它應(yīng)該是微軟為擴(kuò)展自己的人工智能和云計(jì)算生態(tài)，和 Google TPU 抗衡而推出的。它的用途和 TPU 應(yīng)該也不會(huì)有太大差異，無(wú)外乎對(duì)微軟自己的產(chǎn)品，以及其團(tuán)隊(duì)的科研提供計(jì)算支持。微軟的云計(jì)算服務(wù)一直在使用 FPGA，所以向 “腦波計(jì)劃”遷移應(yīng)該比較輕松。它支持微軟自己的 CNTK 深度學(xué)習(xí)框架，同時(shí)也支持競(jìng)爭(zhēng)對(duì)手 Google 的 TensorFlow 框架。

英偉達(dá)：Tesla 深度學(xué)習(xí)處理器

是什么：英偉達(dá)是顯卡界的王者，但你可能不知道，現(xiàn)在的顯卡功能比玩游戲多多了(別提挖礦!)GeForce 是玩游戲的，Titan 系列則步入了 GPGPU 的范疇(可以玩游戲也可以做神經(jīng)網(wǎng)絡(luò)訓(xùn)練)。而 Tesla GPU 則是英偉達(dá)專為人工智能開發(fā)的專業(yè)級(jí)服務(wù)器端顯卡。

Tesla GPU 系列最新產(chǎn)品是 V100，V 的命名來(lái)自英偉達(dá)最新也最頂級(jí)的 12 納米 Volta 微架構(gòu)。

性能：V100 所采用的 Volta 架構(gòu)，是由 640 枚被英偉達(dá)命名為“張量核心” (Tensor Cores) 組成的。你不需要明白 Tensor Cores 到底是什么，只需要知道它很厲害就行。V100 的計(jì)算性能達(dá)到 15 TFLOPS(單精度)、120TFLOPS(深度學(xué)習(xí))，堪稱人工智能芯片中的核彈了。

Tensor Cores

用途：Google 最一開始宣稱 TPU 比 GPU 快 30 倍，業(yè)界對(duì)其贊嘆有加。但有個(gè)細(xì)節(jié)是，TPU 第一代只能推理，不能用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。所以當(dāng)時(shí)英偉達(dá)還可以說(shuō)自己是唯一端到端(從訓(xùn)練到推理再到自動(dòng)駕駛等實(shí)際場(chǎng)景)的人工智能計(jì)算方案提供者。而 V100 就是這個(gè)方案的硬件核心。

不過(guò)英偉達(dá)推出 V100 沒多久，Google 就開了 I/O 2017 大會(huì)，選不了訓(xùn)練和推理都能做的 TPU 二代。即便如此，V100 仍然是截至目前最適合神經(jīng)網(wǎng)絡(luò)科研的顯卡，用通用圖形處理器 (GPGPU/CUDA) 做深度學(xué)習(xí)這一派的絕對(duì)王者。

英特爾：FPGA、顯卡、至強(qiáng)融核和 VPU

是什么：前面提到了微軟在使用的現(xiàn)場(chǎng)可編程門陣列 FPGA，正是由英特爾(所收購(gòu)的 FPGA 巨頭 Altera，現(xiàn)在成為了英特爾 FPGA 部門) 所開發(fā)的。簡(jiǎn)單來(lái)說(shuō)，因?yàn)?FPGA 對(duì)并行計(jì)算支持好，性能高，便于重新編程，功耗比 GPU、CPU 低，F(xiàn)PGA 也是人工智能芯片的一個(gè)重要門派(另一家FPGA 巨頭 Xilinx 的人工智能產(chǎn)品也很不錯(cuò)，不過(guò)篇幅有限就不贅述了)。

英特爾還收購(gòu)了 Nervana，組建了一個(gè)人工智能部門。這個(gè)部門的研究用的是顯卡。

“至強(qiáng)融核” (Xeon Phi) 是英特爾另一款在服務(wù)器端抗衡英偉達(dá) GPU 的處理器產(chǎn)品。它的最新款產(chǎn)品并行計(jì)算好適合深度學(xué)習(xí)，它的一個(gè)最主要優(yōu)勢(shì)是“實(shí)惠”，不跑深度學(xué)習(xí)也可以當(dāng) CPU 來(lái)用(因?yàn)樗緛?lái)就是 CPU)。

VPU 則是英特爾收購(gòu)的另一家愛爾蘭公司 Movidius 所開發(fā)的低功耗深度學(xué)習(xí)加速芯片，特色是超小尺寸和功耗超低。

用 VPU 制成的神經(jīng)計(jì)算棒

性能：英特爾 FPGA 產(chǎn)品線較復(fù)雜，性能多樣。顯卡方面的信息也不多

至于 Xeon Phi，計(jì)算力大約在 3.5 TFLOPS 左右?

VPU 采用該公司自研的 Myriad 架構(gòu)，最大的特色是能夠在 1W 或更低功率內(nèi)，實(shí)現(xiàn) 100 GFLOPS 甚至更高算力。

用途：如果英偉達(dá)一發(fā)核彈毀滅全球，那么英特爾就是通過(guò)多元化的產(chǎn)品線嘗試在深度學(xué)習(xí)市場(chǎng)上分一杯羹。FPGA、Xeon Phi 都是直接推向消費(fèi)者的云端數(shù)據(jù)中心里的產(chǎn)品，而身材纖細(xì)的 VPU 用途更多樣，安裝到了大疆無(wú)人機(jī)、聯(lián)想手機(jī)等產(chǎn)品中，也被英特爾直接做成了即插即用的深度學(xué)習(xí)計(jì)算棒，適合機(jī)器人開發(fā)等等。

Intel, Processors

其他公司

Facebook：也在開發(fā)自己的深度學(xué)習(xí)芯片，據(jù)說(shuō)在和高通合作。

百度：XPU，本質(zhì)是 FPGA，和Xilinx 合作

地平線：前百度深度學(xué)習(xí)研究院院長(zhǎng)，也在開發(fā)人工智能定制芯片，應(yīng)該是 FPGA

蘋果：沒錯(cuò)，蘋果也將在新款手機(jī)里加入“人工智能協(xié)處理器”，信息極為有限。