忘掉酷睿和驍龍:人工智能時(shí)代你該認(rèn)識(shí)這些芯片
新的技術(shù)革命需要新的武器。
如果你今天問身邊懂科技的朋友“未來(lái)是什么時(shí)代?”他八成會(huì)告訴你是人工智能的時(shí)代。
已經(jīng)開發(fā)了數(shù)十年,但在近幾年得到迅猛發(fā)展的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù),正在驅(qū)動(dòng)一次人工智能革命。而革命的對(duì)象正是微信、Facebook 等主流科技產(chǎn)品背后的那些科技公司。
新的革命需要新的武器??犷:万旪垈儾荒軡M足需求,人工智能計(jì)算需要新的芯片。當(dāng)我們談起處理器,我們過(guò)去談的是酷睿、GTX 和驍龍——現(xiàn)在是時(shí)候了解一些人工智能時(shí)代的芯片了。通過(guò)本文,我將用比較通俗易懂的語(yǔ)言為你介紹幾款主流的深度學(xué)習(xí)加速處理器。
GPU,也就是我們常說(shuō)的顯卡,得益于其硬件架構(gòu)對(duì)并行計(jì)算支持比較好,最一開始大家都用 GPU 來(lái)搞深度學(xué)習(xí)。一個(gè)很經(jīng)典的例子就是斯坦福教授吳恩達(dá)跑到 Google,帶隊(duì)用大量 GPU 做出了一個(gè)專門跑神經(jīng)網(wǎng)絡(luò)的大規(guī)模計(jì)算集群,也就是后來(lái)的 Google 大腦。
但在深度學(xué)習(xí)專家眼中,GPU 仍不是最優(yōu)的答案。它的性能很好,但耗電驚人。而且另一個(gè)搞笑的原因是,由于挖比特幣和以太坊需要,顯卡到處都缺貨,深度學(xué)習(xí)研究者經(jīng)常買不到或者買不起。神啊,賜他們一臺(tái)不挖礦,只跑深度學(xué)習(xí)的處理器可好?
即將前往麻省理工學(xué)院 (MIT) 擔(dān)任助理教授的深度學(xué)習(xí)專家韓松告訴PingWest 品玩,深度學(xué)習(xí)的計(jì)算模式和常規(guī)計(jì)算有很大不同,高度穩(wěn)定且不需要很高精確性。“1 乘以 1 可以不等于一”,這是其他計(jì)算不能允許的。
另一方面,深度學(xué)習(xí)專門硬件的特點(diǎn)是計(jì)算高效,缺點(diǎn)是很貴,需要有大量需求開發(fā)和使用才比較經(jīng)濟(jì),韓松指出,現(xiàn)在深度學(xué)習(xí)應(yīng)用的已經(jīng)非常廣,給人工智能開發(fā)專門的計(jì)算硬件是值得的。
Facebook 人工智能研究院院長(zhǎng)燕樂存 (Yann LeCun),20 多年前在貝爾實(shí)驗(yàn)室就開發(fā)過(guò)一款名叫 ANNA 的人工智能專門芯片。那時(shí)他還在做光學(xué)字符識(shí)別 (OCR) 研究,而 ANNA 識(shí)別字符的速度達(dá)到了驚人的 1000 個(gè)/秒,比同時(shí)代其他處理器都快得多。 你也可以說(shuō),ANNA 是最早的“人工智能芯片”,或者更準(zhǔn)確來(lái)說(shuō),深度學(xué)習(xí)加速處理器之一。
現(xiàn)在?人工智能芯片多到一雙手已經(jīng)數(shù)不過(guò)來(lái)了。幾乎每一家過(guò)去的“軟件”或者“服務(wù)”公司,那些跟硬件一直沒太大關(guān)系的大型科技公司,比如 Google、亞馬遜、微軟,都已經(jīng)開始使用,或者正在研發(fā)自己的深度學(xué)習(xí)加速處理器。
Google 的人工智能驅(qū)動(dòng)著每一次搜索的結(jié)果展現(xiàn),F(xiàn)acebook 用人工智能來(lái)優(yōu)化用戶的時(shí)間線,在用數(shù)千種語(yǔ)言發(fā)布的內(nèi)容之間互譯,騰訊也在西雅圖設(shè)立了實(shí)驗(yàn)室進(jìn)行人工智能基礎(chǔ)研究,嘗試將其用在微信等用戶過(guò)億的產(chǎn)品中。
而這種變化對(duì)芯片行業(yè)的巨頭們帶來(lái)了新的沖擊,他們有的發(fā)現(xiàn)自己已經(jīng)過(guò)時(shí)了,有的正在極速追趕 Google,通過(guò)收購(gòu)的方式拓展自己的產(chǎn)品線,在人工智能芯片市場(chǎng)還未開始論資排輩之前,就先占上一把交椅。
Google:TPU
是什么: Tensor Processing Unit(張量處理單元),是 Google 開發(fā)的專門目的集成電路 (ASIC) 。
性能:TPU 已經(jīng)開發(fā)出了第二代,每顆帶寬 600GB/s,算力達(dá)到 45 TFLOPS (8位整數(shù))。
它的模組化能力出眾,Google 的用法是將 4 顆 TPU 放在一塊電路板上,組成一個(gè) 180 TFLOPS 的模組“Cloud TPU”,用它們來(lái)替換深度學(xué)習(xí)云機(jī)房里的 CPU 和 GPU,單機(jī)最多可以拼接 256 塊 Cloud TPU,算力達(dá)到驚人的 11.5 PFLOPS(下圖)。
用途:前面提到,Google 過(guò)去用顯卡組建大規(guī)模計(jì)算集群,能耗較高,訓(xùn)練速度較慢,該公司需要一個(gè)專門的計(jì)算架構(gòu),去更高效地訓(xùn)練和使用深度神經(jīng)網(wǎng)絡(luò)。所以 Google 開發(fā)了 TPU。
TPU 于面向大規(guī)模低精度的深度學(xué)習(xí)計(jì)算而設(shè)計(jì)和優(yōu)化,適合神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理(在具體用途和場(chǎng)景中運(yùn)行神經(jīng)網(wǎng)絡(luò))?,F(xiàn)在,TPU 不僅 Google 員工的內(nèi)部工作系統(tǒng),還支持著搜索、照片、翻譯、街景等 Google 旗下產(chǎn)品。就連擊敗了李世乭、柯潔的圍棋人工智能程序 AlphaGo,也運(yùn)行在 TPU 上。
微軟:HPU 和“腦波計(jì)劃”DPU
是什么:HPU 是微軟在混合現(xiàn)實(shí)頭顯 HoloLens 里自行設(shè)計(jì),并由合作伙伴生產(chǎn)的“協(xié)處理器”。具體是用一塊 FPGA(現(xiàn)場(chǎng)可編程門陣列),一種非常靈活的半定制化電路實(shí)現(xiàn)的。
“腦波計(jì)劃”(Project Brainwave) 則是微軟前不久剛剛宣布的人工智能硬件加速計(jì)劃,包括一個(gè)大量芯片組成的分布式計(jì)算架構(gòu),和一套直接運(yùn)行在芯片上的“操作系統(tǒng)”。腦波計(jì)劃的硬件核心是 DPU (DNN Processing Unit),也即深度神經(jīng)網(wǎng)絡(luò)處理單元——本質(zhì)上還是 FPGA。
性能:HoloLens 一代內(nèi)置的 HPU,能夠在 10W 功耗下提供 1TFLOPS 算力。微軟上個(gè)月剛剛宣布了新一代 HPU,具體細(xì)節(jié)未知,但可以預(yù)料到的是功耗會(huì)進(jìn)一步降低,性能會(huì)繼續(xù)提高。
至于“腦波計(jì)劃”,它的信息十分有限,但看起來(lái)支持多種 FPGA,目前微軟展示的技術(shù)用的是英特爾的 14 納米制程 FPGA。這種芯片單顆計(jì)算力約 10 TFLOPS(單精度),功效為 80GFLOPS/W。
用途:HoloLens 一代已經(jīng)內(nèi)置了一塊英特爾的 CPU 和集成 GPU,為什么它還需要 HPU?其實(shí),作為混合現(xiàn)實(shí)或者增強(qiáng)現(xiàn)實(shí)頭顯,HoloLens 需要確保佩戴者的舒適,降低運(yùn)動(dòng)和姿態(tài)變化和畫面變化的延時(shí),所以它需要結(jié)合傳感器數(shù)據(jù)進(jìn)行海量的計(jì)算。但 CPU 和 GPU 主要跑操作系統(tǒng)(Windows 10)和處理圖像,沒有多余的算力給傳感器。如果讓它們來(lái)做這部分的計(jì)算,不但延時(shí)高用戶會(huì)眩暈,也更費(fèi)電,還搶走了操作系統(tǒng)的算力,提高了藍(lán)屏危險(xiǎn)……
HPU 就是用來(lái)做這部分工作的。而在 HoloLens 二代里,微軟打算讓 HPU 承擔(dān)更復(fù)雜的任務(wù):本地運(yùn)行深度神經(jīng)網(wǎng)絡(luò)。根據(jù)有限的信息,HPU 二代可以高功效運(yùn)行類型非常豐富的深度神經(jīng)網(wǎng)絡(luò),為 HoloLens 加入更多人工智能功能(比如本地圖像識(shí)別、語(yǔ)音處理等)開了大門。
至于“腦波計(jì)劃”,從同樣有限的信息來(lái)看,它應(yīng)該是微軟為擴(kuò)展自己的人工智能和云計(jì)算生態(tài),和 Google TPU 抗衡而推出的。它的用途和 TPU 應(yīng)該也不會(huì)有太大差異,無(wú)外乎對(duì)微軟自己的產(chǎn)品,以及其團(tuán)隊(duì)的科研提供計(jì)算支持。微軟的云計(jì)算服務(wù)一直在使用 FPGA,所以向 “腦波計(jì)劃”遷移應(yīng)該比較輕松。它支持微軟自己的 CNTK 深度學(xué)習(xí)框架,同時(shí)也支持競(jìng)爭(zhēng)對(duì)手 Google 的 TensorFlow 框架。
英偉達(dá):Tesla 深度學(xué)習(xí)處理器
是什么:英偉達(dá)是顯卡界的王者,但你可能不知道,現(xiàn)在的顯卡功能比玩游戲多多了(別提挖礦!)GeForce 是玩游戲的,Titan 系列則步入了 GPGPU 的范疇(可以玩游戲也可以做神經(jīng)網(wǎng)絡(luò)訓(xùn)練)。而 Tesla GPU 則是英偉達(dá)專為人工智能開發(fā)的專業(yè)級(jí)服務(wù)器端顯卡。
Tesla GPU 系列最新產(chǎn)品是 V100,V 的命名來(lái)自英偉達(dá)最新也最頂級(jí)的 12 納米 Volta 微架構(gòu)。
性能:V100 所采用的 Volta 架構(gòu),是由 640 枚被英偉達(dá)命名為“張量核心” (Tensor Cores) 組成的。你不需要明白 Tensor Cores 到底是什么,只需要知道它很厲害就行。V100 的計(jì)算性能達(dá)到 15 TFLOPS(單精度)、120TFLOPS(深度學(xué)習(xí)),堪稱人工智能芯片中的核彈了。
Tensor Cores
用途:Google 最一開始宣稱 TPU 比 GPU 快 30 倍,業(yè)界對(duì)其贊嘆有加。但有個(gè)細(xì)節(jié)是,TPU 第一代只能推理,不能用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。所以當(dāng)時(shí)英偉達(dá)還可以說(shuō)自己是唯一端到端(從訓(xùn)練到推理再到自動(dòng)駕駛等實(shí)際場(chǎng)景)的人工智能計(jì)算方案提供者。而 V100 就是這個(gè)方案的硬件核心。
不過(guò)英偉達(dá)推出 V100 沒多久,Google 就開了 I/O 2017 大會(huì),選不了訓(xùn)練和推理都能做的 TPU 二代。即便如此,V100 仍然是截至目前最適合神經(jīng)網(wǎng)絡(luò)科研的顯卡,用通用圖形處理器 (GPGPU/CUDA) 做深度學(xué)習(xí)這一派的絕對(duì)王者。
英特爾:FPGA、顯卡、至強(qiáng)融核和 VPU
是什么:前面提到了微軟在使用的現(xiàn)場(chǎng)可編程門陣列 FPGA,正是由英特爾(所收購(gòu)的 FPGA 巨頭 Altera,現(xiàn)在成為了英特爾 FPGA 部門) 所開發(fā)的。簡(jiǎn)單來(lái)說(shuō),因?yàn)?FPGA 對(duì)并行計(jì)算支持好,性能高,便于重新編程,功耗比 GPU、CPU 低,F(xiàn)PGA 也是人工智能芯片的一個(gè)重要門派(另一家FPGA 巨頭 Xilinx 的人工智能產(chǎn)品也很不錯(cuò),不過(guò)篇幅有限就不贅述了)。
英特爾還收購(gòu)了 Nervana,組建了一個(gè)人工智能部門。這個(gè)部門的研究用的是顯卡。
“至強(qiáng)融核” (Xeon Phi) 是英特爾另一款在服務(wù)器端抗衡英偉達(dá) GPU 的處理器產(chǎn)品。它的最新款產(chǎn)品并行計(jì)算好適合深度學(xué)習(xí),它的一個(gè)最主要優(yōu)勢(shì)是“實(shí)惠”,不跑深度學(xué)習(xí)也可以當(dāng) CPU 來(lái)用(因?yàn)樗緛?lái)就是 CPU)。
VPU 則是英特爾收購(gòu)的另一家愛爾蘭公司 Movidius 所開發(fā)的低功耗深度學(xué)習(xí)加速芯片,特色是超小尺寸和功耗超低。
用 VPU 制成的神經(jīng)計(jì)算棒
性能:英特爾 FPGA 產(chǎn)品線較復(fù)雜,性能多樣。顯卡方面的信息也不多
至于 Xeon Phi,計(jì)算力大約在 3.5 TFLOPS 左右?
VPU 采用該公司自研的 Myriad 架構(gòu),最大的特色是能夠在 1W 或更低功率內(nèi),實(shí)現(xiàn) 100 GFLOPS 甚至更高算力。
用途:如果英偉達(dá)一發(fā)核彈毀滅全球,那么英特爾就是通過(guò)多元化的產(chǎn)品線嘗試在深度學(xué)習(xí)市場(chǎng)上分一杯羹。FPGA、Xeon Phi 都是直接推向消費(fèi)者的云端數(shù)據(jù)中心里的產(chǎn)品,而身材纖細(xì)的 VPU 用途更多樣,安裝到了大疆無(wú)人機(jī)、聯(lián)想手機(jī)等產(chǎn)品中,也被英特爾直接做成了即插即用的深度學(xué)習(xí)計(jì)算棒,適合機(jī)器人開發(fā)等等。
Intel, Processors
其他公司
Facebook:也在開發(fā)自己的深度學(xué)習(xí)芯片,據(jù)說(shuō)在和高通合作。
百度:XPU,本質(zhì)是 FPGA,和Xilinx 合作
地平線:前百度深度學(xué)習(xí)研究院院長(zhǎng),也在開發(fā)人工智能定制芯片,應(yīng)該是 FPGA
蘋果:沒錯(cuò),蘋果也將在新款手機(jī)里加入“人工智能協(xié)處理器”,信息極為有限。