人工智能將推動新一輪計算革命,深度學習需要海量數(shù)據(jù)并行運算,傳統(tǒng)計算架構(gòu)無法支撐深度學習的大規(guī)模并行計算需求。因此,深度學習需要更適應此類算法的新的底層硬件來加速計算過程。
芯片也為響應人工智能和深度學習的需要,在速度和低能耗方面被提出了更高的要求,目前使用的 GPU、FPGA 均非人工智能定制芯片,天然存在局限性,除具有最明顯的優(yōu)勢GPU外,也有不少典型人工智能專用芯片出現(xiàn)。
一、谷歌——TPU(Tensor Processing Unit)即谷歌的張量處理器
TPU是一款為機器學習而定制的芯片,經(jīng)過了專門深度機器學習方面的訓練,它有更高效能(每瓦計算能力)。大致上,相對于現(xiàn)在的處理器有7年的領先優(yōu)勢,寬容度更高,每秒在芯片中可以擠出更多的操作時間,使用更復雜和強大的機器學習模型,將之更快的部署,用戶也會更加迅速地獲得更智能的結(jié)果。
根據(jù)Google一位杰出硬件工程師Norm Jouppi在一篇部落格文章中的說法,該種加速器早在一年多前就運用于Google的數(shù)據(jù)中心:“TPU已經(jīng)啟動許多Google的應用,包括用以改善搜索引擎結(jié)果關聯(lián)度的RankBrain,以及在街景服務(Street View)改善地圖與導航的精確度與質(zhì)量。”
谷歌專門為人工智能研發(fā)的TPU被疑將對GPU構(gòu)成威脅。不過谷歌表示,其研發(fā)的TPU不會直接與英特爾或NVIDIA進行競爭。
二、中星微——中國首款嵌入式神經(jīng)網(wǎng)絡處理器(NPU)芯片
中星微在今年6月 20 日,率先推出中國首款嵌入式神經(jīng)網(wǎng)絡處理器(NPU)芯片,這是全球首顆具備深度學習人工智能的嵌入式視頻采集壓縮編碼系統(tǒng)級芯片,并取名“星光智能一號”。這款基于深度學習的芯片運用在人臉識別上,最高能達到98%的準確率,超過人眼的識別率。該芯片于今年3月6日實現(xiàn)量產(chǎn),目前出貨量為十幾萬件。
NPU采用了“數(shù)據(jù)驅(qū)動”并行計算的架構(gòu),單顆NPU(28nm)能耗僅為400mW,極大地提升了計算能力與功耗的比例,可以廣泛應用于高清視頻監(jiān)控、智能駕駛輔助、無人機、機器人等嵌入式機器視覺領域。
三、英特爾——非傳統(tǒng)意義上的英特爾處理器(CPU)
英特爾公司開發(fā)的第二代Xeon Phi處理器完美契合了人工智能的需求。Xeon Phi并非傳統(tǒng)意義上的英特爾處理器(CPU),最新的Xeon Phi協(xié)處理器擁有多達72個內(nèi)核,而且每個內(nèi)核有兩個用于提供更好的單核浮點運算性能的英特爾AVX-512 SIMD處理單元,所以這些處理器非常適合運行機器學習/深度學習工作任務。
四、人工智能風口下最受關注的還是要數(shù)GPU
GPU 因其并行計算優(yōu)勢最先被引入深度學習,全球可編程圖形處理技術(shù)的領軍企業(yè)英偉達借此已開始打造新的計算平臺。目前,包括谷歌、Facebook、微軟等科技巨頭公司在內(nèi)的人工智能領域研究的領先者,已經(jīng)在使用英偉達所提供的專門應用于該領域研究的芯片產(chǎn)品。
Facebook的人工智能硬件平臺Big Sur就是依托Nvidia的GPU而打造的。GPU在人工智能中的應用十分廣泛,因為這種芯片上搭載的處理核心數(shù)量多于Intel生產(chǎn)的傳統(tǒng)處理器,使得它們十分適用于AI軟件所需要的海量計算。“Big Sur”的設計特點是易于維修的主板,它裝有8個NVIDIA的Tesla M40。
(1)GPU對于人工智能領域的意義又是什么呢?英偉達(NVIDIA)制造的圖形處理器(GPU)專門用于在個人電腦、工作站、游戲機和一些移動設備上進行圖像運算工作,是顯示卡的“心臟”。該公司正從一家顯卡供應商轉(zhuǎn)變?yōu)槿斯ぶ悄芊掌鞴獭?/p>
GPU在“深度學習”領域發(fā)揮著巨大的作用,因為GPU可以平行處理大量瑣碎信息。深度學習所依賴的是神經(jīng)系統(tǒng)網(wǎng)絡——與人類大腦神經(jīng)高度相似的網(wǎng)絡——而這種網(wǎng)絡出現(xiàn)的目的,就是要在高速的狀態(tài)下分析海量的數(shù)據(jù)。例如,如果你想要教會這種網(wǎng)絡如何識別出貓的模樣,你就要給它提供無數(shù)多的貓的圖片。而GPU擅長的正是海量數(shù)據(jù)的快速處理。
對于人工智能和深度學習來說,目前硬件加速主要靠使用圖形處理單元(GPU)集群作為通用計算圖形處理單元(GPGPU)。
與傳統(tǒng)的通用處理器(GPP)相比,GPU的核心計算能力要多出幾個數(shù)量級,也更容易進行并行計算。尤其是英偉達的CUDA,作為最主流的GPGPU編寫平臺,各個主要的深度學習工具均用其來進行GPU 加速。
(2)GPU有什么優(yōu)勢呢?GPU最明顯的優(yōu)勢是更快的處理速度,相比于CPU,GPU的一大優(yōu)勢是高速度。國內(nèi)最好的人工智能硬件研究項目“寒武紀”小組的最新研究結(jié)果表明,GPU能夠提供平均 58.82X 倍于CPU的速度。GPU的另一大優(yōu)勢,是它對能源的需求遠遠低于CPU。
最新款的專門用于人工智能研究領域的Tesla P100圖形處理芯片,號稱公司為這款GPU的研發(fā)投入了20億美元。它可以執(zhí)行深度學習神經(jīng)網(wǎng)絡任務,速度是英偉達之前高端系統(tǒng)的12倍,預計新產(chǎn)品將會極大推動機器學習的極限。
黃仁勛在4月初的發(fā)布會上表示,未來10年,人工智能市場總值約為5000億美元。他表示,深度學習令我們的業(yè)績加速增長。這是一種全新的計算模式,利用GPU的大規(guī)模處理能力來學習人工智能算法。它的普及正在席卷一個又一個行業(yè),推動我們的圖形處理器市場需求不斷增長。