清華大學發(fā)布《AI芯片技術(shù)白皮書》:邊緣計算崛起,云+端創(chuàng)新架構(gòu)設計
本文來自新智元微信號,《AI芯片技術(shù)白皮書》為清華大學——北京未來芯片技術(shù)高精尖創(chuàng)新中心共同發(fā)布。
無芯片,不 AI
近些年隨著大數(shù)據(jù)的積聚、理論算法的革新、計算能力的提升及網(wǎng)絡設施的發(fā)展,使得持續(xù)積累了半個多世紀的人工智能產(chǎn)業(yè),又一次迎來革命性的進步,人工智能的研究和應用進入全新的發(fā)展階段。
實際上,人工智能產(chǎn)業(yè)得以快速發(fā)展,都離不開目前唯一的物理基礎——芯片??梢哉f,“無芯片不 AI”。
為了更好地厘清當前AI芯片領域的發(fā)展態(tài)勢,進一步明確AI芯片在新技術(shù)形勢下的路線框架、關鍵環(huán)節(jié)及應用前景,清華大學——北京未來芯片技術(shù)高精尖創(chuàng)新中心,根據(jù)學術(shù)界和工業(yè)界的最新實踐,邀請國內(nèi)外AI芯片領域的頂尖研究力量,共同發(fā)布了《人工智能芯片技術(shù)白皮書》。
下圖為編委會成員名單,大家感受一下:
白皮書主要闡述和討論了以下內(nèi)容:
1、AI芯片產(chǎn)業(yè)的戰(zhàn)略意義
2、AI芯片的技術(shù)背景背景
3、近幾年AI芯片在云側(cè)、邊緣和終端設備等不同場景中的發(fā)展
4、面臨的架構(gòu)挑戰(zhàn),分析技術(shù)趨勢
5、建立在當前技術(shù)集成上的云端和終端AI芯片架構(gòu)創(chuàng)新
6、存儲技術(shù)解決方案
7、前沿研究工作和新技術(shù)趨勢
8、介紹神經(jīng)形態(tài)計算技術(shù),分析該技術(shù)面臨的機遇和挑戰(zhàn)
9、AI芯片的基準測試和技術(shù)路線圖
10、展望AI芯片的未來
?
AI芯片的技術(shù)背景
不同的應用場景,不同的精度需求
AI系統(tǒng)通常涉及訓練(Training)和推斷(Inference)過程。
訓練過程對計算精度、計算量、內(nèi)存數(shù)量、訪問內(nèi)存的帶寬和內(nèi)存管理方法的要求都非常高。
而對于推斷,更注重速度、能效、安全和硬件成本,模型的準確度和數(shù)據(jù)精度則可酌情降低。
人工智能工作負載多是數(shù)據(jù)密集型,需要大量的存儲和各層次存儲器間的數(shù)據(jù)搬移,導致“內(nèi)存墻”問題非常突出。
為了彌補計算單元和存儲器之間的差距,學術(shù)界和工業(yè)界正在兩個方向上進行探索:
1、富內(nèi)存的處理單元。增加片上存儲器的容量并使其更靠近計算單元
2、創(chuàng)建具備計算能力的新型存儲器算(Process-in-Memory PIM),直接在存儲器內(nèi)部(或更近)實現(xiàn)計算
?
低精度、可重構(gòu)的芯片設計是趨勢
低精度設計是AI芯片的一個趨勢,在針對推斷的芯片中更加明顯。
同時,針對特定領域(即:具有類似需求的多種應用),而非特定應用的可重構(gòu)能力的AI芯片,將是未來AI芯片設計的一個指導原則。
另一方面,AI算法開發(fā)框架,如TensorFlow和PyTorch等,在AI應用研發(fā)中正在起到至關重要的作用。
通過軟件工具,構(gòu)建一個集成化的流程,將AI模型的開發(fā)和訓練、硬件無關和硬件相關的代碼優(yōu)化、自動化指令翻譯等功能無縫的結(jié)合在一起,將是成功部署的關鍵要求。
發(fā)展現(xiàn)狀
2015年開始,AI芯片的相關研發(fā)逐漸成為學術(shù)界和工業(yè)界研發(fā)的熱點。到目前為止,在云端和終端已經(jīng)有很多專門為AI應用設計的芯片和硬件系統(tǒng)。
云端芯片:大廠和初創(chuàng)公司都看好;FPGA正在逐漸崛起
GPU,特別是NVIDIA系列GPU芯片,被廣泛應用于深度神經(jīng)網(wǎng)絡訓練和推理。
很多公司開始嘗試設計專用芯片,以達到更高的效率,其中最著名的例子是 Google TPU。
Google最近還通過云服務,把TPU開放商用,處理能力達到180 TFLOP,提供64GB的高帶寬內(nèi)存(HBM),2400GB/s的存儲帶寬。
不光芯片巨頭,很多初創(chuàng)公司也看準了云端芯片市場。如Graphcore、Cerebras、Wave Computing、寒武紀及比特大陸等也加入了競爭的行列。
此外,F(xiàn)PGA也逐漸在應用中占有一席之地。目前FPGA 的主要廠商如 Xilinx、Intel都推出了專門針對AI應用的FPGA硬件。
主要的云服務廠商,比如亞馬遜、微軟及阿里云等也推出了專門的云端FPGA實例來支持AI應用。
一些初創(chuàng)公司,比如深鑒科技等也在開發(fā)專門支持FPGA的AI開發(fā)工具。
?
邊緣計算讓傳統(tǒng)終端設備煥發(fā)青春
隨著人工智能應用生態(tài)的爆發(fā),越來越多的AI應用開始在端設備上開發(fā)和部署。
智能手機是目前應用最為廣泛的邊緣計算設備。手機大廠如蘋果、華為、高通、聯(lián)發(fā)科和三星在內(nèi)的手機芯片廠商紛紛推出,或者正在研發(fā)專門適應AI應用的芯片產(chǎn)品。
而這個新興的領域,也為初創(chuàng)公司提供了生存的土壤,地平線機器人、寒武紀、深鑒科技、元鼎音訊等,均致力于制造芯片和系統(tǒng)解決方案。
而一些傳統(tǒng)的IP廠商, 包括ARM、Synopsys等公司也都為包括手機、智能攝像頭、無人機、工業(yè)和服務機器人、智能音箱以及各種物聯(lián)網(wǎng)設備等邊緣計算設備,開發(fā)專用IP產(chǎn)品。
自動駕駛也是未來邊緣AI計算的最重要應用之一。
?
云+端相互配合,優(yōu)勢互補
總的來說,云側(cè)AI處理主要強調(diào)精度、處理能力、內(nèi)存容量和帶寬,同時追求低延時和低功耗;邊緣設備中的AI處理則主要關注功耗、響應時間、體積、成本和隱私安全等問題。
目前云和邊緣設備在各種AI應用中往往是配合工作。最普遍的方式是在云端訓練神經(jīng)網(wǎng)絡,然后在云端(由邊緣設備采集數(shù)據(jù))或者邊緣設備進行推斷。
?
AI芯片的技術(shù)挑戰(zhàn)和設計趨勢
但是物理設備的功能,都有一個極限。這個極限限制了硬件設備,面對不斷增加的旺盛需求,形成阻礙。
?
AI芯片所面臨的兩個技術(shù)挑戰(zhàn)及解決思路
1、馮·諾伊曼瓶頸:內(nèi)存之墻。解決思路包括減少訪問存儲器的數(shù)量,降低訪問存儲器的代價
2、CMOS工藝和器件瓶頸??梢酝ㄟ^開發(fā)提供大量存儲空間的片上存儲器技術(shù),并探索利用片上存儲器去構(gòu)建未來的智能芯片架構(gòu)
?
AI芯片架構(gòu)設計趨勢
云端訓練和推斷的設計趨勢:大存儲、高性能、可伸縮。從NVIDIA和Goolge的設計實踐,我們總結(jié)出技術(shù)發(fā)展的幾個特點和趨勢:
1、存儲的需求(容量和訪問速度)越來越高。
2、處理能力推向每秒千萬億次(PetaFLOPS),并支持靈活伸縮和部署。
3、專門針對推斷需求的 FPGA 和 ASIC
邊緣設備的設計趨勢:把效率推向極致。相對云端應用,邊緣設備的應用需求和場景約束要復雜很多,針對不同的情況可能需要專門的架構(gòu)設計。
拋開需求的復雜性,目前的邊緣設備主要是執(zhí)行“推斷”。在提高推斷效率和推斷準確率允許范圍內(nèi)的各種方法中,降低推斷的量化比特精度是最有效的方法。
軟件定義芯片。在 AI 計算中,芯片是承載計算功能的基礎部件,軟件是實現(xiàn) AI 的核心。
AI 芯片必須具備一個重要特性:能夠?qū)崟r動態(tài)改變功能,滿足軟件不斷變化的計算需求,即“軟件定義芯片”。
可重構(gòu)計算技術(shù)允許硬件架構(gòu)和功能隨軟件變化而變化,具備處理器的靈活性和專用集成電路的高性能和低功耗,是實現(xiàn)“軟件定義芯片”的核心。
Thinker芯片采用了下面3個層面的技術(shù)。
1、計算陣列重構(gòu)
2、存儲帶寬重構(gòu)
3、數(shù)據(jù)位寬重構(gòu)
?
AI芯片中的存儲技術(shù)和新興計算技術(shù)
?
傳統(tǒng)AI芯片的存儲技術(shù)需要解決的問題
近期,面向數(shù)字神經(jīng)網(wǎng)絡的加速器(GPU、FPGA和ASIC)迫切需要AI友好型存儲器。
中期,基于存內(nèi)計算的神經(jīng)網(wǎng)絡可以為規(guī)避馮·諾依曼瓶頸問題提供有效的解決方案。
后期,基于憶阻器的神經(jīng)形態(tài)計算可以模擬人類的大腦,是AI芯片遠期解 決方案的候選之一。
?
解決存儲瓶頸的新興計算技術(shù)
主要的新計算技術(shù)包括近內(nèi)存計算、存內(nèi)計算,以及基于新型存儲器的人工神經(jīng)網(wǎng)絡和生物神經(jīng)網(wǎng)絡。
雖然成熟的 CMOS 器件已被用于實現(xiàn)這些新的計算范例,但是新興器件有望在未來進一步顯著提高系統(tǒng)性能并降低電路復雜性。
?
神經(jīng)形態(tài)芯片:即“仿生電腦”
神經(jīng)形態(tài)芯片(Neuromorphic chip)采用電子技術(shù)模擬,已經(jīng)被證明了的生物腦的運作規(guī)則,從而構(gòu)建類似于生物腦的電子芯片,即“仿生電腦”。
神經(jīng)形態(tài)芯片具有如下特性:
1、可縮放、高并行的神經(jīng)網(wǎng)絡互聯(lián)
2、眾核結(jié)構(gòu)
3、事件驅(qū)動
4、數(shù)據(jù)流計算
近些年,神經(jīng)形態(tài)計算也用來指采用模擬、數(shù)字、數(shù)?;旌蟅LSI以及軟件系統(tǒng)實現(xiàn)的神經(jīng)系統(tǒng)模型。
受到腦結(jié)構(gòu)研究的成果啟發(fā),研制出的神經(jīng)形態(tài)芯片具有低功耗、低延遲、高速處理、時空聯(lián)合等特點。
?
展望未來
人工智能芯片還處在它的“嬰兒期”,未來充滿了不確定性。如果能有統(tǒng)一的終極算法出現(xiàn),那么我們很可能會看到一個終極芯片出現(xiàn)。
AI芯片是整個人工智能技術(shù)發(fā)展的基礎,也將是推動整個半導體領域技術(shù)進步的最重要的力量之一。
隨著人工智能和物聯(lián)網(wǎng)的持續(xù)快速發(fā)展,越來越多的應用需求和應用場景將不斷涌現(xiàn)。
需求驅(qū)動的AI芯片技術(shù)創(chuàng)新將促進創(chuàng)新鏈與產(chǎn)業(yè)鏈更加緊密結(jié)合,推動開放合作、共享共贏的產(chǎn)業(yè)生態(tài)形成。
CMOS技術(shù)與新興信息技術(shù)的交叉融合,開源軟件到開源硬件的潮流漸顯,預示著我們將迎來一個前所未 有的協(xié)同創(chuàng)新機遇期!