曾是棄兒的人工智能,如今,已經(jīng)蓬勃發(fā)展了很長一段時間了?,F(xiàn)在,人們對提供高性能視覺識別、匹配或甚至超越人類技能的產(chǎn)品和技術(shù)產(chǎn)生了濃厚的興趣和投資。同樣,語音和音頻識別正變得越來越普遍,我們甚至開始看到更專業(yè)的應用,比如在半導體設計中加入優(yōu)化的物理設計。我們被人工智能的各種可能性所迷惑了,但往往不太清楚的是投資真正流向了哪里,也不知道什么是雄心,什么是炒作,什么是現(xiàn)實。
現(xiàn)在我們有多種方法可以解決這個問題,例如按實際運用或執(zhí)行的項目來進行劃分。我們擁有獨特的視角,因為我們的互聯(lián)技術(shù)被運用于許多定制的人工智能設計中。正如我們將看到的,這些人工智能可能會主導整個世界。將這一觀點與麥肯錫最近的分析相結(jié)合,我們可以得出一些有趣的、在某些情況下甚至令人驚訝的見解。
首先,麥肯錫(McKinsey)的預測顯示出驚人的數(shù)據(jù):2017年至2025年,人工智能類半導體將成為半導體市場的領(lǐng)頭羊,其年復合增長率將比其它所有半導體的總和高出5倍。無論你對人工智能未來的發(fā)展有何看法,不參與到這個市場游戲中實在是過于遺憾。Tractica的一項調(diào)查將進一步解讀了這種增長:將中央處理器(CPU)與圖形處理器、現(xiàn)場可編程門陣列、特定用途集成電路進行比較。到2019年,基于中央處理器的營業(yè)額將從30億美元左右起步,到2025年將增長到120億美元左右?;趫D形處理器的系統(tǒng)(GPU)的收入將在2019年接近60億美元,到2025年將增長到約200億美元?,F(xiàn)場可編程門陣列(FPGA)的貢獻非常小,到2025年可能只有10億美元左右。但特定用途集成電路(ASIC)市場份額將從2019年的約20億美元增長到2025年的約300億美元。到2022年左右,基于特定用途集成電路的人工智能將在份額上超過基于圖形處理器的人工智能。
就算在我們實際運用過程中遇到困難也不要太驚訝?;谥醒胩幚砥鞯钠脚_將很好地用于低成本、低性能的應用中---比如智能微波,因為系統(tǒng)設計者不想處理這些非標加工。圖形處理器使人工智能革命成為現(xiàn)實,并將繼續(xù)在相對高性能的數(shù)據(jù)中心中發(fā)揮重要作用。在這樣的領(lǐng)域中,功率和成本都不是問題,在機器人和增強現(xiàn)實耳機等新興應用的原型中也是如此。但是,對于那些尋求高性能且低成本的供電系統(tǒng)的批量生產(chǎn),或者在不考慮成本和差異化性能的大型數(shù)據(jù)中心來說,特定用途的集成電路一直是最佳解決方案。
一般認為,數(shù)據(jù)中心人工智能主要是訓練機器通過一系列訓練來識別不同圖像,而終端人工智能主要是通過推理,用這些經(jīng)過訓練的機器在投入到實際運用中?,F(xiàn)實情況更為復雜。如果你將訓練和推論與數(shù)據(jù)中心和終端人工智能進行對比,數(shù)據(jù)中心的訓練無疑是一個巨大的市場,因為根據(jù)麥肯錫的數(shù)據(jù)顯示,其市場份額從2017年的10億美元增長到2025年的50億美元,而這一市場主要由幾家非常大的公司所壟斷。針對終端人工智能的訓練是一個非常小的市場,可能在2025年市場份額能達到10億,主要運用在超出通信范圍的汽車語音系統(tǒng)。
當然,終端人工智能的推理是一個擁有眾多參與者的巨大市場,從零增長到2025年的50億美元左右,這一數(shù)據(jù)已經(jīng)超出了我們大多數(shù)人的預期。但真正令人驚訝的是數(shù)據(jù)中心的發(fā)展,2017年已經(jīng)達到50億美元左右,預計到2025年將增長到100億美元左右,而且這個市場也有非常多的參與者。是什么驅(qū)動著他們的發(fā)展?我們更傾向于認為是新型運用,如公共監(jiān)控和面部識別,但最常見的應用發(fā)生在金融業(yè)。事實上,信用卡公司是最早將機器學習商業(yè)化運用的機構(gòu)之一。你是否曾經(jīng)在剛買了一大筆東西之后收到信用卡公司的垃圾郵件并且公司提供了更高的信用額度?或者在你剛買了一雙昂貴的運動鞋和價值5美元的汽油后,他們就把你的卡給注銷了嗎?你得感謝人工智能。數(shù)據(jù)中心中的這類推理很可能是人工智能的主要驅(qū)動力。
現(xiàn)在讓我們看看芯片架構(gòu)。在終端上,我們發(fā)現(xiàn)每一項運用只有僅僅幾個實用案例,并且通常具有嚴格的潛在要求,以及為執(zhí)行這些運用而嚴格優(yōu)化的系統(tǒng)級芯片結(jié)構(gòu)。這需要特殊定制的處理元素(通常是多種類型的)和高度定制的芯片數(shù)據(jù)流。隨著這些芯片中處理元素的數(shù)量和類型不斷增加,對于人工智能核心的對緩存一致性的需求也在增加,以便將它們?nèi)柯?lián)系起來。加速器核心和系統(tǒng)級芯片設計的其他部分之間的緊密集成需求也在增加。這類設計的硬件架構(gòu)可能會變得很復雜,但通過將這些復雜的人工智能算法中的復雜性傳遞給硬件系統(tǒng),可以大大簡化軟件。既然汽車已經(jīng)成為創(chuàng)新發(fā)展的最重要的人工智能前沿設備,我們看到人工智能需求通常與功能安全結(jié)合在一起也就不足為奇了。事實上,我們不僅在汽車、卡車和其他車輛上看到了這一點,而且越來越多地在機器人和無人機上看到了這一點。
數(shù)據(jù)中心中的執(zhí)行需求是非常不同的,訓練和推理之間也存在著一些差異。數(shù)據(jù)中心服務的提供者希望通過神經(jīng)網(wǎng)絡的不同通道獲得高吞吐計算,而不希望讓實際運用發(fā)展成某一特定的任務。他們希望人工智能可以憑借一套通用的硬件系統(tǒng)去解決問題,因此他們越來越傾向于使用同質(zhì)處理元素的空間分布式網(wǎng)格架構(gòu),這些元素通常是一些拓撲組織,形狀多如網(wǎng)格、圓環(huán)等。
而我們傾向于看到用于訓練的同質(zhì)網(wǎng)格體系,來與上文提到的通用體系相配套。在數(shù)據(jù)中心的推斷中,更常見的是帶有巧妙地嵌入緩存內(nèi)存的異構(gòu)網(wǎng)格,這也是我們認為更具實用性的一方面。
此外,在架構(gòu)方面,到芯片外/芯片內(nèi)存儲器的帶寬仍然是一個很重要的限制器。盡管GDDR6得到了很多人的關(guān)注,但是HBM2也因為這個原因很快被人們廣泛采用。如果GDDR6能滿足你的需要,它可以比HBM2便宜得多。在這些芯片結(jié)構(gòu)中,邏輯設計本身可以是強大的,可以達到或超過完全的芯片的限制。這使得人們對芯片或芯片之間的開放通信接口越來越感興趣,比如CCIX、OPENCAPI和GEN-Z。
我的觀點:
1.特殊定制的人工智能將主導所有其他平臺,包括終端設備和數(shù)據(jù)中心。
2.毫無疑問,推理將成為人工智能領(lǐng)域最大的焦點,但更令人驚訝的是,基于數(shù)據(jù)中心的推理將產(chǎn)生比終端推理更多的收益。
3.在緊密集成的系統(tǒng)級芯片設計中,處于終端的架構(gòu)將需要與人工智能保持高速緩存一致性,而云架構(gòu)將更嚴重地依賴于分布式配置。
4.此外,在云計算中,內(nèi)存帶寬推動人們更多地采用HBM2和GDDR6,這也不奇怪。但是多晶粒架構(gòu)也將受到巨大規(guī)模的分布式配置的推動。
一句話總結(jié)就是:人工智能非常龐大,但并不存在標準的人工智能芯片。最佳芯片架構(gòu)根據(jù)所執(zhí)行的功能類型、執(zhí)行的地點、執(zhí)行的時間和功率預算范圍的不同而有所改變。