英特爾在異構(gòu)計(jì)算前加了一個(gè)“超”字,憑什么?
數(shù)據(jù)的量變和質(zhì)變之下,人工智能正以25%的復(fù)合年增長(zhǎng)率“瘋狂生長(zhǎng)”。從量上來(lái)講,大量的數(shù)據(jù)由人變?yōu)榻K端設(shè)備自主生產(chǎn);從質(zhì)上來(lái)講,數(shù)據(jù)不再是結(jié)構(gòu)化數(shù)據(jù),更多偏向利用編程處理。
“目前AI模型訓(xùn)練模式的能源是不可持續(xù)的,釋放人工智能的超級(jí)力量的必由之路是超異構(gòu)計(jì)算”,英特爾研究院副總裁、英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)在2021年的WAIC上如是說(shuō)。
打好異構(gòu)計(jì)算的地基
要了解超異構(gòu)計(jì)算,就先要明白什么是異構(gòu)計(jì)算。根據(jù)宋繼強(qiáng)的介紹,異構(gòu)計(jì)算就是將不同架構(gòu)處理芯片整合到一個(gè)系統(tǒng)內(nèi)工作。具體實(shí)施上來(lái)來(lái)講包括兩種,其一為芯片級(jí)集成方式,即將CPU IP、GPU IP、DSP IP等集成到單一SoC內(nèi);另一種則為板級(jí)集成方式,將CPU、GPU、FPGA等放在一個(gè)板上組合。
對(duì)應(yīng)在英特爾上便是一直強(qiáng)調(diào)的XPU戰(zhàn)略,用不同架構(gòu)去處理不同類型數(shù)據(jù),根據(jù)處理速度或帶寬要求進(jìn)行優(yōu)化。
宋繼強(qiáng)表示,CPU適宜處理標(biāo)量運(yùn)算,一個(gè)一個(gè)算,比如控制流,非常容易處理,可以并發(fā);GPU適宜處理矢量運(yùn)算,很多數(shù)據(jù)一起算;AI更多是塊狀運(yùn)算,需要專門做矩陣加速,數(shù)據(jù)存取也需要優(yōu)化;FPGA特別適合稀疏運(yùn)算,可以大幅度降低I/O及計(jì)算消耗。將這些整合起來(lái)就能各取所需,打好組合拳。
宋繼強(qiáng)以英特爾的“看家本領(lǐng)”CPU舉例,實(shí)際上至強(qiáng)處理器作為標(biāo)準(zhǔn)的標(biāo)量運(yùn)算處理器內(nèi)部也加入了異構(gòu)計(jì)算。英特爾不僅加入了專門的深度學(xué)習(xí)加速器件,同時(shí)擁有可擴(kuò)展的一些配置,另外AVX-512專門針對(duì)矢量運(yùn)算進(jìn)行加速,可以針對(duì)深度學(xué)習(xí)用的不同架構(gòu)。
通過(guò)以上各種特性,通用服務(wù)器性能已經(jīng)提升了46%,而專門針對(duì)AI訓(xùn)練和加速,已經(jīng)提升了74%,這比市面上其他廠商的CPU或者是GPU相對(duì)應(yīng)的能力提升強(qiáng)勁。
這僅僅是CPU層面的異構(gòu)計(jì)算,除此之外,GPU層面英特爾也有Xe架構(gòu)的獨(dú)立GPU, ASIC層面上擁有Habana、Movidius等,還有強(qiáng)大的FPGA、eAISC產(chǎn)品線等。
除了傳統(tǒng)的加速器,英特爾還研究了遠(yuǎn)遠(yuǎn)領(lǐng)先現(xiàn)如今架構(gòu)的計(jì)算形式。英特爾神經(jīng)擬態(tài)計(jì)算Loihi芯片是一個(gè)存算一體的架構(gòu),而且非常容易擴(kuò)展。Loihi芯片Die內(nèi)包含128個(gè)小核,每個(gè)核里面模擬1024個(gè)神經(jīng)元的計(jì)算結(jié)構(gòu),可以模仿13萬(wàn)個(gè)神經(jīng)元,每個(gè)神經(jīng)元又有1000個(gè)突觸連接。不止如此,這樣的芯片還可以繼續(xù)連接起來(lái),做到768個(gè)芯片連接起來(lái),做到接近1億神經(jīng)元的系統(tǒng)。
與傳統(tǒng)深度學(xué)習(xí)加速器相比,Loihi沒(méi)有任何的浮點(diǎn)運(yùn)算,這是因?yàn)槿四X中也是沒(méi)有乘加器的,所以其學(xué)習(xí)和訓(xùn)練方法走的是另一種方法。Loihi基于SNN,擁有極低的功耗,同時(shí)設(shè)計(jì)之初就是異步設(shè)計(jì),只有工作部分是耗電的,不工作的區(qū)域是休息的,得益于此在電效率上是現(xiàn)在的深度學(xué)習(xí)加速芯片的1000倍。值得一提的是,這種架構(gòu)模式的加速器也是可以用在異構(gòu)計(jì)算之中的。
從異構(gòu)計(jì)算到超異構(gòu)計(jì)算
那么,英特爾這幾年開(kāi)始一直談及的“超異構(gòu)計(jì)算究竟是什么”,憑什么英特爾多加一個(gè)“超”字?根據(jù)宋繼強(qiáng)的解釋,顧名思義超異構(gòu)計(jì)算是“下一個(gè)等級(jí)”的異構(gòu)計(jì)算,相比傳統(tǒng)的異構(gòu)計(jì)算還要再加上更強(qiáng)大的封裝互連能力和軟件能力。
1、超異構(gòu)計(jì)算的封裝互連能力
宋繼強(qiáng)為記者表示,實(shí)際上異構(gòu)封裝是一個(gè)更小型的系統(tǒng),將不同的計(jì)算能力整合在一起。由不同的Die整合起來(lái)的,所以能夠利用不同架構(gòu)芯片,在處理不同的數(shù)據(jù)、不同的任務(wù)的時(shí)候有獨(dú)特的性能和功耗優(yōu)勢(shì)。
談及英特爾的封裝技術(shù),宋繼強(qiáng)表示,英特爾在2.5D上擁有EMIB封裝技術(shù),該技術(shù)已有諸如AIB的產(chǎn)業(yè)標(biāo)準(zhǔn)推出。EMIB可以形象地比喻成,在一個(gè)平面上,將兩個(gè)平房間的下水通連通起來(lái)。在3D上擁有Foveros封裝技術(shù),該技術(shù)可以在計(jì)算Die和計(jì)算Die間建立互連,而不只是傳統(tǒng)的計(jì)算Die和Memory Die間互連。Foveros可以形象地比喻成,在三維空間上蓋高樓。與此同時(shí),兩項(xiàng)技術(shù)還可以相結(jié)合為Co-EMIB技術(shù)。
另外,2020年8月英特爾還宣布了Hybrid Bonding技術(shù),能夠進(jìn)一步縮小封裝時(shí)裸片之間的凸點(diǎn)間距和功耗,這些技術(shù)英特爾已經(jīng)在一些產(chǎn)品上使用了。這樣的封裝技術(shù)可以讓很多新的芯片很好地進(jìn)行互連,而且英特爾最新架構(gòu)的類腦芯片也可以和傳統(tǒng)的CPU、GPU互相組合。
除了已經(jīng)在用的封裝技術(shù),英特爾在持續(xù)研究變革未來(lái)的創(chuàng)新集成光電技術(shù),持續(xù)光互連的變革性能力。
宋繼強(qiáng)表示,計(jì)算能力提升后,不同處理器的計(jì)算能力隨之提升,這就需要更多的數(shù)據(jù)交互,跨處理器之間,甚至是跨服務(wù)器節(jié)點(diǎn)間的數(shù)據(jù)交互。當(dāng)數(shù)據(jù)交互繼續(xù)增加時(shí),I/O將會(huì)成為瓶頸,這個(gè)瓶頸將體現(xiàn)在尺寸和功耗上,更多的電給了I/O,而計(jì)算能力會(huì)越來(lái)越少。
他表示,英特爾認(rèn)為光是替代銅的非常好的互連的介質(zhì),但是光本身?yè)碛衅骷^大、光電間轉(zhuǎn)換困難、轉(zhuǎn)換效率不高的問(wèn)題。因此英特爾為了解決這種問(wèn)題會(huì)將光器件與電器件緊密封裝在一起,讓二者靠近,減少兩端轉(zhuǎn)換損耗;其次制作出收發(fā)器,以更小的模式放到服務(wù)器內(nèi)。
英特爾研究院將很多光處理過(guò)程的幾個(gè)模塊做成非常小的模塊,可以將光產(chǎn)生、光放大、光檢測(cè)、光調(diào)制和CMOS光處理器件整合到一個(gè)芯片中,也就是說(shuō)集成的光電可以大幅度縮小整個(gè)系統(tǒng)的尺寸和功耗。
英特爾在硅光子上深耕多年,不僅為客戶提供超過(guò)400萬(wàn)個(gè)100G的硅光子產(chǎn)品,還研究出業(yè)界首個(gè)封裝光學(xué)以太交換機(jī)。
2、超異構(gòu)計(jì)算的軟件能力
異構(gòu)計(jì)算還要構(gòu)建軟件能力,之前行業(yè)普遍忽略了軟件層的重要性。軟件方面上進(jìn)一步支持AI也是一個(gè)很大的課題,軟件優(yōu)化與否在同一個(gè)硬件上可以達(dá)到百倍的性能差異。尤其是在跨不同單元間同步的問(wèn)題上,軟件優(yōu)化能夠大幅度提升性能。
實(shí)際上,反映在編程人員上的問(wèn)題便是,CPU、GPU、FPGA等不同芯片的開(kāi)發(fā)模式和語(yǔ)言均不同,這種情況下同時(shí)發(fā)揮多種XPU的性能上就成了一個(gè)難題。
英特爾的一體化平臺(tái)oneAPI就是要?jiǎng)?chuàng)造讓編程人員很輕松的,以一套API去使用未來(lái)想要的功能性的目標(biāo)。對(duì)軟件開(kāi)發(fā)者來(lái)說(shuō),可以只學(xué)Python或是C++,最終程序都可以享受到異構(gòu)集成的各種優(yōu)勢(shì),并且如果未來(lái)硬件升級(jí)替代,軟件不需要非常多的改動(dòng)。
宋繼強(qiáng)強(qiáng)調(diào),英特爾在oneAPI中投入很大,自從去年推出了Gold版本后,得到非常好的市場(chǎng)反響。另外,現(xiàn)在oneAPI整個(gè)社區(qū)硬件支持當(dāng)中,早已不只是英特爾的硬件,友商的CPU、GPU、ASIC都是可用的,這是對(duì)整個(gè)社區(qū)的貢獻(xiàn)。
關(guān)于AI不得不談及的問(wèn)題
對(duì)于推動(dòng)AI創(chuàng)新上,宋繼強(qiáng)認(rèn)為垂直整合是驅(qū)動(dòng)未來(lái)產(chǎn)業(yè)規(guī)?;瘮U(kuò)展的重要發(fā)力點(diǎn)。他對(duì)記者解答,垂直整合是真正可以讓AI將算法創(chuàng)新、硬件落實(shí)到實(shí)處,行成迭代滾動(dòng)放大效應(yīng)的必經(jīng)之路。
垂直整合瞄準(zhǔn)一些可以規(guī)模化,軟硬件結(jié)合可以創(chuàng)造更大價(jià)值的領(lǐng)域,用應(yīng)用去拉動(dòng)多種AI技術(shù)的垂直整合。
垂直整合向來(lái)比單獨(dú)一個(gè)技術(shù)創(chuàng)新難得多,首先要能夠接觸到這么多種資源、數(shù)據(jù)和實(shí)際應(yīng)用場(chǎng)景,其次也要有跨層的專家參與在其中。但無(wú)論多么困難,AI創(chuàng)新要真正規(guī)?;l(fā)展一定要嚴(yán)肅認(rèn)真地進(jìn)行垂直整合。
在此方面,Mobileye作為英特爾收購(gòu)的一個(gè)子公司,就把AI能力,通過(guò)軟件、硬件、傳感器整合起來(lái)形成很好的方案,開(kāi)創(chuàng)非常獨(dú)特的出行即服務(wù)的體系。
對(duì)于AI的落地問(wèn)題上,宋繼強(qiáng)認(rèn)為,英特爾有一些機(jī)制可以去幫助企業(yè)更好的落地。“比如說(shuō)“AI百佳創(chuàng)業(yè)激勵(lì)計(jì)劃”,我們的生態(tài)發(fā)展部門就創(chuàng)建了這樣一個(gè)平臺(tái),可以幫助他們加速,在中間把他們連接起來(lái),在市場(chǎng)層面進(jìn)行推動(dòng)。所以AI落地是一個(gè)大問(wèn)題?!?
AI的可信和安全逐漸大面積討論下,AI治理也成為了熱點(diǎn)話題。宋繼強(qiáng)認(rèn)為,對(duì)英特爾而言,作為通用技術(shù)方案提供商,SGX、同態(tài)加密、聯(lián)邦學(xué)習(xí)硬件加速這種技術(shù)就可以幫助一些客戶。
全棧實(shí)力推動(dòng)AI發(fā)展
總結(jié)來(lái)說(shuō),英特爾釋放AI潛力是通過(guò)自身全棧實(shí)力推進(jìn)的,包括硬件層面、前沿計(jì)算層面、軟件層面和生態(tài)構(gòu)建層面四個(gè)方面的。
在硬件層面,英特爾以內(nèi)置AI加速的至強(qiáng)可擴(kuò)展處理器為基礎(chǔ),提供全面的XPU芯片平臺(tái)。
在前沿計(jì)算層面,英特爾持續(xù)投資和發(fā)展量子計(jì)算、神經(jīng)擬態(tài)計(jì)算等面向未來(lái)的計(jì)算創(chuàng)新,探索驅(qū)動(dòng)AI持續(xù)發(fā)展的新架構(gòu)。
在軟件層面,英特爾提供經(jīng)過(guò)全面優(yōu)化的軟件,包括OpenVINO、oneAPI、Analytics Zoo、Tensor Flow、BigDL等,涵蓋庫(kù)、框架以及工具與解決方案等多個(gè)層面,用以加速并簡(jiǎn)化從云到端的范圍內(nèi)人工智能技術(shù)的開(kāi)發(fā)與部署。
在生態(tài)構(gòu)建層面,英特爾與中國(guó)產(chǎn)、學(xué)、研廣泛合作,協(xié)同開(kāi)展前沿研究、聯(lián)手促進(jìn)人才培養(yǎng)、共同打造開(kāi)放生態(tài)。