英特爾的路,走寬了:顛覆性架構(gòu)向極致性能出發(fā)
從IDM到IDM 2.0,從異構(gòu)計(jì)算到超異構(gòu)計(jì)算,英特爾作為一家以數(shù)據(jù)為中心的企業(yè),是唯一能夠顛覆行業(yè)概念,也是唯一有底氣可以重新定義概念的企業(yè)。
彼時(shí),英特爾CEO帕特·基辛格曾言道,英特爾不僅要繼續(xù)IDM,還要?jiǎng)?chuàng)造全新的IDM 2.0;那日,英特爾研究院副總裁、英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)曾談到,英特爾不僅要發(fā)展異構(gòu)計(jì)算,還要利用先進(jìn)的封裝互聯(lián)和軟件技術(shù)構(gòu)建超異構(gòu)計(jì)算。
日前,在2021年的英特爾架構(gòu)日上,英特爾一口氣放出一連串硬核產(chǎn)品,包括兩大x86 CPU內(nèi)核、兩大數(shù)據(jù)中心SoC、兩款獨(dú)立GPU,以及變革性的客戶端多核性能混合架構(gòu)。
21ic家認(rèn)為,這些產(chǎn)品不僅是對(duì)此前超異構(gòu)計(jì)算的理念和技術(shù)方向給出很好的印證,也是超異構(gòu)計(jì)算應(yīng)對(duì)不同數(shù)據(jù)計(jì)算、傳輸、存儲(chǔ)要求的最好的實(shí)例。另外,這些產(chǎn)品之中也無(wú)不透露著IDM2.0這一戰(zhàn)略所釋放的新動(dòng)能。走向新架構(gòu),讓英特爾的路越來(lái)越寬了,也讓英特爾的整體格局越來(lái)越大了。
x86 CPU架構(gòu)向極致性能出發(fā)
去年架構(gòu)日上,英特爾也預(yù)告了混合架構(gòu)、兩個(gè)新內(nèi)核和Alder Lake,本次發(fā)布會(huì)上預(yù)告已久的產(chǎn)品終于揭開面紗。
總結(jié)來(lái)說(shuō),英特爾這一次在處理器的架構(gòu)上主要是通過(guò)推出能效核(E-Core)和性能核(P-Core)兩個(gè)x86 CPU內(nèi)核,兩個(gè)內(nèi)核不僅擁有各自的側(cè)重,還可藉由兩種有機(jī)組合獲得更大的靈活性。
其中AlderLake這一SoC架構(gòu)便是針對(duì)E-Core和P-Core的不同組合,產(chǎn)生多種不級(jí)別的性能、功耗、面積比(PPA)產(chǎn)品。
另外,為了更好讓E-Core和P-Core協(xié)同工作,英特爾還推出硬件線程調(diào)度器(IntelThreadDirector)作為二者的“橋梁”。
俗話說(shuō)“大小搭配,干活不累”,但仍需注意的是,這本質(zhì)上是一個(gè)性能混合架構(gòu)。業(yè)界此前曾有“大小核”這種架構(gòu),但英特爾的AlderLake更加注重綜合性能,并稱之為“PerformanceHybrid”。
通過(guò)這種全新的設(shè)計(jì)英特爾在提升性能、功耗、面積比上又多了一個(gè)維度,通過(guò)按需分配負(fù)載讓性能和功耗正確分配到所需應(yīng)用之上。
實(shí)際上,E-Core和P-Core不僅適用于各種架構(gòu)的性能混合上,單獨(dú)拿出來(lái)也是各具特色的。根據(jù)宋繼強(qiáng)的介紹,E-Core將能效I/O的吞吐量?jī)?yōu)先考慮,能夠提高處理多種任務(wù),同時(shí)保證比較好的功耗。通過(guò)能耗比的優(yōu)化目標(biāo),E-Core適用于移動(dòng)筆記本到臺(tái)式機(jī)不同配置不同產(chǎn)品。英特爾拿出E-Core與Skylake的參數(shù)對(duì)比,單線程40%能耗比提升,四線程兩內(nèi)核80%能耗比提升,也能看出來(lái)E-Core的能耗比優(yōu)化幅度是較大的。
P-Core則是目前英特爾性能最高的一個(gè)內(nèi)核架構(gòu),該核更多針計(jì)算密度較大場(chǎng)景,與此同時(shí)需要一些專門加速硬件配合。該核的優(yōu)化級(jí)別是更高的集成密度、更高的主頻、更短的計(jì)算延遲。與第11代酷睿架構(gòu)(Cypress Cove內(nèi)核)相比,相同頻率下,P-Core在一系列工作負(fù)載上平均提升了約19%。另外,搭配專用加速硬件英特爾高級(jí)矩陣擴(kuò)展(AMX),可執(zhí)行矩陣乘法運(yùn)算,AI加速提升約8倍。
需要注意的是,多核調(diào)度在此前多為電池使用效率的優(yōu)化,而英特爾的硬件線程調(diào)度更多是從性能上進(jìn)行調(diào)度。從原理上來(lái)講,CPU硬件層級(jí)擁有很多硬件遙測(cè)功能,可以獲取指令混合狀態(tài)、功耗、I/O負(fù)載信息,從而進(jìn)行動(dòng)態(tài)自適應(yīng)調(diào)整,這些參數(shù)也可回饋到操作系統(tǒng)內(nèi),再進(jìn)一步進(jìn)行動(dòng)態(tài)調(diào)整。
根據(jù)宋繼強(qiáng)的介紹,E-Core和P-Core是英特爾近十年最重大的架構(gòu)進(jìn)展,擁有兩個(gè)內(nèi)核的設(shè)計(jì)作為基礎(chǔ),未來(lái)可快速構(gòu)建更多產(chǎn)品種類。這是因?yàn)槠浠A(chǔ)核和內(nèi)存一致性均已做好,后續(xù)僅需在SoC架構(gòu)上選擇不同搭配,利用兩個(gè)內(nèi)核可以奠定未來(lái)十年內(nèi)SoC產(chǎn)品架構(gòu)的性能能效比產(chǎn)品組合。
由此可見,英特爾關(guān)注的是整體的性能提升,此前是通過(guò)制程、封裝和結(jié)構(gòu)上全面提升性能。上個(gè)月,帕特·基辛格宣布制程節(jié)點(diǎn)改為以PPA的方式進(jìn)行命名,變?yōu)镮ntel 7、Intel 4、Intel 3、Intel 20A、Intel 18A,并圍繞晶體管結(jié)構(gòu)進(jìn)行優(yōu)化。而本次則是從架構(gòu)方面著手,產(chǎn)品性能增強(qiáng)的維度繼續(xù)增加。
當(dāng)然,單獨(dú)拿出來(lái)P-Core也是非?!澳艽颉钡?,英特爾的代號(hào)為“Sapphire Rapids”的下一代英特爾至強(qiáng)可擴(kuò)展處理器將采用P-Core和硬件加速器的組合形式呈現(xiàn)在業(yè)界。
至強(qiáng)可擴(kuò)展處理器一直以來(lái)都是英特爾“親兒子”系列,所有的先進(jìn)技術(shù)都將堆疊在該產(chǎn)線,Sapphire Rapids也不例外,不僅采用先進(jìn)的封裝互連技術(shù),先進(jìn)的內(nèi)存和下一代I/O,同時(shí)還采用Intel 7制程工藝技術(shù)。除此之外,全新內(nèi)置三款新的加速引擎,包括英特爾?加速器接口架構(gòu)指令集(AIA)、英特爾?高級(jí)矩陣擴(kuò)展(AMX)、英特爾?數(shù)據(jù)流加速器(DSA)。
至強(qiáng)可擴(kuò)展處理器一直以來(lái)都是超異構(gòu)計(jì)算中標(biāo)量計(jì)算的核心,如此堆料之下的新產(chǎn)品必然也擁有顛覆市場(chǎng)的能力。
獨(dú)立GPU架構(gòu)展開“升維打擊”
事實(shí)上,英特爾并不是第一天投入獨(dú)立GPU。信息顯示,英特爾曾在1998年嘗試開發(fā)過(guò)獨(dú)立GPU,且發(fā)布第一款成品“i740AGP顯卡”,但在1999年被迫停滯;而后又在2009年嘗試第二代獨(dú)立顯卡“Larrabee",而后也被迫停滯。
從去年架構(gòu)日開始,英特爾再談獨(dú)立GPU,不僅推出代號(hào)為”DG1”的GPU,還將獨(dú)立GPU劃分為Xe-LP(低功耗)、Xe-HP(數(shù)據(jù)中心級(jí))、Xe-HPG(游戲微架構(gòu))、Xe-HPC(高性能計(jì)算)四個(gè)定位。
本次發(fā)布的獨(dú)立顯卡則是Xe-HPG微架構(gòu)及其產(chǎn)品Alchemist SoC,Xe-HPC及其產(chǎn)品Ponte Vecchio。另外,還為游戲開發(fā)商推出了Xe-SS,讓只能在低畫質(zhì)設(shè)置或低分辨率下玩的游戲也能在更高畫質(zhì)設(shè)置和分辨率下順利運(yùn)行。
Xe-HPG方面,英特爾已完成了內(nèi)核顯卡驅(qū)動(dòng)程序組件的重新架構(gòu),特別是內(nèi)存管理器和編譯器,從而使計(jì)算密集型游戲的吞吐量提高了15% (至多80%),游戲加載時(shí)間縮短了25%。Xe-HPG內(nèi)核包括16個(gè)矢量引擎和16個(gè)矩陣引擎,英特爾將其稱XMX或Xe Matrix eXtensions。
在產(chǎn)品方面,基于Xe-HPG的Alchemist SoC(此前代號(hào)為DG2)將于2022年Q1上市,并采用新的品牌名英特爾銳炫(IntelARC)。值得一提的是,英特爾的Alchemist獨(dú)立顯卡選擇了臺(tái)積電的N6制程工藝。另外,英特爾還為Xe-HPG架構(gòu)下產(chǎn)品劃分路線圖為Alchemist、Battlemage、Celestial、Druid。
Xe-HPC方面,據(jù)宋繼強(qiáng)介紹,因其定位便是為了高密度計(jì)算和AI加速,所以該架構(gòu)擁有全新設(shè)計(jì),具體包括每個(gè)Xe核的8個(gè)矢量和矩陣引擎,英特爾稱為XMX Xe Matrix eXtensions;切片和堆棧信息;以及包括計(jì)算、基礎(chǔ)和Xe Link單元的處理節(jié)點(diǎn)的單元信息。
在產(chǎn)品方面,基于Xe-HPC的Ponte Vecchio提供業(yè)界領(lǐng)先的每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)和計(jì)算密度,以加速AI、HPC和高級(jí)分析工作負(fù)載。Ponte Vecchio基于Intel 7制程工藝的大型芯片,針對(duì)Foveros技術(shù)進(jìn)行了優(yōu)化。據(jù)介紹:“我們的A0芯片已經(jīng)實(shí)現(xiàn)了超過(guò)每秒45萬(wàn)億次浮點(diǎn)運(yùn)算的FP32吞吐量,超過(guò)5 TBps的持續(xù)內(nèi)存結(jié)構(gòu)帶寬以及超過(guò) 2 TBps的連接帶寬。”
通過(guò)發(fā)布的全新架構(gòu)和產(chǎn)品上來(lái)說(shuō),不難發(fā)現(xiàn)均為SoC,集結(jié)了英特爾所有的先進(jìn)科技。獨(dú)立GPU作為提供矢量計(jì)算能力的重要力量,也是展開超異構(gòu)計(jì)算的維度必須擁有的產(chǎn)品。新架構(gòu)和新產(chǎn)品充分印證了超異構(gòu)計(jì)算戰(zhàn)略的可行性,特別是Ponte Vecchio這一產(chǎn)品本身就是異構(gòu)封裝集成的。
Ponte Vecchio通過(guò)嵌入式多芯片互連橋接(EMIB)單元進(jìn)行組裝,實(shí)現(xiàn)單元之間的低功耗、高速連接。這些設(shè)計(jì)均被集成于Foveros封裝中,為提高功率和互連密度形成有源芯片的3D堆疊。高速M(fèi)DFI互連允許1到2個(gè)堆棧的擴(kuò)展。據(jù)了解,Ponte Vecchio已走下生產(chǎn)線進(jìn)行上電驗(yàn)證,并已開始向客戶提供限量樣品。Ponte Vecchio預(yù)計(jì)將于2022年面向HPC和AI市場(chǎng)發(fā)布。
“Ponte Vecchio是英特爾迄今為止最復(fù)雜的SoC,也是異構(gòu)集成的絕佳典范。在制造過(guò)程中,產(chǎn)品既使用了英特爾加工廠,也使用了合作伙伴的加工廠。所以它是一個(gè)非常典型的多芯片異構(gòu)集成,最后它達(dá)到了一個(gè)目前業(yè)界最領(lǐng)先的高性能計(jì)算的密度,AI方面目前給出的指標(biāo),無(wú)論是從訓(xùn)練還是推理,目前預(yù)測(cè)都是最好的”,宋繼強(qiáng)這樣語(yǔ)重心長(zhǎng)地為記者介紹。
超異構(gòu)計(jì)算不再是“紙上談兵”
標(biāo)量運(yùn)算、矢量運(yùn)算、矩陣運(yùn)算、空間運(yùn)算,在數(shù)據(jù)逐漸復(fù)雜和硅基半導(dǎo)體逼近極限的現(xiàn)如今,讓不同器件去進(jìn)行不同擅長(zhǎng)的計(jì)算領(lǐng)域是快速提升性能的必經(jīng)之路。
宋繼強(qiáng)曾在2021年WAIC表示,英特爾不僅要讓CPU去處理標(biāo)量運(yùn)算、讓GPU處理矢量運(yùn)算、讓AI加速器處理矩陣運(yùn)算、讓FPGA處理空間運(yùn)算,還要用讓這些器件封裝在更小系統(tǒng)內(nèi),通過(guò)oneAPI的一體化軟件的統(tǒng)一管理,整個(gè)計(jì)算系統(tǒng)如同被緊緊“拴”在一起,讓計(jì)算性能提升一個(gè)層級(jí)。
本次發(fā)布會(huì)上,宋繼強(qiáng)表示,不同的架構(gòu)之間,實(shí)際上并不是一個(gè)簡(jiǎn)單粗暴的CPU+GPU+加速器+FPGA疊加,CPU、GPU內(nèi)部也是擁有不同內(nèi)核的,因此內(nèi)部計(jì)算單元配置也不盡相同。為了應(yīng)對(duì)未來(lái)不同數(shù)據(jù)對(duì)計(jì)算、傳輸、存儲(chǔ)等各方面帶來(lái)的要求,必須要用不同架構(gòu)去做不同種類的定制芯片方案解決數(shù)據(jù)產(chǎn)生的問題。
宋繼強(qiáng)強(qiáng)調(diào),目前這幾款新產(chǎn)品已經(jīng)顯現(xiàn)出超異構(gòu)計(jì)算的進(jìn)展,通過(guò)展示實(shí)際產(chǎn)品,充分說(shuō)明了超異構(gòu)計(jì)算已經(jīng)不再是概念,而是可以實(shí)際實(shí)施的技術(shù)。新產(chǎn)品增強(qiáng)了客戶對(duì)超異構(gòu)計(jì)算的信心度,新內(nèi)核的發(fā)布能夠有效加快產(chǎn)品迭代周期,超異構(gòu)計(jì)算也將會(huì)擁有更多種類的異構(gòu)集成產(chǎn)品。
特別是Sapphire Rapids和Ponte Vecchio這兩個(gè)SoC,前者面向通用的云計(jì)算廠商、服務(wù)器群應(yīng)用,因此采用EMIB 55微米凸點(diǎn)間距異構(gòu)封裝集成;后者面向更高端的超算中心,因此更加“激進(jìn)”地采用EMIB+第二代Foveros,整體異構(gòu)封裝集成度會(huì)更高。
在軟件方面,自oneAPI推出第一版至今,如今已擁有超過(guò)20萬(wàn)用戶,300多個(gè)應(yīng)用程序在其上使用?!叭绱搜该偷陌l(fā)展趨勢(shì)說(shuō)明這個(gè)方向廣受認(rèn)可,大眾也愿意集體貢獻(xiàn)推動(dòng)異構(gòu)集成,無(wú)論是從異構(gòu)硬件還是異構(gòu)編程,未來(lái)一定會(huì)有更多好產(chǎn)品在oneAPI上浮現(xiàn)”,宋繼強(qiáng)如是說(shuō)。
IDM2.0讓英特爾的路走寬了
英特爾自從轉(zhuǎn)向以數(shù)據(jù)為中心的戰(zhàn)略之時(shí),似乎就早已看清自己的優(yōu)勢(shì)所在,即“我什么都有,而且什么都是頂尖的”,早前就一直強(qiáng)調(diào)六大支柱和異構(gòu)計(jì)算。轉(zhuǎn)眼來(lái)到帕特·基辛格時(shí)代,更是將這種能力發(fā)揚(yáng)光大,并讓格局更大了。
這位技術(shù)出身的CEO所看到的比任何人都遠(yuǎn),帕特·基辛格曾豪爽放話:“我們?cè)谲浖⑿酒推脚_(tái)、封裝和大規(guī)模制造制程領(lǐng)域的深度和廣度,使得英特爾能夠以獨(dú)特優(yōu)勢(shì)抓住這一巨大的增長(zhǎng)機(jī)遇?!币虼?,回歸不久后的技術(shù)老兵就提出了IDM 2.0的戰(zhàn)略,讓自己的IDM變得更深更廣。
IDM 2.0中,值得關(guān)注的就是在代工方面的戰(zhàn)略,采用第三方的代工產(chǎn)能,這充分增強(qiáng)了產(chǎn)品的工藝維度,通過(guò)自家代工和三方代工有機(jī)結(jié)合,路子越走越寬。
宋繼強(qiáng)告訴記者,采用第三方代工不同制程來(lái)生產(chǎn)產(chǎn)品,是IDM2.0策略中的關(guān)鍵一環(huán)。Xe-HPG的Alchemist SoC采用了臺(tái)積電N6制程技術(shù),而X-HPC的Ponte Vecchio也大量采用臺(tái)積電N5和N7的制程技術(shù),未來(lái)發(fā)展趨勢(shì)一定是在英特爾的工藝節(jié)點(diǎn)以及代工合作伙伴的工藝節(jié)點(diǎn)上選取不同的節(jié)點(diǎn)進(jìn)行配置優(yōu)化。當(dāng)然,在沒有IDM 2.0之前,英特爾也是有一部分生產(chǎn)是與臺(tái)積電合作的,IDM 2.0戰(zhàn)略更加清晰指出未來(lái)的路。
“雖然我們的大部分產(chǎn)品將繼續(xù)在內(nèi)部工廠生產(chǎn),但未來(lái)幾年,我們將看到外部代工生產(chǎn)的芯片單元會(huì)在英特爾的模塊化產(chǎn)品中扮演更重要的角色——包括采用先進(jìn)制程節(jié)點(diǎn)的核心計(jì)算功能,以支持客戶端、數(shù)據(jù)中心和其他領(lǐng)域的新興工作負(fù)載。如果說(shuō)過(guò)去一年有什么心得,那就是:建立敏捷、韌性的供應(yīng)鏈至關(guān)重要。代工合作伙伴能幫助我們按計(jì)劃前行,以可預(yù)測(cè)的節(jié)奏為我們所處的各個(gè)領(lǐng)域的客戶交付領(lǐng)先產(chǎn)品”,英特爾公司企業(yè)規(guī)劃事業(yè)部高級(jí)副總裁Stuart Pann如是說(shuō)。
除了加入第三方代工,IDM2.0中也開放了代工服務(wù)IFS。甚至這項(xiàng)計(jì)劃剛宣布不久,基辛格表示英特爾已與“大約100家客戶進(jìn)行了交談,他們正在與我們討論代工機(jī)會(huì)?!?/p>
IDM 2.0從提出到現(xiàn)在僅僅相隔5個(gè)月,就已對(duì)英特爾產(chǎn)生深遠(yuǎn)影響。未來(lái)時(shí)日且多,帕特·基辛格所設(shè)想的路還有更多驚喜值得期待。