構(gòu)建未來(lái)計(jì)算引擎,英特爾下注3D芯片堆疊技術(shù)
編者按:最近英特爾舉辦了一場(chǎng)引人注目的“架構(gòu)日”活動(dòng),公布了未來(lái)多年的產(chǎn)品技術(shù)路線圖、技術(shù)戰(zhàn)略規(guī)劃以及一系列新技術(shù)。外媒The Next Platform隨即發(fā)布了一篇深度分析文章,對(duì)Tick-Tock模式演進(jìn)和Foveros 3D芯片封裝技術(shù)進(jìn)行了深度解析。作者認(rèn)為,面臨壓力,英特爾能從現(xiàn)有工藝中釋放出超乎想象的更高性能;而Foveros將在不久的將來(lái)為英特爾計(jì)算引擎的構(gòu)建奠定基礎(chǔ)。
以下為部分摘選:
創(chuàng)新離不開(kāi)動(dòng)力。從財(cái)務(wù)角度來(lái)看,RISC/Unix供應(yīng)商的衰落以及AMD在服務(wù)器市場(chǎng)的缺席使英特爾大為受益,它在數(shù)據(jù)中心的霸權(quán)也從未如此強(qiáng)大,收入和利潤(rùn)不斷突破記錄。
這也來(lái)源于超大規(guī)模運(yùn)營(yíng)商和云構(gòu)建商的崛起所帶來(lái)的機(jī)遇,同時(shí)也帶給英特爾一些競(jìng)爭(zhēng)壓力,這些壓力在之前往往來(lái)自于直接競(jìng)爭(zhēng)對(duì)手、OEM和ODM。雖然英特爾在數(shù)據(jù)中心計(jì)算服務(wù)器方面仍幸運(yùn)地保持增長(zhǎng)且接近壟斷,并擴(kuò)展到網(wǎng)絡(luò)和存儲(chǔ)設(shè)備且都取得了一些成績(jī),但缺乏競(jìng)爭(zhēng)確實(shí)損害了英特爾的工程優(yōu)勢(shì)。
對(duì)于英特爾來(lái)說(shuō)輕松賺錢(qián)是好事。服務(wù)器市場(chǎng)的增長(zhǎng)速度比弱小競(jìng)爭(zhēng)對(duì)手吞食市場(chǎng)份額的速度要快得多,AMD Epyc和Marvell ThunderX2的攻擊以及IBM Power9的一系列動(dòng)作并沒(méi)有真正打擊到英特爾的核心服務(wù)器業(yè)務(wù)。延遲了兩年的10納米工藝雖然擾亂了英特爾的路線圖,但也沒(méi)造成什么確切影響。然而在2019年,隨著AMD和Marvell使用臺(tái)積電的先進(jìn)工藝推出下一代產(chǎn)品,戰(zhàn)火將會(huì)蔓延,并很可能會(huì)波及英特爾。
挫敗這些攻擊,是英特爾公司處理器核心和視覺(jué)計(jì)算高級(jí)副總裁、英特爾邊緣計(jì)算解決方案總經(jīng)理兼首席架構(gòu)師Raja Koduri,以及高級(jí)副總裁兼硅工程事業(yè)部總經(jīng)理Jim Keller的工作。Koduri和Keller是分別負(fù)責(zé)讓AMD Radeon GPU和Epyc CPU產(chǎn)品線重生的人物。這兩位和其他英特爾高管在最近舉行的架構(gòu)日活動(dòng)中,在英特爾聯(lián)合創(chuàng)始人Robert Noyce舊居發(fā)布了攻防計(jì)劃。在這里,英特爾從高處俯瞰硅谷,試圖在數(shù)據(jù)中心拿下更大一塊地盤(pán)。
羅馬不是一天建成的,也不是一天毀滅的
大家都熟悉英特爾十多年來(lái)采用的Tick-Tock模式。英特爾將芯片改進(jìn)的過(guò)程分為兩個(gè)部分以降低風(fēng)險(xiǎn),其中Tick階段是晶體管制造工藝的縮小,Tock階段是基于前階段工藝的架構(gòu)改進(jìn)。使用Tick-Tock模式,英特爾可以維持穩(wěn)定的性能提升,該模式也運(yùn)作得非常好,直到Tick階段需要花費(fèi)更長(zhǎng)的時(shí)間且Tock階段變得越來(lái)越難。
英特爾從14納米開(kāi)始打破Tick-Tock模式,延長(zhǎng)為T(mén)ick-Tick-Tick-Tick模式,試圖從一個(gè)芯片工藝節(jié)點(diǎn)獲得更高的性能。這種改變很有必要,10納米工藝的推遲導(dǎo)致了14納米Tick階段的拉伸以及10納米Tick階段的延期,接著影響到依賴于10納米工藝的一大堆Tock階段。
從中得到的經(jīng)驗(yàn)可能就是Tock階段不能過(guò)分依賴于前面的Tick階段,需要學(xué)習(xí)混搭不同工藝的芯片將它們?nèi)M(jìn)一個(gè)2D封裝,或者堆疊成3D封裝。實(shí)際上只需要在最有用的芯片上使用最先進(jìn)的Tick工藝,而把其它的小芯片組件放在封裝上,比如把消耗大量電能的內(nèi)存控制器和I/O控制器放在芯片之外,這樣成熟的晶體管蝕刻工藝尺寸會(huì)更大,但制造成本也更低。
關(guān)于制程,有一點(diǎn)非常重要。面臨壓力,英特爾能從現(xiàn)有工藝中釋放出超乎想象的更高性能。當(dāng)前14納米FinFET工藝蝕刻的酷睿臺(tái)式機(jī)處理器就是一個(gè)很好的例子,并且這也適用于凌動(dòng)或服務(wù)器的至強(qiáng)芯片。下表顯示了過(guò)去幾年酷睿芯片最高時(shí)鐘速率隨工藝優(yōu)化的演變:
制程更新本質(zhì)上是更平滑的優(yōu)化,即使新的工藝已經(jīng)推出,每個(gè)制程節(jié)點(diǎn)仍會(huì)持續(xù)更長(zhǎng)的時(shí)間。這種更平滑的方式可以幫助緩解一些競(jìng)爭(zhēng)壓力,但隨著英特爾增加10納米設(shè)備而減少14納米設(shè)備,導(dǎo)致了2018年P(guān)C芯片和一些服務(wù)器芯片的短缺,迫使英特爾集中精力在最佳良率上,并把最好的14納米工藝應(yīng)用于最暢銷(xiāo)的PC和服務(wù)器芯片。
英特爾需要讓客戶習(xí)慣這種Tick-Tick-Tick-Tick-Tick模式,它將改變工廠增減設(shè)施來(lái)滿足需求的方式。
Koduri希望大家了解的是,英特爾現(xiàn)在已經(jīng)掌控10納米工藝,而且正在前瞻7納米甚至更先進(jìn)的5納米。這是當(dāng)前路徑的樣子:
如圖,英特爾每個(gè)制程節(jié)點(diǎn)有兩個(gè)不同版本,一個(gè)針對(duì)計(jì)算優(yōu)化,一個(gè)針對(duì)I/O優(yōu)化,因?yàn)槎咝枰煌木w管屬性。以偶數(shù)結(jié)尾的制程變數(shù)用于計(jì)算,以奇數(shù)結(jié)尾的用于I/O。在最初的10納米制程后面,有兩個(gè)優(yōu)化的計(jì)算節(jié)點(diǎn),英特爾可能會(huì)對(duì)外稱之為10納米+和10納米++。與此同時(shí),后續(xù)的7納米工藝,目前正在開(kāi)發(fā)中。英特爾也正在對(duì)5納米制程進(jìn)行“尋路”研究。
制程工藝過(guò)剩
然而還有一個(gè)更大的問(wèn)題需要解決,那就是數(shù)據(jù)中心的計(jì)算類(lèi)型如同寒武紀(jì)大爆發(fā)一樣增長(zhǎng)。英特爾一直在構(gòu)建不同計(jì)算類(lèi)型的產(chǎn)品組合,除了至強(qiáng)和凌動(dòng)服務(wù)器CPU、Arria和Stratix(來(lái)自收購(gòu)的Altera)FPGA,及其Crest神經(jīng)網(wǎng)絡(luò)處理器(來(lái)自收購(gòu)的Nervana)之外,英特爾非常清楚它還需要加入可用作加速器的獨(dú)立GPU。英特爾需要可與Nvidia Tesla和AMD Radeon Instinct GPU加速器直接競(jìng)爭(zhēng)的產(chǎn)品,這也是其首先雇用Koduri的原因之一。
目前尚不清楚英特爾將如何幫助客戶選擇用于任意特定工作負(fù)載的計(jì)算產(chǎn)品,因?yàn)樵谠S多情況下會(huì)出現(xiàn)大量的重疊。
但是在我們深入了解這些讓人眼花繚亂的芯片組合之前,且先退一步看看。英特爾一再表示,它追求的不再是價(jià)值僅450億美元的客戶端和服務(wù)器處理器市場(chǎng),再加上一些閃存和部分超微互連,而是追求更廣闊的3000億美元的計(jì)算市場(chǎng),將其產(chǎn)品嵌入數(shù)據(jù)中心、園區(qū)和邊緣各式各樣的裝置中。要負(fù)擔(dān)所有這些芯片的研究和工廠建設(shè)費(fèi)用,英特爾將必須大規(guī)模生產(chǎn)。
Koduri提醒大家的第一件事是,并非所有的晶體管都適用于不同的場(chǎng)景,而且在這個(gè)摩爾定律放緩的世界,作為一個(gè)多元電子器件供應(yīng)商,需要為不同類(lèi)型的電路使用不同的制程工藝。即使可以使用單個(gè)制程技術(shù)大費(fèi)周章地在芯片上建立單片系統(tǒng),那也許并不算明智的做法。
“我們期望建立一個(gè)3000億美元的潛在市場(chǎng)規(guī)模,并進(jìn)入不同的市場(chǎng)領(lǐng)域,我們注意到需要建造的晶體管設(shè)計(jì)十分多樣,”Koduri解釋道。“例如,臺(tái)式機(jī)CPU就對(duì)于性能和功率都有廣泛的需求,新晶體管在這些場(chǎng)景中并不總是更適用。事實(shí)上,沒(méi)有晶體管可以覆蓋所有這些需求。另外,我們需要集成的晶體管越來(lái)越多樣——我們有通信晶體管,I/O晶體管,FPGA晶體管,以及傳統(tǒng)的CPU邏輯晶體管。“
因此,出于經(jīng)濟(jì)和技術(shù)因素,以及不同市場(chǎng)需要根據(jù)功率限制、性能特征、特性和成本集成不同原件,單個(gè)大芯片需要被拆分成多個(gè)小芯片(chiplet)。正如我們已經(jīng)指出,不僅僅是英特爾,業(yè)界的一切都將向插槽內(nèi)多芯片封裝發(fā)展。
所以,這就是英特爾將要做的事情。尚不清楚具體什么時(shí)候、使用什么電路,但顯然未來(lái)英特爾可編程解決方案事業(yè)部的“Falcon Mesa” FPGA將采用模塊化插槽設(shè)計(jì),并使用10納米工藝至少來(lái)實(shí)現(xiàn)其核心邏輯。小芯片的模式不僅是將應(yīng)用不同制程的組件部分組合,而是還能制造出比單個(gè)大芯片能適應(yīng)更廣泛的性能和功率范圍的一系列部件。
另一個(gè)采用10納米工藝的組件是英特爾112 Gb/s SerDes電路,它的制程可能在未來(lái)相當(dāng)長(zhǎng)一段時(shí)間內(nèi)不會(huì)縮小。它支持脈幅調(diào)制,可在一個(gè)信號(hào)中承載更多比特。英特爾擁有112 Gb/s SerDes,意味著英特爾可以提供能與業(yè)界相媲美的Omni-Path 200及以太網(wǎng)連接,這對(duì)于英特爾和眾多網(wǎng)絡(luò)廠商競(jìng)爭(zhēng)是很有必要的,其中一些對(duì)手同樣銷(xiāo)售英特爾處理器的競(jìng)品。
所有這些因素最終帶來(lái)了Foveros 3D芯片封裝技術(shù),它將在不久的將來(lái)為英特爾計(jì)算引擎的構(gòu)建奠定基礎(chǔ)。Foveros是一種系統(tǒng)級(jí)封裝集成,為嵌入式多芯片互連橋接(EMIB)多芯片封裝技術(shù)增加了第二個(gè)維度,EMIB是英特爾一項(xiàng)研究多年的工作,并最終在連接小芯片的Stratix 10 FPGA、以及在單獨(dú)封裝的配置AMD GPU和高帶寬內(nèi)存(HBM)的Kaby Lake-G 酷睿芯片上得到應(yīng)用。
使用Foveros系統(tǒng)級(jí)封裝多芯片模塊,為計(jì)算復(fù)合體(可以包括內(nèi)存及其它組件)提供服務(wù)的I/O電路、SRAM緩存和電源電路可以在基層芯片上構(gòu)建,基層芯片覆蓋于封裝襯底上,襯底可以放置針腳與插槽配合,抑或直接焊接到主板上。有源中介層被放置在該封裝襯底上,其上方的各種小芯片通過(guò)硅穿孔(TSV)可以互相連接。小芯片上的微凸塊可以通過(guò)TSV向下深入中介層,從而連接到堆疊芯片的最底層,然后在中介層內(nèi)可以到達(dá)鄰近,或到達(dá)堆疊其上的其它芯片。除了一層底層芯片和另一層頂層芯片,可以有很多分層:
看看這些焊點(diǎn)凸起多么閃亮;當(dāng)圖形專家做演示時(shí)就會(huì)發(fā)生這種情況。
使用Foveros工藝的第一個(gè)產(chǎn)品在架構(gòu)日上進(jìn)行了演示,如下圖:
這個(gè)設(shè)備定位是超便攜應(yīng)用,封裝尺寸為12毫米×12毫米,遠(yuǎn)小于一枚美元硬幣。具有I/O和其它片上系統(tǒng)組件的基層芯片使用1222工藝,該工藝是基礎(chǔ)22納米工藝的代號(hào),非常久遠(yuǎn),在完善后被應(yīng)用于“Ivy Bridge”和“Haswell” 至強(qiáng)上。更大晶體管更適合電源和I/O電路。在其上方是使用10納米工藝實(shí)現(xiàn)的計(jì)算復(fù)合體(1274,前綴P表示使用Foveros堆疊),在這個(gè)例子中,它包含了來(lái)自“Sunny Cove” 酷睿的一個(gè)核心和來(lái)自“Tremont” 凌動(dòng)的四個(gè)核心,以一種ARM已經(jīng)應(yīng)用多年的方式混搭。最頂層是一大塊疊層封裝內(nèi)存。英特爾沒(méi)有說(shuō)明這種芯片復(fù)合體在負(fù)載條件下功耗多少,但確實(shí)表示它在待機(jī)狀態(tài)消耗為2毫瓦,大約是能取得的最低值。
英特爾并未明確表示在未來(lái)的酷睿和至強(qiáng)處理器中使用Foveros技術(shù),但顯然未來(lái)的“Falcon Mesa” FPGA,和2020年的Xe獨(dú)立GPU中將用到它。我們認(rèn)為未來(lái)的至強(qiáng)和凌動(dòng),以及各種CPU與GPU、FPGA、及Nervana神經(jīng)網(wǎng)絡(luò)處理器等混搭芯片上都會(huì)用到Foveros技術(shù)。
英特爾不再僅靠制程和架構(gòu)來(lái)推動(dòng)其計(jì)算業(yè)務(wù),還將充分利用內(nèi)存和互連芯片,將安全性嵌入到所有元素中,并與一個(gè)涵蓋這些計(jì)算元素的更簡(jiǎn)單的集成軟件集合在一起,也就是oneAPI。之后,我們還將深入探討oneAPI以及各種計(jì)算引擎的路線圖,以及它們對(duì)回歸摩爾定律軌道的預(yù)期影響。