高端計(jì)算的解決方案是堆疊硅片。
一批高性能處理器表明,延續(xù)摩爾定律的新方向是向上發(fā)展。每一代處理器都要比上一代性能更好,究其根本,這意味著要在硅片上集成更多的邏輯。但其中存在兩個問題。首先,我們縮小晶體管及其組成的邏輯和內(nèi)存塊的能力正在放緩。其次,單塊芯片已經(jīng)達(dá)到了尺寸極限。光刻工具可以在850平方毫米的面積內(nèi)繪制圖案,這大約是一個現(xiàn)代服務(wù)器圖形處理單元(GPU)的大小。
有一種解決辦法是將兩塊或多塊硅片并排放置在同一個封裝中,并使用幾毫米長的密集互連將它們縫合在一起,這樣它們就可以作為一個單元有效地運(yùn)行。這種所謂的2.5D方案由先進(jìn)的封裝技術(shù)實(shí)現(xiàn),已經(jīng)落后于幾個頂級處理器,這些處理器現(xiàn)在由多個功能性“芯?!苯M成,而不是單個集成電路。 但是,要像在同一塊芯片上一樣傳輸大量數(shù)據(jù),我們需要更短、更密集的連接,而這只能通過將一塊芯片堆疊在另一塊芯片上來實(shí)現(xiàn)。在3D方案中面對面連接兩塊芯片可能意味著每平方毫米要有數(shù)百甚至數(shù)千微米長的連接。通過這些短而密集的連接,只需很少的能量就能將數(shù)據(jù)從一塊硅片快速傳輸?shù)搅硪粔K,就好像兩塊硅片是一塊芯片一樣。要做到這一點(diǎn)需要很多創(chuàng)新。工程師們必須想辦法防止堆棧中一塊芯片的熱量破壞另一塊芯片,決定哪些功能應(yīng)該放在哪里、這些功能如何實(shí)現(xiàn),防止偶爾出現(xiàn)的壞芯片造成大量昂貴的無用系統(tǒng),以及應(yīng)對一次完成這一切所增加的復(fù)雜性。
以下3個示例不僅展示了3D芯片堆疊是如何完成的,還介紹了其優(yōu)勢。
采用3D V-Cache緩存技術(shù)的AMD Zen 3
長期以來,個人計(jì)算機(jī)都可以選擇增加內(nèi)存,以便提高處理超大應(yīng)用和大數(shù)據(jù)量工作的速度。由于3D芯片堆疊的出現(xiàn),超微半導(dǎo)體公司(AMD)的下一代CPU芯粒也有了這個選擇。當(dāng)然,這不是售后市場的擴(kuò)展組件,但如果你想打造一臺更具魅力的計(jì)算機(jī),那么訂購一款有超大緩存的處理器可能是正確的選擇。

吳指出,與縮小邏輯的能力相比,業(yè)界縮小SRAM的能力正在放緩。因此,未來的SRAM擴(kuò)展包可能會繼續(xù)使用更成熟的制造工藝,而計(jì)算芯粒將被推到摩爾定律的最前沿。
Graphcore的Bow AI處理器
即使堆棧中的一塊芯片上沒有晶體管,3D集成也可以加快計(jì)算速度??偛课挥谟娜斯ぶ悄埽ˋI)計(jì)算機(jī)公司Graphcore僅通過在其AI處理器上安裝一塊功率傳輸芯片,就大幅提高了其系統(tǒng)的性能。增加功率傳輸硅片意味著名為Bow的組合芯片可以運(yùn)行得更快,為1.85而非1.325千兆赫,且電壓低于其前一代。與上一代相比,這相當(dāng)于通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)使計(jì)算機(jī)的速度提高了40%,而能耗降低了16%。重要的是,用戶無須更改其軟件便能獲得這種提升。

英特爾的Ponte Vecchio超級計(jì)算機(jī)芯片
極光超級計(jì)算機(jī)旨在成為美國首批突破exaflop屏障(每秒百億億次高精度浮點(diǎn)運(yùn)算)的高性能計(jì)算機(jī)之一。為了讓極光達(dá)到這種高度,英特爾的Ponte Vecchio在47塊硅片上封裝了1000多億個晶體管,構(gòu)成了一臺處理器。英特爾使用2.5D和3D技術(shù)將3100平方毫米的硅片塞進(jìn)了2330平方毫米的空間中,大約相當(dāng)于4塊英偉達(dá)A100 GPU。

戈麥斯表示,從2008年第一臺千萬億次浮點(diǎn)運(yùn)算超級計(jì)算機(jī)發(fā)展到今年的百億億次浮點(diǎn)運(yùn)算超級計(jì)算機(jī)花了14年。他預(yù)測,借助3D堆疊等先進(jìn)封裝技術(shù),下次將計(jì)算速度提高千倍所需的時間可能會縮短到6年。
3D技術(shù)
混合鍵合將芯片互連堆棧頂部的銅焊盤與另一塊芯片上的銅焊盤直接鍵合在一起。在混合鍵合中,焊盤位于被氧化物絕緣體包圍的小凹槽中。絕緣體被化學(xué)激活,在室溫下被反向按壓時會立即結(jié)合。然后,在退火步驟中,銅焊盤會膨脹并橋接間隙,形成低阻抗鏈路。混合鍵合的連接密度高達(dá)每平方毫米1萬個鍵合,遠(yuǎn)高于微凸塊技術(shù)每平方毫米400至1600個鍵合的連接密度(見圖表)。

微凸塊本質(zhì)上是一種叫做“倒裝芯片”的標(biāo)準(zhǔn)封裝技術(shù)的縮小版。在倒裝芯片中,焊料凸塊被添加到了芯片頂部(表面)的互連端點(diǎn)。然后將芯片翻轉(zhuǎn)到具有一組匹配互連的封裝基板上,并熔化焊料形成鍵合。要用這種技術(shù)堆疊兩塊芯片,其中一塊芯片的表面必須有短銅柱。然后用一個“微凸塊”焊料蓋住這些芯片,通過熔化焊料將兩塊芯片面對面連接起來。
使用微凸塊時,從一個連接的起點(diǎn)到下一個連接最邊緣的最短距離(也就是間距)可以小于50微米。英特爾在Ponte Vecchio超級計(jì)算機(jī)芯片中使用了36微米間距版本的Foveros 3D集成技術(shù)。三星表示,其名為3D X-Cube的微凸塊技術(shù)可以實(shí)現(xiàn)30微米的間距。該技術(shù)達(dá)不到(上述)混合鍵合的密度。然而,它對對齊和平面化的要求并不像混合鍵合那樣嚴(yán)格,因此更容易將采用不同制造技術(shù)制造的多塊芯片堆疊到單個基極芯片上。
硅通孔(TSV)是垂直向下穿過芯片硅的互連。它們不會貫穿整個晶圓,因此必須將硅片的背面磨平,直至硅通孔暴露出來。這在3D堆疊芯片中通常是必要的,因?yàn)橐獙⑿酒I合在一起使其互連面對面。在這種情況下,硅通孔可為堆棧供電并提供數(shù)據(jù)。多年來,它們在垂直堆疊多塊內(nèi)存芯片的高帶寬動態(tài)RAM中得到了廣泛應(yīng)用。但隨著3D芯片堆疊技術(shù)的發(fā)展,這項(xiàng)技術(shù)也應(yīng)用到了邏輯芯片中。