未來十年的技術(shù)驅(qū)動力是人工智能。引用應(yīng)用材料公司首席執(zhí)行官 Gary Dickerson 的話:“我們準(zhǔn)備好迎接我們一生中最大的機會了嗎?” 迪克森一直在世界各地與芯片制造商和政策制定者討論一個價值 10 萬億美元的問題:我們?nèi)绾巫プ∪斯ぶ悄艿慕?jīng)濟機會,這將在未來幾年改變幾乎所有行業(yè)和機構(gòu)?Gary 展示了這張圖表,展示了半導(dǎo)體行業(yè)面臨的 1,000 倍挑戰(zhàn)。
事實上,隨著計算需求大約每 3.5 個月增長 2 倍,人工智能挑戰(zhàn)是一個不斷變化的目標(biāo)。
近年來,美中關(guān)系日益緊張,導(dǎo)致美國阻止中國獲得先進(jìn)的半導(dǎo)體技術(shù)和設(shè)備。這包括使用高級工具,例如極紫外 (EUV) 光刻。因此,據(jù)報道,只有臺積電、三星和英特爾在 10nm 以下的技術(shù)節(jié)點規(guī)模上保持競爭。因此,分析師表示,中國公司將替代資源集中在成熟的芯片技術(shù)上是有道理的。
這可以解釋多家中國公司采用混合鍵合作為核心技術(shù)的原因?;旌辖壎ㄔ试S他們用系統(tǒng)級 3D 縮放代替維度節(jié)點縮放。
2018年8月,長江存儲在閃存峰會上正式發(fā)布突破性的Xtacking架構(gòu),并獲得Best of Show獎。對于其3D NAND產(chǎn)品,它使用兩條半導(dǎo)體生產(chǎn)線,一條用于3D NAND多級存儲器,一條用于外圍(存儲器控制)電路,如下圖所示。
2020 年 9 月,另一家中國公司 IC League 在一篇題為“ Breaking the Memory Wall for AI Chip with a New Dimension”的論文中公布了其面向 AI 的 IC 開發(fā)的片上異構(gòu)集成技術(shù) (HITOC) 的成果。
引用論文中的內(nèi)容,“使用 HITOC,我們有兩個晶圓,邏輯晶圓和內(nèi)存晶圓,鍵合在一起(使用混合鍵合)[見上圖]。在邏輯晶片上,我們有處理單元池。另一個晶圓上的邏輯池下方是 DRAM 陣列池?!?nbsp;IC League 報告的結(jié)果優(yōu)于整體改進(jìn)的數(shù)量級,如下表所示。
在 ISSCC 2022 上,阿里巴巴在題為“184QPS/W 64Mb/mm2 3D Logic-to-DRAM Hybrid Bonding with Process-Near-Memory Engine for Recommendation System”的論文中展示了使用混合鍵合的 AI 計算設(shè)備的 1000 多倍改進(jìn)。
該論文正確地指出,對于 AI 計算,數(shù)據(jù)傳輸主導(dǎo)著系統(tǒng)性能和功耗。因此,克服“記憶墻”是人工智能計算的關(guān)鍵,隨著人工智能模型計算需求規(guī)模的迅速擴大。
該論文詳細(xì)介紹了利用混合綁定從多組 DRAM 直接連接到 AI 處理器邏輯的設(shè)備架構(gòu)。商品市場上 DRAM 的裸片尺寸相當(dāng)小,小于 50 mm 2部分是由于較高的良率和 JEDEC 標(biāo)準(zhǔn)的限制。有意思的是,阿里巴巴的logic-to-DRAM 3D芯片是真正意義上的大芯片;602.22 毫米2. 通過這樣做,這項工作的一個重要方面是將邏輯和相應(yīng)的 DRAM 構(gòu)建為一個完整的系統(tǒng)設(shè)計,其中多個 DRAM 組直接連接到下面的多核邏輯。然后,我們甚至可以將這種 3D Logic-to-DRAM 概念擴展到全晶圓級芯片,如 Cerebra 的 Wafer-Scale-Engine (CS-2)。不幸的是,Cerebra 的晶圓級引擎目前僅使用 SRAM。想象一下,如果一個完整的 DRAM 晶圓將直接混合鍵合在 Cerebra 的晶圓級引擎上。該公司透露,其 CS-2 具有 40 GB 的片上 SRAM。在相同尺寸下,DRAM 可以輕松提供超過 1 TB 或至少 25 倍以上的容量?,F(xiàn)在,我們離打破記憶墻又近了一步。
阿里巴巴的論文標(biāo)題表明,該工作針對推薦系統(tǒng)的人工智能部分,阿里巴巴對此非常感興趣,并一直在開發(fā)包括發(fā)布工作在內(nèi)的系統(tǒng)自 2017 年以來。本文提出了在性能和功耗降低方面非常重要的突破?!芭c CPU-DRAM 系統(tǒng)相比,我們的芯片實現(xiàn)了 9.78 倍的加速。請注意,通過擴大混合綁定塊的數(shù)量或使用更先進(jìn)的工藝技術(shù)來服務(wù)更復(fù)雜的推薦模型,可以進(jìn)一步提高吞吐量和內(nèi)存容量。在能源效率方面,這在內(nèi)存受限的應(yīng)用程序中很重要,我們的工作達(dá)到了 184.11QPS/W(QPS – Queries per Second),比 CPU-DRAM 系統(tǒng)高出 317.43 倍。在面積效率方面,高密度混合鍵合提高了QPS/mm 2660×。” 結(jié)果是在使用相對較舊的 55 nm 工藝節(jié)點進(jìn)行邏輯時實現(xiàn)的,并與以 14 nm 處理的頂級 Intel Xeon Gold CPU 進(jìn)行了比較。
這些結(jié)果比 AMD 報告的V-Cache報告的結(jié)果要好幾個數(shù)量級,它使用混合綁定將緩存內(nèi)存添加到其 Ryzen CPU。造成這種差異的原因可能有幾個,包括重新構(gòu)建系統(tǒng)以高度利用混合鍵合技術(shù)的努力。阿里巴巴芯片的架構(gòu)肯定是從頭開始預(yù)期混合鍵合的,而 AMD 的組合可能是事后才想到的。此外,應(yīng)該注意的是,雖然 AMD 報告使用了 9μm 的垂直連接間距,但中國供應(yīng)商報告的垂直間距為 3μ,在某些情況下甚至為 1μ。