AI芯片的未來(lái)需要依靠什么

時(shí)間：2020-05-11 11:30:01

關(guān)鍵字：人工智能 AI芯片內(nèi)存集成

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 在上一篇文章（為什么AI芯片需要突破馮諾依曼架構(gòu)？）中，我總結(jié)了人工智能工作負(fù)載的計(jì)算架構(gòu)需求與我們?cè)谶^(guò)去幾十年所熟悉的計(jì)算架構(gòu)（如x86和ARM等傳統(tǒng)計(jì)算架構(gòu)）有何不同。在這篇文章中，我也

在上一篇文章（為什么AI芯片需要突破馮諾依曼架構(gòu)？）中，我總結(jié)了人工智能工作負(fù)載的計(jì)算架構(gòu)需求與我們?cè)谶^(guò)去幾十年所熟悉的計(jì)算架構(gòu)（如x86和ARM等傳統(tǒng)計(jì)算架構(gòu)）有何不同。在這篇文章中，我也會(huì)提出新的AI計(jì)算架構(gòu)需要材料工程在哪些方面有所突破。我將給出一些我們遇到的突破類型的例子，并描述一個(gè)新存儲(chǔ)領(lǐng)域的具體例子。

從經(jīng)典的2D縮放到架構(gòu)創(chuàng)新

在跨越20多年的PC和移動(dòng)時(shí)代，該行業(yè)是由“經(jīng)典2D縮放”驅(qū)動(dòng)的，即根據(jù)1965年摩爾定律預(yù)測(cè)的幾何晶體管縮放。隨著晶體管的特性變小，性能提高，功耗降低，這與登納德定律（Dennard Scaling）一致。更高的晶體管密度也能降低每個(gè)晶體管的成本，這樣芯片總成本就降低了。在這期間，我們并沒有看到很多架構(gòu)上的創(chuàng)新，很多關(guān)注都集中在一個(gè)主流架構(gòu)的幾何尺度上，這加速了x86和ARM CPU架構(gòu)的崛起。

你可能已經(jīng)意識(shí)到，傳統(tǒng)的2D縮放已經(jīng)不像以前那么有效了。它已經(jīng)變得非常復(fù)雜和昂貴，而且它所帶來(lái)的收益也在減少。因此，當(dāng)我們過(guò)渡到人工智能和物聯(lián)網(wǎng)時(shí)代時(shí)，很多重點(diǎn)放在了架構(gòu)的變化上，以推動(dòng)性能和功耗的改進(jìn)。體系結(jié)構(gòu)的變化（通過(guò)從根本上改變數(shù)據(jù)的處理方式）可以極大地提高性能。正如我們已經(jīng)看到的谷歌的新TPUs、NVIDIA的新GPU和Microsoft的Project Brainwave，與傳統(tǒng)CPU相比，性能上的提升是數(shù)量級(jí)以上的，例如30x、50x甚至更多。與傳統(tǒng)2D縮放相比，這顯然是一個(gè)更高層次的改進(jìn)（即使是在2D縮放最好的時(shí)候）。架構(gòu)的進(jìn)步可以通過(guò)全新的設(shè)備來(lái)實(shí)現(xiàn)，或使用3D技術(shù)來(lái)擴(kuò)展現(xiàn)有的邏輯和內(nèi)存架構(gòu)，也可以使用先進(jìn)的封裝技術(shù)以新的方式將不同的硅結(jié)合在一起來(lái)執(zhí)行特定的功能。

John Hennessy和David Patterson （被公認(rèn)為現(xiàn)代計(jì)算機(jī)體系結(jié)構(gòu)之父）于2017年12月出版的第六版書中進(jìn)行了細(xì)致的總結(jié)：近40年來(lái)處理器性能數(shù)據(jù)證明三種流行的“定律”與CPU性能進(jìn)展都在逐漸消失。根據(jù)參考文獻(xiàn)，登納德定律（Dennard Scaling）在2003年結(jié)束，阿姆達(dá)爾定律（Amdahl’s Law）在2011年左右達(dá)到極限，摩爾定律（Moore’s Law）進(jìn)步在2015年左右結(jié)束。我們對(duì)他們分析的解釋是，從經(jīng)典的2D縮放到性能提升的免費(fèi)搭車已經(jīng)結(jié)束了，我們現(xiàn)在必須努力將架構(gòu)創(chuàng)新和材料工程突破結(jié)合起來(lái)，以實(shí)現(xiàn)AI所需的性能提升。

材料工程的突破

在傳統(tǒng)的2D縮放時(shí)代，材料工程只涉及到有限的材料，如硅、二氧化硅、氮化硅和碳，但是這些材料已經(jīng)達(dá)到了縮放限制。事實(shí)上，我們正在有效地用完元素周期表上的材料，這些材料在單獨(dú)情況下可以很好地工作。現(xiàn)在我們?cè)絹?lái)越需要?jiǎng)?chuàng)造獨(dú)特的變化，這給了我們10種不同類型的二氧化硅和8種氮化硅。在新的人工智能時(shí)代，材料工程越來(lái)越多地涉及創(chuàng)造新的材料組合，作為一個(gè)系統(tǒng)一起工作以實(shí)現(xiàn)特定的性能。我們稱之為集成材料系統(tǒng)。

正如我在本系列的第一篇文章中所討論的，我們認(rèn)為AI工作負(fù)載需要三個(gè)主要的架構(gòu)改進(jìn)：更高的帶寬內(nèi)存、更高的數(shù)據(jù)并行性和更低的精度。

為了實(shí)現(xiàn)這些改進(jìn)，我們可以借鑒材料工程的突破。例如，我們可以在現(xiàn)有的邏輯設(shè)備中集成新的內(nèi)存結(jié)構(gòu)。新材料可以實(shí)現(xiàn)全新的存儲(chǔ)（如英特爾?3D XPoint?技術(shù)）；還可以使用材料工程來(lái)幫助實(shí)現(xiàn)自校準(zhǔn)密集特性（如GPU中存在的數(shù)十億個(gè)vias）；也可以用來(lái)幫助晶體管的垂直方向以獲得更大的面積密度。材料工程通過(guò)先進(jìn)的封裝在異構(gòu)集成中也發(fā)揮作用：獨(dú)特的基底、聚合物和硅通孔技術(shù)（TSV）可以幫助實(shí)現(xiàn)各種獨(dú)立芯片的高密度封裝。

這是一個(gè)材料工程突破的例子，用來(lái)實(shí)現(xiàn)一種新型的存儲(chǔ)器。下面是STT-MRAM陣列的圖片。左邊顯示了一組內(nèi)存單元，包括其中一個(gè)內(nèi)存單元的特寫。右邊顯示了超過(guò)15種材料是如何堆積起來(lái)形成這些設(shè)備的。每個(gè)薄膜的厚度從0.2nm到2nm不等。相比之下，你可能會(huì)想起大約十年前的一項(xiàng)創(chuàng)新——高k金屬門（HKMG）;HKMG涉及大約6種新材料，每一種大約1納米厚。

實(shí)例：STT-MRAM

這是一個(gè)材料工程突破的例子，用來(lái)實(shí)現(xiàn)一種新型的存儲(chǔ)器。下面是STT-MRAM陣列的圖片。左邊顯示了一組內(nèi)存單元，包括其中一個(gè)內(nèi)存單元的特寫；右邊顯示了超過(guò)15種材料是如何堆疊起來(lái)形成這些設(shè)備的。每個(gè)薄膜的厚度從0.2nm到2nm不等。相比之下，你可能會(huì)想起大約十年前的一項(xiàng)創(chuàng)新——高k金屬門（HKMG），HKMG涉及大約6種新材料，每一種大約1納米厚。

以STT-MRAM集成材料系統(tǒng)為例，所有的加工都必須在真空環(huán)境中進(jìn)行——事實(shí)上，在-9到-10托的更強(qiáng)的真空環(huán)境中進(jìn)行，而HKMG的真空環(huán)境約為-8托（1托等于1個(gè)大氣壓的1/760）。材料薄膜層之間的相互影響被稱為界面工程，就是它定義所得到器件的性能。生產(chǎn)該設(shè)備需要使用各種工藝技術(shù)，包括沉積、腐蝕和改性，所有這些都在一個(gè)集成的材料系統(tǒng)中和真空環(huán)境下小心處理。應(yīng)用材料越來(lái)越多地提供綜合材料解決方案，將新的架構(gòu)創(chuàng)新帶入行業(yè)。這就是為什么我們的客戶越來(lái)越多地在先進(jìn)的節(jié)點(diǎn)和設(shè)備上與我們合作，以證明這些解決方案是否可行，并為大規(guī)模生產(chǎn)和商用做準(zhǔn)備。

總結(jié)

總之，有兩條關(guān)鍵信息要傳遞給你。首先，人工智能工作負(fù)載（即機(jī)器學(xué)習(xí)、深度學(xué)習(xí)）需要處理數(shù)據(jù)的新方法——我們稱之為架構(gòu)創(chuàng)新。其次，人工智能架構(gòu)需要材料工程的突破。在應(yīng)用材料領(lǐng)域，我們很興奮地預(yù)見到人工智能將為材料工程帶來(lái)巨大的增長(zhǎng)機(jī)會(huì)。