在日前舉辦的Hotchips 32會議上,美國AI初創(chuàng)企業(yè)CerebrasSystems旗下的明星產(chǎn)品WES(Wafer Scale Engine)芯片公布了第二代芯片的相關(guān)信息。據(jù)悉,WES 2代芯片核心數(shù)翻倍到了85萬個,晶體管數(shù)量翻倍到2.6萬億個,最關(guān)鍵的是,將從16nm工藝進入7nm工藝。
造出世界最大芯片,Cerebras Systems是家什么樣的公司?
作為一家在2016年才創(chuàng)立的公司,CerebrasSystems的資歷并不算長,但是卻經(jīng)歷了三輪融資,分別是2016年5月份的2700萬美元的A輪融資,2017年1月2500萬美元的B輪融資,隨后不到一年時間里,CerebrasSystems再次融資6000萬美元,彼時估值達到8.6億美元。
恰好人工智能產(chǎn)業(yè)也是在那個時候開始盛行,CerebrasSystems也因此被許多人看好。而這家公司造AI芯片就是奉行一個路子:“簡單,粗暴”。
在去年CerebrasSystems推出巨型芯片WES的時候,就引起了業(yè)界轟動。在關(guān)于WSE介紹的白皮書中,有這么一句話——“通過加速人工智能計算,WSE清除了阻礙人工智能進步的最大路障——時間。將訓(xùn)練時間從幾個月縮減為幾分鐘,從幾周減少到基瞄。讓深度學(xué)習(xí)實踐者更快的驗證自己的假設(shè),從而不用去擔(dān)心一些體系機構(gòu)導(dǎo)致無法測試或者太大風(fēng)險。WSE降低了好奇心的成本,加速了人工智能新思想和新技術(shù)的到來?!?
在WES這顆采用臺積電16nm工藝,面積46000平方毫米,擁有1.2 萬億個晶體管40萬個核心,片上18G內(nèi)存的芯片上,性能之強大讓當(dāng)時的芯片“大塊頭”甘拜下風(fēng)。
比如英偉達的GV100芯片也不過用上了211億晶體管,核心面積815mm2,所以WSE芯片晶體管數(shù)量是最強GPU芯片的60倍,面積則是它的56倍多。WSE與當(dāng)時的CPU芯片相比同樣震撼,AMD的64核EPYC二代處理器才320億晶體管,封裝總面積也不過4410平方毫米,光是核心面積WSE就是EPYC二代處理器的10倍有余。
從性能上來看,WES芯片帶寬超過100Pb/s,一般的計算芯片以Tb/s級別的單位都難以跟起比較??傊琖ES芯片的出現(xiàn)堪稱芯片工藝史上的一大“奇跡”。不出預(yù)料的話,WES 2代芯片性能跟價格都會大幅提升。
雖然CerebrasSystems造出芯片的芯片性能確實強大,但是投入的成本也十分高昂,不是哪個公司都有這個實力“燒錢”玩的。據(jù)悉一塊WES芯片的價格約在200萬美元(約合人民幣1384萬元)左右,在當(dāng)時也只有美國國家科學(xué)基金會(NSF)為了打造超算CS-1而購買了WES芯片。
性能為先,芯片是不是越大就越好?
目前,象CerebrasSystems一樣專門走巨型芯片路線的企業(yè)少之又少,這可能除了是他們的企業(yè)特色以外,也涉及大整個芯片產(chǎn)業(yè)對于芯片大小的共同認知。
之前就有人提出過這么一個問題,現(xiàn)在廠家都專注與縮小晶體管尺寸,目的就是為了在芯片內(nèi)部打造更大規(guī)模的集成電路,那為什么不通過增大芯片的面積來提高性能?
首先從構(gòu)造上來說,如果是將芯片面積越大來保證刻畫更多的電路,實際上不會減少電路布線的復(fù)雜程度,反而還更難。大芯片也也意味著片內(nèi)器件之間的傳輸要走更長的互連線進行傳輸,造成信號傳輸延遲,可能有人會覺得都是在一塊芯片上,能延遲多少?可是當(dāng)你將不同芯片內(nèi)部放大一百、一千倍來看就會發(fā)現(xiàn)延遲快慢的差距了。而更長、更多、更復(fù)雜的互連線也意味著在芯片設(shè)計的過程中,工程師要更周全地考慮阻抗匹配、信號中斷等問題。
二是功耗成本問題,現(xiàn)在的芯片廠商為什么想把芯片做小?就是為了降低功耗,芯片的功耗直接和金屬的寄生電容成正比,更寬的線寬會導(dǎo)致更大的功耗。同樣,晶體管體積縮小也是為了降低功耗,可是同時卻增加了翻倍的數(shù)量,還怎么談降耗?同時還需要提供更大的供電輸入,更強的散熱處理,都會讓成本增加。
最后一個也是最重要的一個問題,良品率。很多公司都會提到良品率問題,一般來說芯片良品率隨核心面積指數(shù)降低,成本指數(shù)上升。芯片的設(shè)計和生產(chǎn)過程極度復(fù)雜,尤其是芯片面積越大,在晶圓片上刻畫的電路也越多越復(fù)雜,越容易失敗。
當(dāng)然有些失敗不會影響整個芯片的大體性能,只是說會讓其產(chǎn)生“瑕疵”,而這種有瑕疵的芯片也刻意正常使用,但就是廠商可能會把有瑕疵的模塊直接關(guān)閉,芯片也就缺失某些功能。