谷歌用AI設(shè)計(jì)AI芯片,不到24小時(shí)設(shè)計(jì)出Tensor處理單元
雷鋒網(wǎng)按:芯片按月甚至年計(jì)算的設(shè)計(jì)周期與AI算法按周甚至按天迭代的周期之前的矛盾越來越明顯,為了能夠保證設(shè)計(jì)出的芯片能夠更好地滿足快速迭代的算法,Google團(tuán)隊(duì)將AI強(qiáng)化學(xué)習(xí)方法應(yīng)用于芯片設(shè)計(jì)中復(fù)雜的“布局”工作當(dāng)中,獲得了顯著的效果提升。而兩大EDA巨頭Synopsys和Cadence也推出了具有AI功能的工具??磥?,AI應(yīng)用于AI芯片的趨勢已經(jīng)顯現(xiàn)。
圖片來源 :iStockphoto
如今許多人在大量的資金支持下通過大量的工作來開發(fā)新的AI芯片,這些芯片的目的是更快和更高效地執(zhí)行AI算法。但問題在于,芯片的設(shè)計(jì)通常需要花費(fèi)一兩年甚至三五年時(shí)間,并且機(jī)器學(xué)習(xí)(ML)算法的發(fā)展速度非???,這么長的芯片設(shè)計(jì)周期難以滿足算法更新的需求。
理想情況下,你設(shè)計(jì)出的芯片是能夠很好地滿足當(dāng)今AI算法的需求,而不是兩到五年前的AI算法。而Google的解決方案是——讓AI設(shè)計(jì)AI芯片。
Arxiv網(wǎng)站上的一篇論文的作者寫道:“我們相信,AI將能夠縮短芯片的設(shè)計(jì)周期,在硬件與AI算法之間建立共生關(guān)系,并進(jìn)一步推動彼此的進(jìn)步?!薄?/p>
“我們已經(jīng)看到,有些算法或神經(jīng)網(wǎng)絡(luò)架構(gòu)在現(xiàn)有的AI加速器上效果不佳,因?yàn)榧铀倨髟O(shè)計(jì)類似于兩年前,而那時(shí)這些神經(jīng)網(wǎng)絡(luò)架構(gòu)和算法并不存在。” Google的高級研究科學(xué)家Azalia Mirhoseini表示,“如果縮短設(shè)計(jì)周期,我們可以縮小差距?!?/p>
Mirhoseini和高級軟件工程師Anna Goldie提出了一個(gè)神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)并設(shè)計(jì)一些需要耗費(fèi)大量時(shí)間的部分,這個(gè)工作被稱作“布局”。在對芯片設(shè)計(jì)進(jìn)行了足夠長時(shí)間的學(xué)習(xí)之后,它可以在不到24小時(shí)的時(shí)間內(nèi)為Google Tensor處理單元完成設(shè)計(jì),在功耗、性能、面積(PPA)都超過了人類專家數(shù)周的設(shè)計(jì)成果。
布局之所以如此復(fù)雜且耗時(shí),是因?yàn)樗婕暗讲季诌壿嫼蛢?nèi)存塊,或這些塊的群集(也稱為宏),要達(dá)到芯片功耗和性能最大化,而芯片面積最小。這當(dāng)中面臨的挑戰(zhàn)是,必須在遵守互連密度規(guī)則的同時(shí)進(jìn)行所有這些工作。
Goldie和Mirhoseini的目標(biāo)之所以在芯片的布局,是因?yàn)榧词故褂卯?dāng)今的先進(jìn)的設(shè)計(jì)工具,也需要人類專家花費(fèi)數(shù)周的時(shí)間迭代才能得出可接受的設(shè)計(jì)。
Goldie和Mirhoseini將芯片布局建模為強(qiáng)化學(xué)習(xí)問題。與典型的深度學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)系統(tǒng)不會使用大量標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練。相反,他們會邊做邊學(xué),并在成功時(shí)根據(jù)有效信號調(diào)整網(wǎng)絡(luò)中的參數(shù)。在這種情況下,有效是降低功率、改善性能和減少面積組合的替代指標(biāo)。
結(jié)果就是,布局機(jī)器人執(zhí)行的設(shè)計(jì)越多,其效果就會越好。
該團(tuán)隊(duì)希望像他們一樣的AI系統(tǒng)能引領(lǐng),在相同時(shí)間內(nèi)設(shè)計(jì)更多的芯片,并且運(yùn)行速度更快、功耗更低、制造成本更低、芯片的面積更小的設(shè)計(jì)。
除了谷歌,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))此前也報(bào)道兩大EDA巨頭也開始在其芯片設(shè)計(jì)工具中加入AI。Synopsys推出的是用于芯片設(shè)計(jì)的自主AI應(yīng)用程序——DSO.ai(Design Space Optimization AI)。DSO.ai通過獲取由芯片設(shè)計(jì)工具生成的大數(shù)據(jù)流,并用其來探索搜索空間、觀察設(shè)計(jì)隨時(shí)間的演變情況,同時(shí)調(diào)整設(shè)計(jì)選擇、技術(shù)參數(shù)和工作流程,以指導(dǎo)探索過程向多維優(yōu)化的目標(biāo)發(fā)展。
Cadence也推出了新版Cadence數(shù)字全流程,這一新版的流程采用了支持機(jī)器學(xué)習(xí)(ML)功能的統(tǒng)一布局布線和物理優(yōu)化引擎等多項(xiàng)業(yè)界首創(chuàng)技術(shù),吞吐量最高提升3倍,PPA最高提升20%。
總的來說,兩大EDA公司加入AI的芯片設(shè)計(jì)工具可以縮短芯片的設(shè)計(jì)時(shí)間高達(dá)10倍,芯片PPA提升20%。