AI芯片如何保持芯片通用性
掃描二維碼
隨時(shí)隨地手機(jī)看文章
神經(jīng)網(wǎng)絡(luò)計(jì)算芯片已經(jīng)引起了全球各個(gè)學(xué)院/企業(yè)的廣泛關(guān)注,“軟件定義芯片”相關(guān)研究,適應(yīng)AI算法不斷變化的重要研究方向。但是芯片的性能跟通用性常常是一個(gè)“魚和熊掌不可兼得”的選項(xiàng),如何讓AI芯片兼?zhèn)湫阅芎屯ㄓ眯裕?/p>
在機(jī)器學(xué)習(xí)算法不斷變化、人工智能應(yīng)用不斷增多的當(dāng)下,神經(jīng)網(wǎng)絡(luò)計(jì)算芯片(AI芯片)的設(shè)計(jì)者們所思考的一個(gè)關(guān)鍵問(wèn)題開始浮出水面——如何在保證AI芯片性能/功耗表現(xiàn)優(yōu)秀的同時(shí),盡可能的在更多人工智能算法上通用。
目前市面上陸續(xù)涌現(xiàn)的AI芯片中,有不少都采用了重新設(shè)計(jì)芯片底層架構(gòu)的方式,來(lái)平衡AI芯片的性能與AI算法通用性之間“魚與熊掌不可兼得”的矛盾,突出玩家有寒武紀(jì)、谷歌TPU項(xiàng)目等等。
產(chǎn)業(yè)界如此熱火產(chǎn)天的發(fā)展,離不開學(xué)術(shù)界此前的長(zhǎng)久積累。在過(guò)去的十幾年里,清華微電子所的可重構(gòu)計(jì)算團(tuán)隊(duì)一直在研究一項(xiàng)核心技術(shù)——“軟件定義芯片”,前年,他們推出了一款代號(hào)為Thinker 1的AI芯片,這款芯片不僅能夠支持人臉識(shí)別、語(yǔ)音識(shí)別的AI算法,而且芯片的功耗非常小——只需要7號(hào)AA電池就夠讓它運(yùn)行一整年。
在2018年的春節(jié)前夕,記者專門來(lái)到清華大學(xué)校園里,與GTIC 2018重磅嘉賓之一,清華大學(xué)微電子研究所所長(zhǎng)、中國(guó)半導(dǎo)體行業(yè)協(xié)會(huì)IC設(shè)計(jì)分會(huì)理事長(zhǎng)、我國(guó)半導(dǎo)體行業(yè)“男神”級(jí)人物魏少軍教授圍繞著AI芯片的話題展開了獨(dú)家對(duì)話。魏少軍教授有著數(shù)十年半導(dǎo)體行業(yè)經(jīng)驗(yàn),對(duì)我國(guó)半導(dǎo)體產(chǎn)業(yè)有著深刻的認(rèn)識(shí),看法往往一針見血。
他認(rèn)為,目前芯片架構(gòu)創(chuàng)新已經(jīng)引起了全球各個(gè)學(xué)院/企業(yè)的廣泛關(guān)注,尤其是“軟件定義芯片”相關(guān)研究,更是提升AI芯片的應(yīng)用范疇、適應(yīng)AI算法不斷變化的重要研究方向。在今明兩年之內(nèi)AI芯片將持續(xù)火熱,但是到了2020年前后則會(huì)行業(yè)洗牌,出現(xiàn)第一批出局者。
一、性能 vs 靈活:魚與熊掌不可兼得芯片的性能跟通用性常常是一個(gè)“魚和熊掌不可兼得”的選項(xiàng),傳統(tǒng)架構(gòu)下,一個(gè)芯片在某些特定領(lǐng)域的性能越強(qiáng)、功耗越低,它往往就越不靈活、越不通用。舉個(gè)例子,華為Mate 10里的麒麟970芯片用于手機(jī)的性能非常強(qiáng)大,但是它并不適用于安防攝像頭、可穿戴手環(huán)等場(chǎng)景;同理,一個(gè)CPU能夠靈活地處理眾多不同任務(wù),但是它在某些特定任務(wù)上往往性能不夠強(qiáng)大,比如在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練上的性能不如GPU。
而ASIC這類專用芯片的位置,則介乎于手機(jī)SoC這類標(biāo)準(zhǔn)芯片、與CPU這類通用芯片之間——這是一個(gè)非常尷尬的地位,標(biāo)準(zhǔn)芯片雖然單個(gè)開發(fā)成本高,但是單一品類出貨量非常大,很大程度上降低了芯片的單個(gè)價(jià)格;而通用芯片則相反,雖然總體出貨量不高,但是單一品類的價(jià)格很高,也能夠分?jǐn)傃邪l(fā)成本。
隨著芯片制造工藝的日益先進(jìn)(目前已經(jīng)逼近7nm),芯片制造成本也水漲船高,如今設(shè)計(jì)制造一顆10nm芯片的成本要幾千萬(wàn)美元,綜合成本高達(dá)上億美元。
因此,如果不能保證某款單一應(yīng)用場(chǎng)景下能夠大量出貨,專用芯片需要保持一定的通用性與靈活度。
最近兩年間,產(chǎn)業(yè)界開始陸續(xù)涌現(xiàn)出神經(jīng)網(wǎng)絡(luò)計(jì)算專用芯片(AI芯片),寒武紀(jì)、深鑒科技、中星微電子等玩家的AI芯片產(chǎn)品采用的都是28nm的芯片工藝,前期從投入到流片的成本超過(guò)400萬(wàn)美元,單一品類出貨量沒(méi)有百萬(wàn)的級(jí)別將很難收回成本。
而除了成本之外,AI算法的演進(jìn)也需要納入考慮。由于目前人工智能算法還在不斷變化、不斷演進(jìn)的過(guò)程中,人工智能經(jīng)歷了六十多年的發(fā)展才迎來(lái)了深度學(xué)習(xí)的大規(guī)模爆發(fā),然而現(xiàn)在深度學(xué)習(xí)算法還有眾多有待優(yōu)化的方面,比如稀疏化、低功耗、小數(shù)據(jù)訓(xùn)練等,算法尚未定型。
此外,目前語(yǔ)音/文字/圖像/視頻等不同應(yīng)用無(wú)法使用統(tǒng)一算法,然而許多實(shí)際生活中的AI應(yīng)用程序(識(shí)別圖像中的對(duì)象或理解人類語(yǔ)言)需要不同類型的具有不同層數(shù)的神經(jīng)網(wǎng)絡(luò)的組合。
因此,在確保AI應(yīng)用性能的前提下,AI芯片需要盡可能地保持芯片通用性。
目前AI芯片企業(yè)們采用的技術(shù)方案各不相同,如果將芯片通用性作為評(píng)測(cè)坐標(biāo)軸,最左邊、最激進(jìn)的企業(yè)會(huì)采用算法固化方案,這一做法成本低、芯片落地時(shí)間短、單一算法的性能與功耗比能夠做到極致,但是極大減少了芯片的通用型和靈活性;最右邊的團(tuán)隊(duì)(比如寒武紀(jì)、谷歌TPU等)則會(huì)設(shè)計(jì)一款全新的芯片架構(gòu),這一做法成本高昂、芯片研發(fā)周期長(zhǎng),但是能夠在性能與芯片通用性上達(dá)到極好的平衡。
▲清華微電子所所長(zhǎng)魏少軍教授
清華微電子所的可重構(gòu)計(jì)算團(tuán)隊(duì)就屬于坐標(biāo)軸右邊的一類,從2006年開始,清華微電子所所長(zhǎng)魏少軍教授就帶領(lǐng)著團(tuán)隊(duì)在持續(xù)深入研究這項(xiàng)重要技術(shù)——“軟件定義芯片”,又稱“可重構(gòu)計(jì)算技術(shù)”。
“軟件定義芯片”顧名思義就是讓芯片根據(jù)軟件進(jìn)行適應(yīng)與調(diào)整,這是一項(xiàng)專用芯片架構(gòu)設(shè)計(jì)上的創(chuàng)新,與傳統(tǒng)的馮諾依曼架構(gòu)有著很大的區(qū)別。簡(jiǎn)單來(lái)說(shuō)就是將軟件通過(guò)不同的管道輸送到硬件中來(lái)執(zhí)行功能,使得芯片能夠?qū)崟r(shí)地根據(jù)軟件/產(chǎn)品的需求改變功能,實(shí)現(xiàn)更加靈活的芯片設(shè)計(jì)。
也就是說(shuō),沿用這種架構(gòu)設(shè)計(jì)出來(lái)的專用芯片,可以讓芯片的計(jì)算能力按照軟件的需求來(lái)調(diào)整適應(yīng),而不是沿用傳統(tǒng)芯片設(shè)計(jì)的剛性架構(gòu),讓應(yīng)用適應(yīng)架構(gòu)。對(duì)于現(xiàn)在尚未定型/統(tǒng)一的各類AI算法而言,可重構(gòu)計(jì)算成了AI芯片設(shè)計(jì)的一個(gè)重要研究方向。