如何在資源有限的邊緣端實(shí)現(xiàn)高效AI? Cadence發(fā)布DNA 100和HiFi 5兩款全新DSP IP
想要實(shí)現(xiàn)更有效率的人工智能體驗(yàn),很多工作都需要在設(shè)備端直接完成。在視覺(jué)識(shí)別和語(yǔ)音助手這兩大熱門應(yīng)用中,常常都會(huì)見(jiàn)到DSP的身影;而Cadece的Tensilica系列DSP產(chǎn)品,一直受到華為等諸多廠商的喜愛(ài)。近日,Cadence在北京召開(kāi)了發(fā)布會(huì),發(fā)布了全新的DNA100和HiFi5的產(chǎn)品。作為Vision系列和HiFi系列的最新產(chǎn)品,有何高明之處?Cadence公司IP事業(yè)部Tensilica資深產(chǎn)品總監(jiān)Lazaar Louis先生和IP事業(yè)部Tensilica技術(shù)營(yíng)銷總監(jiān)Yipeng Liu進(jìn)行了詳細(xì)的講解。
DNA100: 通過(guò)稀疏計(jì)算引擎實(shí)現(xiàn)高效人工智能結(jié)構(gòu)
Cadence最新發(fā)布的DNA 100是其首款神經(jīng)網(wǎng)絡(luò)加速器IP,作為端側(cè)的運(yùn)算單元,功耗仍然是客戶非常敏感的指標(biāo);從0.5到數(shù)百TMAC均可實(shí)現(xiàn)高性能和高能效。換言之,不論是電池驅(qū)動(dòng)的小型IoT設(shè)備,還是譬如手機(jī)等多核處理器中,DNA 100均可發(fā)揮巨大作用。
相較其它采用相似陣列尺寸大小的乘法累加運(yùn)輸商解決方案,DNA 100的性能提升高達(dá)4.7倍,每瓦性能提高2.3倍。據(jù)悉,這種性能提升和功耗的降低得益于其采用了稀疏計(jì)算引擎。“神經(jīng)網(wǎng)絡(luò)的特征在于權(quán)重和激活函數(shù)的固有稀疏度,加載和乘以零會(huì)早晨其它處理器不必要的MAC消耗。DNA 100移除了這兩項(xiàng)任務(wù),利用稀疏度提高能效并降低計(jì)算量。神經(jīng)網(wǎng)絡(luò)再訓(xùn)練有助于提高網(wǎng)絡(luò)的稀疏度,并通過(guò)DNA 100處理器的稀疏計(jì)算引擎實(shí)現(xiàn)最高性能。DNA 100處理器能夠利用更小的陣列實(shí)現(xiàn)最大吞吐量。作為例證,4K MAC配置環(huán)境下,ResNet 50推理性能預(yù)計(jì)能實(shí)現(xiàn)每秒高達(dá)2550幀(fps)和3.4TMAC / W(在16 nm工藝)。”
稀疏計(jì)算引擎專門處理卷積階段以及完全連接的分類層的任務(wù)。 單個(gè)稀疏計(jì)算引擎可以在256,512或1024 MAC中擴(kuò)展,之后IP通過(guò)添加更多引擎進(jìn)行擴(kuò)展,上圖中可見(jiàn)最多可以達(dá)到4個(gè)引擎。 這意味著最大配置的單個(gè)DNA 100硬件塊最多包含4096個(gè)MAC。
帶寬是限制NN硬件效率的一個(gè)關(guān)鍵瓶頸,因此壓縮帶寬是實(shí)現(xiàn)最佳性能必備條件。就原始帶寬而言,DNA 100提供了從1到4 AXI 128或256位接口,這意味著在最寬的配置中,最高可達(dá)1024位總線寬度。
Cadence仍然提供DNA 100和Vision Q6產(chǎn)品的耦合使用方案,可以在執(zhí)行某些特定NN運(yùn)算時(shí)實(shí)現(xiàn)更高效率。這種方案相較之前的P6+C5的方案有了很大提升,客戶也可以進(jìn)行深度的定制。
在軟件方面,Cadence提供完整的軟件堆棧和神經(jīng)網(wǎng)絡(luò)編譯器,以方便客戶充分利用硬件,包括網(wǎng)絡(luò)分析儀和優(yōu)化器以及所需的設(shè)備驅(qū)動(dòng)程序。Cadence最近還宣布將支持Facebook的Glow編譯器——一種跨硬件平臺(tái)的機(jī)器學(xué)習(xí)編譯器。
HiFi5:實(shí)現(xiàn)設(shè)備端語(yǔ)音UI
隨著家庭數(shù)字語(yǔ)音助手的興起,HiFi 4得到了大量的應(yīng)用,而數(shù)字語(yǔ)音助手的下一個(gè)升級(jí)體驗(yàn)是實(shí)現(xiàn)更好的語(yǔ)音UI,這需要更好的原場(chǎng)處理算法和基于NN的語(yǔ)音識(shí)別,HiFi5將幫助客戶實(shí)現(xiàn)這一設(shè)計(jì)。重點(diǎn)仍然是,能在端側(cè)完成的 ,要實(shí)現(xiàn)快速反饋,這樣才能帶來(lái)更好的用戶體驗(yàn)。
高性能的DSP核是語(yǔ)音UI實(shí)現(xiàn)的關(guān)鍵器件,另外,還需要耕地精度的NN內(nèi)存權(quán)重,以減少內(nèi)存大小和帶寬需求;這兩個(gè)指標(biāo)在端側(cè)同樣是非常敏感的資源,如此這般才能構(gòu)建節(jié)能高效的邊緣語(yǔ)音交互設(shè)備。
HiFi 5可根據(jù)其可使用的執(zhí)行單元和內(nèi)存控制器進(jìn)行配置。 為了支持波束成形等任務(wù),DSP管道能夠使用浮點(diǎn)數(shù)。而在DNN的工作任務(wù)中,DSP的管道可以由浮點(diǎn)單元轉(zhuǎn)為專注于低分辨率定點(diǎn)運(yùn)算,降低到多個(gè)8x8并行乘法;或者可以在沒(méi)有用于傳統(tǒng)音頻處理的DNN聚焦模式的情況下部署DSP。同樣的,因?yàn)椴捎昧似鋵S械南∈栌?jì)算引擎,因此可以減少零權(quán)重操作以及壓縮帶寬,從而實(shí)現(xiàn)更高效能。此特性已經(jīng)在DNA 100的介紹中提及,此處不再贅述。
作為HiFi 4的升級(jí)產(chǎn)品,HiFi 5的預(yù)處理和后處理的MAC性能提高2倍;神經(jīng)網(wǎng)絡(luò)處理MAC性能提高4倍;而且提供專門優(yōu)化的函數(shù)庫(kù),可以與主流機(jī)器學(xué)習(xí)框架集成;兼容HiFi產(chǎn)品線300多個(gè)語(yǔ)音增強(qiáng)軟件包。
據(jù)悉,首批客戶之一是Ambiq Micro,想必大家并不陌生,這是一家專門構(gòu)建電池驅(qū)動(dòng)音頻控制器的廠商。
未來(lái)端側(cè)的高性能推理的工作將越來(lái)越多,比如汽車的自動(dòng)駕駛、語(yǔ)音UI、物聯(lián)網(wǎng)邊緣的AI處理以及手機(jī)AI強(qiáng)化。如何在有限的資源條件下,實(shí)現(xiàn)實(shí)時(shí)高效的AI處理,這是端側(cè)需要解決的問(wèn)題。而這一問(wèn)題的解決,Cadence的DNA 100和HiFi 5無(wú)疑都是最佳助手。