AI從云端轉(zhuǎn)向邊緣,新架構(gòu)順勢(shì)興起!
隨著人工智能(AI)能力從云端轉(zhuǎn)向邊緣,芯片制造商必然會(huì)找到可行的方法,在更小、更高效,且成本更低的設(shè)備中實(shí)現(xiàn)各種AI功能,比如神經(jīng)網(wǎng)絡(luò)處理和語音識(shí)別等。
在數(shù)據(jù)中心執(zhí)行繁重任務(wù)的大型昂貴的AI加速器不大可能適合邊緣設(shè)備。針對(duì)特定應(yīng)用的尺寸、價(jià)格和功耗等要求,在邊緣設(shè)備中實(shí)施AI的爭(zhēng)奪戰(zhàn)已經(jīng)打響,各種芯片方案競(jìng)相登場(chǎng),包括CPU、GPU、FPGA、DSP,甚至微控制器(MCU)。
在最近舉行的Linley處理器研討會(huì)上,Cadence設(shè)計(jì)系統(tǒng)公司和Flex Logix技術(shù)公司分別發(fā)布了專門針對(duì)邊緣AI的設(shè)計(jì)架構(gòu)。兩種架構(gòu)都專注于將AI功能引入邊緣節(jié)點(diǎn)設(shè)備,而且重點(diǎn)是減少內(nèi)存占用。
Semico Research的高級(jí)分析師Rich Wawrzyniak表示,“并非一切都在云端,帶有AI功能的終端設(shè)備將成為主流。”
據(jù)Tirias Research首席分析師Jim McGregor稱,大多數(shù)即將面市的解決方案仍然是“一定程度的混合方案,即大部分處理任務(wù)在邊緣進(jìn)行,但必要時(shí)還是要在云端處理,除非只想聽特定的詞語或聲音。”
“我們確實(shí)看到更多語音處理在邊緣完成的發(fā)展趨勢(shì),”Tirias分析師Kevin Krewell說道。 “將所有語音數(shù)據(jù)發(fā)送到云端會(huì)有隱私問題。而且邊緣處理還可以減少延遲響應(yīng)。此外,邊緣端的處理能力也越來越強(qiáng)。”
McGregor表示,使用DSP是邊緣處理的最有效方式。 “然而,我看到Alexa智能音箱使用的處理器是ST公司的STM32 MCU。”
Cadence的Tensilica HiFi 5 DSP專注于實(shí)現(xiàn)語音識(shí)別和基于神經(jīng)網(wǎng)絡(luò)的處理,而Flex Logix的NMAX架構(gòu)則專為更復(fù)雜的神經(jīng)網(wǎng)絡(luò)推理而設(shè)計(jì)。兩家都聲稱其架構(gòu)在成本、性能和功耗方面都比現(xiàn)有架構(gòu)具有顯著優(yōu)勢(shì)。
根據(jù)Wawrzyniak的說法,新的架構(gòu)代表著IP供應(yīng)商的升級(jí),他們開始提供專門用于AI的IP。他補(bǔ)充道,目前在AI中使用的大部分IP都是針對(duì)通用SoC的IP類型。 “隨著應(yīng)用變得更加專精,IP開發(fā)商將會(huì)推出更多專為AI而優(yōu)化的產(chǎn)品。”
NMAX神經(jīng)推理引擎
Flex Logix是一家成立僅四年的初創(chuàng)公司,以嵌入式FPGA而聞名,宣稱其NMAX神經(jīng)推理引擎可以在模塊化、可擴(kuò)展的架構(gòu)中達(dá)到100萬億次操作/秒(TOPS)的神經(jīng)推理性能,而所需DRAM帶寬只是競(jìng)爭(zhēng)技術(shù)的很小一部分。
Flex Logix首席執(zhí)行官Geoff Tate表示,其互連技術(shù)可有效應(yīng)對(duì)神經(jīng)網(wǎng)絡(luò)推理中的最大挑戰(zhàn),即最小化數(shù)據(jù)移動(dòng)和功耗。跟該公司的eFPGA一樣,NMAX采用平鋪方式,可讓用戶根據(jù)需要擴(kuò)展陣列。他說,NMAX平鋪可以按照所需TOPS的配置來排列,可根據(jù)需要使用不同數(shù)量的SRAM,最高可達(dá)100TOPS峰值性能。
NMAX512平鋪架構(gòu)。(資料來源:Flex Logix)
這種架構(gòu)還帶有分布式的片上SRAM,可根據(jù)需要進(jìn)行重新配置,這是針對(duì)不同數(shù)據(jù)大小的優(yōu)勢(shì)。它還具有互連功能,可以在SRAM輸入組、MAC群集和每級(jí)激活到SRAM輸出組之間重新配置連接。
Tate還表示,NMAX即使在小批量處理中也能迅速執(zhí)行神經(jīng)網(wǎng)絡(luò)推理,這是Nvidia和Habana Labs等推理引擎難以做到的,因?yàn)槊繉蛹虞d需要很多時(shí)間。他補(bǔ)充說,小批量處理對(duì)邊緣應(yīng)用尤為重要,因?yàn)樾枰M量減少延遲。他還展示了NMAX在28、10和1等不同批量的處理數(shù)據(jù),每秒可處理多達(dá)19,000個(gè)ResNet-50圖像。
“通常情況下,現(xiàn)有架構(gòu)在大批量處理中具有良好的吞吐量,但在較小的批量處理中卻不太好,因?yàn)榧虞d需要很長(zhǎng)時(shí)間,”Tate向EE Times解釋道。
ResNet-50在低批量處理中的性能比較。(資料來源:Flex Logix)
Tate強(qiáng)調(diào),Nvidia的Tesla T4和Habana的Goya要比NMAX需要更多的DRAM帶寬。 “最根本的是,我們的價(jià)格將比其他人便宜10倍,”他說。 “他們需要8個(gè)DRAM來獲得這個(gè)吞吐量,而我們只用一個(gè)DRAM就夠了。”
NMAX仍處于開發(fā)階段,預(yù)計(jì)將于2019年下半年開始供貨。Flex Logix計(jì)劃在2019年春季Linley處理器研討會(huì)上展示該技術(shù)的進(jìn)展情況。
再看Cadence,其Tensilica HiFi 5是一種用于音頻和語音處理的DSP內(nèi)核,專門針對(duì)遠(yuǎn)場(chǎng)處理和基于AI的語音識(shí)別處理進(jìn)行了優(yōu)化。這是流行的Tensilica DSP系列的第五代產(chǎn)品,是獲得業(yè)界最廣泛授權(quán)和認(rèn)可的音頻、視頻和語音DSP,其年出貨量已經(jīng)超過10億。據(jù)Cadence稱,跟其上一代HiFi 4相比,HiFi 5具有兩倍的音頻處理能力和四倍的神經(jīng)網(wǎng)絡(luò)處理性能提升。
Tensilica HiFi 5架構(gòu)。(資料來源:Cadence)
HiFi 5與HiFi系列的其它產(chǎn)品在軟件上具有兼容性,包括300多個(gè)HiFi優(yōu)化的音頻和語音編解碼器,以及音頻增強(qiáng)軟件包。Cadence還推出了一個(gè)新的庫(kù),它可提供一組優(yōu)化的庫(kù)函數(shù),特別適用于神經(jīng)網(wǎng)絡(luò)處理------尤其是語音,可以集成到流行的機(jī)器學(xué)習(xí)框架中。
Cadence宣布,位于德州奧斯汀的亞閾值晶體管微控制器開發(fā)商Ambiq Micro是第一家獲得HiFi 5授權(quán)的客戶。