通用MCU上添加硬件NPU單元,實(shí)現(xiàn)30倍于Cortex-M33的AI加速能力
AI和ML的運(yùn)算正在從云端向邊緣端遷移,計(jì)算重心的前置帶來(lái)的好處不言而喻。而這種邊緣AI,并不會(huì)止步于手機(jī)、電腦這些具備SoC級(jí)別算力的終端,而是會(huì)繼續(xù)向著數(shù)百億的MCU為主控的物聯(lián)網(wǎng)設(shè)備蔓延。除此外,無(wú)線連接、安全性等特性也愈發(fā)重要,通用MCU平臺(tái)的新紀(jì)元即將到來(lái)。NXP敏銳捕捉到這一機(jī)遇,于近日推出了其通用MCU平臺(tái)下的新系列產(chǎn)品——MCX微控制器產(chǎn)品組合。
“以前提到好控制器的標(biāo)準(zhǔn)就是:按下按鈕就有很快的反應(yīng),但現(xiàn)在遠(yuǎn)不止這樣,我們希望處理器本身有預(yù)知性,這就需要引入人工智能的要素。所以,我相信越來(lái)越多的落地的項(xiàng)目會(huì)要求邊緣計(jì)算平臺(tái)擁有越來(lái)越多的AI功能支持。”恩智浦大中華區(qū)工業(yè)與物聯(lián)網(wǎng)市場(chǎng)高級(jí)總監(jiān)金宇杰在媒體會(huì)上分享到。
MCX MCU:集合LPC、Kinetis傳統(tǒng)優(yōu)勢(shì),聚集邊緣計(jì)算未來(lái)需求
NXP有三大類邊緣計(jì)算平臺(tái),分別是通用MCU平臺(tái)(LPC、Kinetis),跨界MCU i.MX RT系列,以及i.MX和Layerscape系列應(yīng)用處理器;這三大類產(chǎn)品構(gòu)筑了NXP廣闊而豐富的可拓展的邊緣計(jì)算平臺(tái)。近年來(lái)新推出的跨界MCU,填補(bǔ)了MPU和MCU之間的市場(chǎng)空隙,獲得了非常好的市場(chǎng)反響。
而在通用MCU市場(chǎng),一個(gè)新的紀(jì)元也即將開(kāi)啟。據(jù)IHS預(yù)測(cè)2030年將會(huì)有750億個(gè)聯(lián)網(wǎng)設(shè)備,這帶來(lái)了新的MCU應(yīng)用需求。低功耗、無(wú)線連接、安全、高性能和AI能力的追求,成為了新的通用MCU的必備能力。而且同一MCU平臺(tái)需要具有靈活的可遷移性,方便開(kāi)發(fā)者進(jìn)行設(shè)計(jì)的遷移。
基于以上關(guān)于智能邊緣的種種趨勢(shì),NXP推出了全新的通用MCU平臺(tái)——MCX微控制器產(chǎn)品組合。這一平臺(tái)融合了LPC、Kinetis傳統(tǒng)優(yōu)勢(shì),從它們手中接過(guò)了接力棒,將會(huì)開(kāi)啟下一段智能邊緣的征程。
四大系列
據(jù)悉MCX將首先基于Arm Cortex-M33內(nèi)核來(lái)進(jìn)行設(shè)計(jì),此次發(fā)布為MCX平臺(tái)的首次曝光,因此并沒(méi)有實(shí)際出貨型號(hào),但非常清晰地給大家展示了其四大產(chǎn)品布局。
MCX N高性能系列:工作頻率為150~250MHz,首次將NPU和DSP這兩個(gè)元素放到了MCU中。此外,也嵌入了恩智浦特有的安全系統(tǒng)——EdgeLock。
MCX A基準(zhǔn)系列:工作頻率在48~96MHz,內(nèi)置定時(shí)器、低引腳數(shù)、單引腳電源,針對(duì)成本受限應(yīng)用進(jìn)行了優(yōu)化。
MCX W無(wú)線連接系列:工作頻率在32~150MHz,集成低功耗的藍(lán)牙無(wú)線模塊,另外也將會(huì)盡量高度集成一些外圍的器件,使得關(guān)聯(lián)的整個(gè)BOM減少、整體板集成度降低。
MCX L超低功耗系列,工作頻率在50~100MHz,該系列針對(duì)低功耗需求應(yīng)用進(jìn)行了優(yōu)化,并且集成了原來(lái)的LPC里成功的低功耗,力求超低的動(dòng)態(tài)功耗和非常低的泄漏功耗。
一個(gè)平臺(tái),更容易的設(shè)計(jì)擴(kuò)展和遷移
因?yàn)椴捎昧送粋€(gè)平臺(tái),擁有眾多寬廣的產(chǎn)品型號(hào),所以開(kāi)發(fā)者在不同MCU之間進(jìn)行設(shè)計(jì)拓展和遷移時(shí)的難度會(huì)更低。
“MCX是恩智浦推出的全新MCU家族,也是一個(gè)嶄新的、發(fā)揮了承上啟下作用的品牌?!倍髦瞧诌吘壧幚硎聵I(yè)部系統(tǒng)工程高級(jí)總監(jiān)王朋朋分享到,“恩智浦在MCU家族中提供了N、L、W、A四個(gè)不同的系列。它可以在跨界處理器和應(yīng)用處理器之間進(jìn)行無(wú)縫銜接,具有比較好的拓展性;安全功能方面,MCX集成了EdgeLock安全處理單元,繼承了恩智浦一貫高安全性特點(diǎn)和可靠的性能;在系統(tǒng)設(shè)計(jì)上,新的產(chǎn)品系列受到恩智浦MCUXpresso軟件套件和開(kāi)發(fā)工具的廣泛支持,在開(kāi)發(fā)過(guò)程中,不論是從之前的LPC、Kinetis移植,還是設(shè)計(jì)未來(lái)的產(chǎn)品,都會(huì)是一個(gè)很簡(jiǎn)單、無(wú)縫地銜接過(guò)程?!?
NPU集成進(jìn)通用MCU:適合的核、適合的任務(wù)、適合的時(shí)機(jī)
在傳統(tǒng)的通用MCU上做AI和ML的應(yīng)用,并不新鮮,但困難并不小,而且從整個(gè)系統(tǒng)的評(píng)估角度而言,并不是那么“合適”。
要將一些成熟的算法部署到MCU的CPU核上,大模型是不現(xiàn)實(shí)的,算法的適配需要花費(fèi)極大的工作,而這對(duì)于長(zhǎng)于做控制的MCU開(kāi)發(fā)者而言,是頗為不易的。所以其實(shí)目前MCU廠商都有推出相應(yīng)的AI開(kāi)發(fā)工具包,或者是例程,供開(kāi)發(fā)者使用。
但另一個(gè)不能克服的問(wèn)題在于,MCU的CPU核并不適合做AI和ML的運(yùn)算,這將會(huì)極大地占用其計(jì)算資源。高度依賴CPU核和FPU等硬件資源,也會(huì)帶來(lái)功耗的上升,從系統(tǒng)角度來(lái)看并不是合適的做法。
從成本角度考慮,一個(gè)簡(jiǎn)單的AI任務(wù),可能就需要非常高主頻的M7的核心來(lái)處理,才會(huì)達(dá)到符合實(shí)際應(yīng)用響應(yīng)速度的結(jié)果,這也有點(diǎn)違背我們?cè)谶吘墏?cè)的設(shè)計(jì)追求。
因此,在通用MCU中添加一個(gè)硬件NPU,來(lái)為一些邊緣側(cè)通用的AI運(yùn)算進(jìn)行專門(mén)的加速,成為了解決問(wèn)題最好的答案。CPU核可以專注于自己擅長(zhǎng)的計(jì)算任務(wù),將AI ML的運(yùn)算交給NPU。
MCX N系列恰恰就是在合適的時(shí)機(jī)推出、讓適合的核去做適合的任務(wù),從而幫助開(kāi)發(fā)者實(shí)現(xiàn)未來(lái)智能邊緣更好的設(shè)計(jì)。
恩智浦NPU加速器
據(jù)王朋朋介紹,該NPU為NXP的自研硬件IP,在MCU領(lǐng)域中,集成神經(jīng)處理單元應(yīng)該說(shuō)是迎合了這個(gè)時(shí)代。
NPU作為CPU的AI運(yùn)算協(xié)處理器,其內(nèi)部最主要是擁有專門(mén)的計(jì)算通道。如上圖所示為NXP的NPU的最小示例,這是一個(gè)4×4的計(jì)算處理單元,其中就包含四個(gè)計(jì)算管道,每個(gè)計(jì)算管道里有四個(gè)計(jì)算單元。
在性能層面,該NPU可以覆蓋從32次運(yùn)算/周期到2000次運(yùn)算/周期,并且未來(lái)還可以擴(kuò)展到更高的性能或更小的單元。NXP的整個(gè)MCU、MPU家族里,都會(huì)采用統(tǒng)一的NPU架構(gòu),提供更高性能的NPU的加速器。通過(guò)一致的NPU架構(gòu),同樣的算法也更容易從MPU遷移到MCU平臺(tái)上。
集成NPU的意義
“人工智能、機(jī)器學(xué)習(xí)的運(yùn)算非常集中也非常簡(jiǎn)單,就是做卷積,但用CPU來(lái)做將會(huì)特別耗CPU資源,因?yàn)榛舜罅康腃PU帶寬卻只做一件事情,這些任務(wù)特別適合用一個(gè)專用的神經(jīng)網(wǎng)絡(luò)的單元來(lái)做。內(nèi)嵌的DSP的高端MCU,DSP和CPU一樣能夠做一定的人工智能,但并不擅長(zhǎng),因此會(huì)白白浪費(fèi)掉很多的資源,不像NPU專門(mén)用來(lái)做卷積和累加這么合適?!蓖跖笈蠓窒淼?。
“一個(gè)專用的NPU處理器會(huì)事半功倍,IP做得很巧妙并不會(huì)很復(fù)雜,且不用占MCU上很大的成本,做人工智能又非常合適,然后能夠讓CPU解放出來(lái)去做應(yīng)該做的控制或者是實(shí)時(shí)處理的控制。在NPU上進(jìn)行機(jī)器學(xué)習(xí)的運(yùn)算加速時(shí),比如做二維卷積神經(jīng)網(wǎng)絡(luò)、點(diǎn)卷積,或者深度卷積,其性能會(huì)比Cortex-M33的內(nèi)核有至少30倍以上或更高的加速?!?
因此在MCX N的MCU上,可以實(shí)現(xiàn)CPU和NPU的并行處理,即同時(shí)做到控制和外界的交互,機(jī)器學(xué)習(xí)的卷積處理本身是由NPU來(lái)完成,不占用CPU的資源。因此人工智能處理和一般通用的輸入輸出控制可以并行實(shí)現(xiàn)。在一顆通用的MCU上,既實(shí)現(xiàn)了傳統(tǒng)MCU做的事情,同時(shí)又實(shí)現(xiàn)了人工智能的運(yùn)算加速。
清晰的定位和場(chǎng)景
NXP在跨界處理器i.MX RT推出時(shí),是在模糊的邊界上,捕捉到了清晰的市場(chǎng)空白,足見(jiàn)其產(chǎn)品定義的功力。而此次推出的帶硬件NPU模塊的MCU,可謂是NXP又捕捉到了一個(gè)廣闊前景的市場(chǎng)空白和清晰的應(yīng)用前景。
相比一些AI SoC,NXP N的通用性更好,能夠覆蓋到更多的基礎(chǔ)應(yīng)用的AI特性升級(jí);而對(duì)于一些AI更加前置、在傳感器中添加加速器的產(chǎn)品而言,其加速器往往功能比較單一,僅適用于其傳感器的數(shù)據(jù)篩選,并不具備更靈活的通用性,不能支持更多算法模型。
據(jù)悉,MCX的應(yīng)用場(chǎng)景是針對(duì)MCU現(xiàn)有的應(yīng)用場(chǎng)景進(jìn)行的拓展,在傳統(tǒng)的控制應(yīng)用基礎(chǔ)上增加元素:比如在醫(yī)療設(shè)備、無(wú)人機(jī),或者工業(yè)控制中加上智能識(shí)別、故障檢測(cè)、語(yǔ)音控制等?;贜PU的出現(xiàn),也會(huì)有很多新應(yīng)用出現(xiàn),例如在日常生活場(chǎng)景中,有開(kāi)發(fā)者在做識(shí)別物體的秤,目的是為了做到把東西放在秤上就可以直接結(jié)賬;在醫(yī)學(xué)檢測(cè)中,可以應(yīng)用于檢測(cè)含瘧疾的紅細(xì)胞;在交通出行中,可以幫助智能車識(shí)別障礙,自動(dòng)地做出判斷和處理等等。
據(jù)金宇杰介紹,例如在電梯的運(yùn)營(yíng)優(yōu)化中,NPU也可以發(fā)揮巨大的作用?!半娞輹?huì)對(duì)人數(shù)進(jìn)行一定的限制,一般大概在12-15個(gè)人左右。恩智浦的MCU產(chǎn)品加上NPU可以幫助智能電梯做人數(shù)統(tǒng)計(jì),并另外對(duì)電梯本身進(jìn)行流量計(jì)算。我們的產(chǎn)品對(duì)算力提供了支持的同時(shí),也對(duì)模型進(jìn)行了優(yōu)化,尤其是嵌入式平臺(tái)的優(yōu)化?!?
總結(jié)
高性能、無(wú)線、安全和AI特性,具備所有這些特性的通用MCU平臺(tái)是大勢(shì)所趨。業(yè)界很多廠商其實(shí)也已經(jīng)有非常完備的平臺(tái),但在通用MCU中添加硬件NPU的,MCX尚屬首例,可謂再次搶得了市場(chǎng)先機(jī)。不過(guò)通用MCU市場(chǎng)卷的嚴(yán)重,其他廠商的類似產(chǎn)品預(yù)計(jì)也會(huì)很快推出,