原創(chuàng)

通用MCU上添加硬件NPU單元，實(shí)現(xiàn)30倍于Cortex-M33的AI加速能力

時間：2022-06-29 14:09:42

關(guān)鍵字： MCU NPU 邊緣計(jì)算 AI ML NXP

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]NXP推出MCX MCU賦能智能邊緣計(jì)算發(fā)展

AI和ML的運(yùn)算正在從云端向邊緣端遷移，計(jì)算重心的前置帶來的好處不言而喻。而這種邊緣AI，并不會止步于手機(jī)、電腦這些具備SoC級別算力的終端，而是會繼續(xù)向著數(shù)百億的MCU為主控的物聯(lián)網(wǎng)設(shè)備蔓延。除此外，無線連接、安全性等特性也愈發(fā)重要，通用MCU平臺的新紀(jì)元即將到來。NXP敏銳捕捉到這一機(jī)遇，于近日推出了其通用MCU平臺下的新系列產(chǎn)品——MCX微控制器產(chǎn)品組合。

“以前提到好控制器的標(biāo)準(zhǔn)就是：按下按鈕就有很快的反應(yīng)，但現(xiàn)在遠(yuǎn)不止這樣，我們希望處理器本身有預(yù)知性，這就需要引入人工智能的要素。所以，我相信越來越多的落地的項(xiàng)目會要求邊緣計(jì)算平臺擁有越來越多的AI功能支持。”恩智浦大中華區(qū)工業(yè)與物聯(lián)網(wǎng)市場高級總監(jiān)金宇杰在媒體會上分享到。

MCX MCU：集合LPC、Kinetis傳統(tǒng)優(yōu)勢，聚集邊緣計(jì)算未來需求

NXP有三大類邊緣計(jì)算平臺，分別是通用MCU平臺（LPC、Kinetis），跨界MCU i.MX RT系列，以及i.MX和Layerscape系列應(yīng)用處理器；這三大類產(chǎn)品構(gòu)筑了NXP廣闊而豐富的可拓展的邊緣計(jì)算平臺。近年來新推出的跨界MCU，填補(bǔ)了MPU和MCU之間的市場空隙，獲得了非常好的市場反響。

而在通用MCU市場，一個新的紀(jì)元也即將開啟。據(jù)IHS預(yù)測2030年將會有750億個聯(lián)網(wǎng)設(shè)備，這帶來了新的MCU應(yīng)用需求。低功耗、無線連接、安全、高性能和AI能力的追求，成為了新的通用MCU的必備能力。而且同一MCU平臺需要具有靈活的可遷移性，方便開發(fā)者進(jìn)行設(shè)計(jì)的遷移。

基于以上關(guān)于智能邊緣的種種趨勢，NXP推出了全新的通用MCU平臺——MCX微控制器產(chǎn)品組合。這一平臺融合了LPC、Kinetis傳統(tǒng)優(yōu)勢，從它們手中接過了接力棒，將會開啟下一段智能邊緣的征程。

四大系列

據(jù)悉MCX將首先基于Arm Cortex-M33內(nèi)核來進(jìn)行設(shè)計(jì)，此次發(fā)布為MCX平臺的首次曝光，因此并沒有實(shí)際出貨型號，但非常清晰地給大家展示了其四大產(chǎn)品布局。

MCX N高性能系列：工作頻率為150～250MHz，首次將NPU和DSP這兩個元素放到了MCU中。此外，也嵌入了恩智浦特有的安全系統(tǒng)——EdgeLock。

MCX A基準(zhǔn)系列：工作頻率在48～96MHz，內(nèi)置定時器、低引腳數(shù)、單引腳電源，針對成本受限應(yīng)用進(jìn)行了優(yōu)化。

MCX W無線連接系列：工作頻率在32～150MHz，集成低功耗的藍(lán)牙無線模塊，另外也將會盡量高度集成一些外圍的器件，使得關(guān)聯(lián)的整個BOM減少、整體板集成度降低。

MCX L超低功耗系列，工作頻率在50～100MHz，該系列針對低功耗需求應(yīng)用進(jìn)行了優(yōu)化，并且集成了原來的LPC里成功的低功耗，力求超低的動態(tài)功耗和非常低的泄漏功耗。

一個平臺，更容易的設(shè)計(jì)擴(kuò)展和遷移

因?yàn)椴捎昧送粋€平臺，擁有眾多寬廣的產(chǎn)品型號，所以開發(fā)者在不同MCU之間進(jìn)行設(shè)計(jì)拓展和遷移時的難度會更低。

“MCX是恩智浦推出的全新MCU家族，也是一個嶄新的、發(fā)揮了承上啟下作用的品牌。”恩智浦邊緣處理事業(yè)部系統(tǒng)工程高級總監(jiān)王朋朋分享到，“恩智浦在MCU家族中提供了N、L、W、A四個不同的系列。它可以在跨界處理器和應(yīng)用處理器之間進(jìn)行無縫銜接，具有比較好的拓展性；安全功能方面，MCX集成了EdgeLock安全處理單元，繼承了恩智浦一貫高安全性特點(diǎn)和可靠的性能；在系統(tǒng)設(shè)計(jì)上，新的產(chǎn)品系列受到恩智浦MCUXpresso軟件套件和開發(fā)工具的廣泛支持，在開發(fā)過程中，不論是從之前的LPC、Kinetis移植，還是設(shè)計(jì)未來的產(chǎn)品，都會是一個很簡單、無縫地銜接過程?！?

NPU集成進(jìn)通用MCU：適合的核、適合的任務(wù)、適合的時機(jī)

在傳統(tǒng)的通用MCU上做AI和ML的應(yīng)用，并不新鮮，但困難并不小，而且從整個系統(tǒng)的評估角度而言，并不是那么“合適”。

要將一些成熟的算法部署到MCU的CPU核上，大模型是不現(xiàn)實(shí)的，算法的適配需要花費(fèi)極大的工作，而這對于長于做控制的MCU開發(fā)者而言，是頗為不易的。所以其實(shí)目前MCU廠商都有推出相應(yīng)的AI開發(fā)工具包，或者是例程，供開發(fā)者使用。

但另一個不能克服的問題在于，MCU的CPU核并不適合做AI和ML的運(yùn)算，這將會極大地占用其計(jì)算資源。高度依賴CPU核和FPU等硬件資源，也會帶來功耗的上升，從系統(tǒng)角度來看并不是合適的做法。

從成本角度考慮，一個簡單的AI任務(wù)，可能就需要非常高主頻的M7的核心來處理，才會達(dá)到符合實(shí)際應(yīng)用響應(yīng)速度的結(jié)果，這也有點(diǎn)違背我們在邊緣側(cè)的設(shè)計(jì)追求。

因此，在通用MCU中添加一個硬件NPU，來為一些邊緣側(cè)通用的AI運(yùn)算進(jìn)行專門的加速，成為了解決問題最好的答案。CPU核可以專注于自己擅長的計(jì)算任務(wù)，將AI ML的運(yùn)算交給NPU。

MCX N系列恰恰就是在合適的時機(jī)推出、讓適合的核去做適合的任務(wù)，從而幫助開發(fā)者實(shí)現(xiàn)未來智能邊緣更好的設(shè)計(jì)。

恩智浦NPU加速器

據(jù)王朋朋介紹，該NPU為NXP的自研硬件IP，在MCU領(lǐng)域中，集成神經(jīng)處理單元應(yīng)該說是迎合了這個時代。

NPU作為CPU的AI運(yùn)算協(xié)處理器，其內(nèi)部最主要是擁有專門的計(jì)算通道。如上圖所示為NXP的NPU的最小示例，這是一個4×4的計(jì)算處理單元，其中就包含四個計(jì)算管道，每個計(jì)算管道里有四個計(jì)算單元。

在性能層面，該NPU可以覆蓋從32次運(yùn)算/周期到2000次運(yùn)算/周期，并且未來還可以擴(kuò)展到更高的性能或更小的單元。NXP的整個MCU、MPU家族里，都會采用統(tǒng)一的NPU架構(gòu)，提供更高性能的NPU的加速器。通過一致的NPU架構(gòu)，同樣的算法也更容易從MPU遷移到MCU平臺上。

集成NPU的意義

“人工智能、機(jī)器學(xué)習(xí)的運(yùn)算非常集中也非常簡單，就是做卷積，但用CPU來做將會特別耗CPU資源，因?yàn)榛舜罅康腃PU帶寬卻只做一件事情，這些任務(wù)特別適合用一個專用的神經(jīng)網(wǎng)絡(luò)的單元來做。內(nèi)嵌的DSP的高端MCU，DSP和CPU一樣能夠做一定的人工智能，但并不擅長，因此會白白浪費(fèi)掉很多的資源，不像NPU專門用來做卷積和累加這么合適。”王朋朋分享到。

“一個專用的NPU處理器會事半功倍，IP做得很巧妙并不會很復(fù)雜，且不用占MCU上很大的成本，做人工智能又非常合適，然后能夠讓CPU解放出來去做應(yīng)該做的控制或者是實(shí)時處理的控制。在NPU上進(jìn)行機(jī)器學(xué)習(xí)的運(yùn)算加速時，比如做二維卷積神經(jīng)網(wǎng)絡(luò)、點(diǎn)卷積，或者深度卷積，其性能會比Cortex-M33的內(nèi)核有至少30倍以上或更高的加速?！?

因此在MCX N的MCU上，可以實(shí)現(xiàn)CPU和NPU的并行處理，即同時做到控制和外界的交互，機(jī)器學(xué)習(xí)的卷積處理本身是由NPU來完成，不占用CPU的資源。因此人工智能處理和一般通用的輸入輸出控制可以并行實(shí)現(xiàn)。在一顆通用的MCU上，既實(shí)現(xiàn)了傳統(tǒng)MCU做的事情，同時又實(shí)現(xiàn)了人工智能的運(yùn)算加速。

清晰的定位和場景

NXP在跨界處理器i.MX RT推出時，是在模糊的邊界上，捕捉到了清晰的市場空白，足見其產(chǎn)品定義的功力。而此次推出的帶硬件NPU模塊的MCU，可謂是NXP又捕捉到了一個廣闊前景的市場空白和清晰的應(yīng)用前景。

相比一些AI SoC，NXP N的通用性更好，能夠覆蓋到更多的基礎(chǔ)應(yīng)用的AI特性升級；而對于一些AI更加前置、在傳感器中添加加速器的產(chǎn)品而言，其加速器往往功能比較單一，僅適用于其傳感器的數(shù)據(jù)篩選，并不具備更靈活的通用性，不能支持更多算法模型。

據(jù)悉，MCX的應(yīng)用場景是針對MCU現(xiàn)有的應(yīng)用場景進(jìn)行的拓展，在傳統(tǒng)的控制應(yīng)用基礎(chǔ)上增加元素：比如在醫(yī)療設(shè)備、無人機(jī)，或者工業(yè)控制中加上智能識別、故障檢測、語音控制等?；贜PU的出現(xiàn)，也會有很多新應(yīng)用出現(xiàn)，例如在日常生活場景中，有開發(fā)者在做識別物體的秤，目的是為了做到把東西放在秤上就可以直接結(jié)賬；在醫(yī)學(xué)檢測中，可以應(yīng)用于檢測含瘧疾的紅細(xì)胞；在交通出行中，可以幫助智能車識別障礙，自動地做出判斷和處理等等。

據(jù)金宇杰介紹，例如在電梯的運(yùn)營優(yōu)化中，NPU也可以發(fā)揮巨大的作用。“電梯會對人數(shù)進(jìn)行一定的限制，一般大概在12-15個人左右。恩智浦的MCU產(chǎn)品加上NPU可以幫助智能電梯做人數(shù)統(tǒng)計(jì)，并另外對電梯本身進(jìn)行流量計(jì)算。我們的產(chǎn)品對算力提供了支持的同時，也對模型進(jìn)行了優(yōu)化，尤其是嵌入式平臺的優(yōu)化。”

總結(jié)

高性能、無線、安全和AI特性，具備所有這些特性的通用MCU平臺是大勢所趨。業(yè)界很多廠商其實(shí)也已經(jīng)有非常完備的平臺，但在通用MCU中添加硬件NPU的，MCX尚屬首例，可謂再次搶得了市場先機(jī)。不過通用MCU市場卷的嚴(yán)重，其他廠商的類似產(chǎn)品預(yù)計(jì)也會很快推出，