當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]機(jī)器學(xué)習(xí)和深度學(xué)習(xí)已經(jīng)是我們生活的組成部分.人工智能(AI)的應(yīng)用,通過自然語言處理(NLP),圖像分類和目標(biāo)檢測深入嵌入我們使用的許多設(shè)備。大多數(shù)人工智能應(yīng)用程序都是通過云基引擎提供的,這些引擎可以很好地處理它們所使用的內(nèi)容,比如在gmail中輸入電子郵件響應(yīng)時獲取單詞預(yù)測。

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)已經(jīng)是我們生活的組成部分.人工智能(AI)的應(yīng)用,通過自然語言處理(NLP),圖像分類和目標(biāo)檢測深入嵌入我們使用的許多設(shè)備。大多數(shù)人工智能應(yīng)用程序都是通過云基引擎提供的,這些引擎可以很好地處理它們所使用的內(nèi)容,比如在gmail中輸入電子郵件響應(yīng)時獲取單詞預(yù)測。

雖然我們很享受這些AI應(yīng)用的好處,這種方法引入了隱私、耗電、延遲和成本挑戰(zhàn)。如果有一個本地處理引擎能夠在數(shù)據(jù)本身的來源處進(jìn)行部分或全部的計算(推理),這些挑戰(zhàn)是可以解決的。這對于傳統(tǒng)的數(shù)字神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)來說是很困難的,在這種實(shí)現(xiàn)中,內(nèi)存成為了耗電的瓶頸。這個問題可以通過多層存儲器和使用模擬內(nèi)存計算方法來解決,這種方法結(jié)合在一起,使處理引擎能夠滿足更低的毫瓦到微瓦(UW)的功率需求,以便在網(wǎng)絡(luò)邊緣進(jìn)行AI推理。

云計算的挑戰(zhàn)

當(dāng)AI應(yīng)用程序通過云基引擎提供服務(wù)時,用戶必須上傳一些數(shù)據(jù)(自愿或不情愿)到云計算引擎處理數(shù)據(jù)、提供預(yù)測并將預(yù)測發(fā)送到下游用戶使用。

與這一進(jìn)程相關(guān)的挑戰(zhàn)概述如下:

1. 隱私和安全問題: 對于一直使用的、始終意識到的設(shè)備,人們擔(dān)心個人數(shù)據(jù)(和/或機(jī)密信息)在上傳期間或在數(shù)據(jù)中心的保存期內(nèi)被濫用。

2. 不必要的耗電: 如果每一個數(shù)據(jù)位都要云計算,那么它就會消耗硬件、無線電、傳輸和云中不必要的計算的能量。

3. 小型推理的延遲: 有時,如果數(shù)據(jù)來自邊緣,從云基系統(tǒng)得到響應(yīng)可能需要一秒鐘或更多時間。對于人類的感官來說,任何超過100毫秒的潛伏期都是顯而易見的,而且可能很煩人。

4. 數(shù)據(jù)經(jīng)濟(jì)需要有意義: 傳感器無處不在,而且非常便宜;然而,它們產(chǎn)生了許多數(shù)據(jù)。將每一個數(shù)據(jù)上傳到云端并進(jìn)行處理是不經(jīng)濟(jì)的。

為了使用本地處理引擎來解決這些挑戰(zhàn),首先必須對執(zhí)行推理操作的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行針對所需用例的給定數(shù)據(jù)集的培訓(xùn)。一般來說,這需要高計算(和內(nèi)存)資源和浮點(diǎn)算術(shù)運(yùn)算。因此,機(jī)器學(xué)習(xí)解決方案的培訓(xùn)部分仍需要在公共或私人云(或本地GPU、CPU、FPGA農(nóng)場)上進(jìn)行,并使用數(shù)據(jù)集生成最佳神經(jīng)網(wǎng)絡(luò)模型。一旦神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)備就緒,該模型就可以進(jìn)一步優(yōu)化為具有小型計算引擎的本地硬件,因?yàn)樯窠?jīng)網(wǎng)絡(luò)模型不需要為推理操作進(jìn)行反向傳播。一個推理引擎通常需要大量的多重累積引擎,接下來是激活層,如校正線性單元(RELU),乙狀結(jié)腸體或TAUH取決于神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜性和層之間的池層。

大多數(shù)的神經(jīng)網(wǎng)絡(luò)模型需要大量的Mac操作。例如,即使是相對較小的"1.0移動-224"模型,也有420萬個參數(shù)(權(quán)重),需要5.69億個Mac操作才能進(jìn)行推斷。由于大多數(shù)模型都是由Mac操作控制的,這里的重點(diǎn)將放在機(jī)器學(xué)習(xí)計算的這一部分--并探索創(chuàng)建更好解決方案的機(jī)會。

輸入神經(jīng)元(數(shù)據(jù))用第一層權(quán)重進(jìn)行處理。來自第一層的輸出神經(jīng)元然后用第二層權(quán)重進(jìn)行處理,并提供預(yù)測(假設(shè)模型能夠在給定的圖像中找到貓的臉)。這些神經(jīng)網(wǎng)絡(luò)模型使用"點(diǎn)產(chǎn)品"來計算每個層中的每個神經(jīng)元,用以下公式說明(在簡化公式中略去"偏倚"一詞):

記憶力 數(shù)字計算中的瓶頸

在數(shù)字神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)中,權(quán)重和輸入數(shù)據(jù)存儲在DRAM/SRAM中。權(quán)重和輸入數(shù)據(jù)需要移動到Mac引擎進(jìn)行推斷。這一方法導(dǎo)致大多數(shù)功率在獲取模型參數(shù)和輸入數(shù)據(jù)到實(shí)際的Mac操作發(fā)生的ALU時被耗散。

從能量的角度看問題--一個典型的使用數(shù)字邏輯門的Mac操作消耗大約250焦耳(FJ,或10焦耳)的能量。但在數(shù)據(jù)傳輸過程中耗散的能量比計算本身要多兩個數(shù)量級,并且在50微焦耳的范圍內(nèi)(PJ,或10)。公平地說,有許多設(shè)計技術(shù)可以最大限度地減少從內(nèi)存到ALU的數(shù)據(jù)傳輸;然而,整個數(shù)字方案仍然受到馮諾依曼架構(gòu)的限制--因此這是一個減少浪費(fèi)電力的巨大機(jī)會。如果執(zhí)行Mac操作的能量可以從~100pj減少到pj的一小部分呢?

通過模擬內(nèi)存計算消除內(nèi)存瓶頸

當(dāng)內(nèi)存本身可以用來減少計算所需的功率時,在邊緣執(zhí)行推理操作就會提高功率效率。使用內(nèi)存計算方法可以最大限度地減少必須移動的數(shù)據(jù)量。這反過來又消除了數(shù)據(jù)傳輸過程中浪費(fèi)的能量。使用可操作超低有源功率耗散的閃存電池,能量耗散進(jìn)一步最小化,在備用模式下幾乎沒有能量耗散。

這種方法的一個例子是硅存儲技術(shù)(SST),一個微芯片技術(shù)公司。以SST的超級閃光燈為基礎(chǔ)內(nèi)存技術(shù),該解決方案包括一個內(nèi)存中的計算體系結(jié)構(gòu),該體系結(jié)構(gòu)允許在推理模型的權(quán)重存儲的地方進(jìn)行計算。這就消除了Mac計算中的內(nèi)存瓶頸,因?yàn)闆]有為權(quán)重進(jìn)行數(shù)據(jù)移動--只有輸入數(shù)據(jù)才能從相機(jī)或麥克風(fēng)等輸入傳感器移動到存儲器陣列。

這個存儲器概念基于兩個基本原理:(a)晶體管的模擬電流響應(yīng)基于其閾值電壓(VT)和輸入數(shù)據(jù);(b)基爾霍夫電流定律,其中規(guī)定導(dǎo)體網(wǎng)絡(luò)中在某一點(diǎn)上的電流的代數(shù)和是零。

理解基本的非易失性內(nèi)存(NVM)比特單元也很重要,它在這個多層內(nèi)存體系結(jié)構(gòu)中使用。是兩個ESF3(嵌入式超閃存3)的橫截面帶有共享擦除門(EG)和源線(SL)的比特單元。每個比特單元有五個端子:控制門(Cg)、工作線(WL)、擦除門(EG)、源線(SL)和比特線(LB)。在比特電池上的擦除操作是通過對EG施加高壓來完成的.通過在WL、CG、BL和SL上應(yīng)用高壓/低壓偏置信號進(jìn)行編程操作。通過將低壓偏置信號應(yīng)用到WL、CG、BL和SL上來完成讀取操作。

使用這個內(nèi)存體系結(jié)構(gòu),用戶可以通過細(xì)粒度編程操作,在不同的VT級別上編程內(nèi)存比特單元。該存儲技術(shù)利用一個智能的算法來調(diào)整存儲單元的浮動門(FG)VT,以從輸入電壓中獲得一定的電流響應(yīng)。根據(jù)終端應(yīng)用程序的需求,單元格可以在線性或次閾值操作區(qū)域編程。

展示了存儲和讀取存儲單元格上多個層次的能力。假設(shè)我們試圖在內(nèi)存單元格中存儲一個2位整數(shù)值。對于這個場景,我們需要在內(nèi)存數(shù)組中對每個單元格進(jìn)行編程,其中包含2位整數(shù)值(00,01,10,11)的四個可能值之一。下面的四條曲線是四個可能狀態(tài)中的每一條的IV曲線,而電池的電流響應(yīng)將取決于加在cg上的電壓。

具有內(nèi)存計算的多重累積運(yùn)算

每個ESF3電池可以模擬為可變電導(dǎo)(G M )。ESF3電池的電導(dǎo)取決于程序化電池的浮門VT。從訓(xùn)練過的模型中得到的重量被設(shè)定為存儲單元的浮動門VT,因此, M 代表訓(xùn)練過的模型的重量。當(dāng)一個輸入電壓(VIN)被施加到ESF3電池上時,輸出電流(UT)將由方程IUT=G給出。 M *VIN,這是輸入電壓與存儲在ESF3電池上的重量之間的乘以操作。

說明了小陣列配置(2x2陣列)中的多重累積概念,在該小陣列中,通過增加輸出電流(從連接到同一列的單元格(從倍增操作))來執(zhí)行累積操作(例如I1=I11+I21)。根據(jù)應(yīng)用程序的不同,激活功能可以在ADC塊中執(zhí)行,也可以在內(nèi)存塊外使用數(shù)字實(shí)現(xiàn)完成。

為了在更高層次上進(jìn)一步說明這個概念,一個訓(xùn)練過的模型的個體權(quán)重被編程為存儲單元的浮動門VT,因此,從訓(xùn)練過的模型的每個層的所有權(quán)重(假設(shè)是完全連接的層)都可以編程到一個內(nèi)存陣列上,就像一個權(quán)重矩陣。

對于推理操作,一個數(shù)字輸入,比如說圖像像素,首先使用數(shù)字轉(zhuǎn)換器轉(zhuǎn)換成模擬信號,然后應(yīng)用于存儲器陣列。然后,該陣列為給定的輸入向量并行執(zhí)行數(shù)以千計的Mac操作,并產(chǎn)生輸出,這些輸出可以進(jìn)入各自神經(jīng)元的激活階段,然后通過一個類似數(shù)字轉(zhuǎn)換器(ADC)將其轉(zhuǎn)換為數(shù)字信號。然后,在進(jìn)入下一層之前,對數(shù)字信號進(jìn)行共享處理。

這種類型的內(nèi)存體系結(jié)構(gòu)非常模塊化和靈活。許多膜瓦可以拼接在一起,以構(gòu)建各種具有重量矩陣和神經(jīng)元的大型模型。在這個例子中,一個3×4瓦的配置與一個模擬和數(shù)字的織物在瓦之間縫在一起,數(shù)據(jù)可以從一個瓦到另一個瓦通過共享總線。

到目前為止,我們已經(jīng)初步討論了這種架構(gòu)的硅實(shí)現(xiàn)。軟件開發(fā)包(SDK)的可用性有助于解決方案的部署。除了硅之外,SDK還促進(jìn)了推理引擎的部署。

SDK流是培訓(xùn)框架的不可知論。用戶可以在任何一個可用的框架中創(chuàng)建神經(jīng)網(wǎng)絡(luò)模型,如張力流、噴燈或其他,根據(jù)需要使用浮點(diǎn)計算。一旦創(chuàng)建了一個模型,SDK將幫助量化訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,并將其映射到存儲器陣列,在那里可以使用來自傳感器或計算機(jī)的輸入向量來執(zhí)行向量-矩陣乘法。

結(jié)論

這種多層存儲器方法及其內(nèi)存計算功能的優(yōu)點(diǎn)包括:

1. 極低功率: 這項(xiàng)技術(shù)是為低功率應(yīng)用而設(shè)計的。第一級功率優(yōu)勢來自于這樣一個事實(shí),即解決方案是內(nèi)存計算,因此在計算過程中不會在SRAM/DRAM的數(shù)據(jù)和權(quán)重傳輸中浪費(fèi)能量。第二個能量優(yōu)勢來自于閃光電池是以極低電流值的亞閾值模式運(yùn)行的,所以有源功率耗散很低。第三個優(yōu)點(diǎn)是在備用模式下幾乎沒有能量耗散,因?yàn)榉且资源鎯ζ麟姵夭恍枰魏喂β蕘肀3謹(jǐn)?shù)據(jù)的連續(xù)性。該方法也非常適合利用重量和輸入數(shù)據(jù)的稀疏性。如果輸入數(shù)據(jù)或權(quán)重為零,則內(nèi)存比特單元不會被激活。

2. 包足跡較低: 該技術(shù)使用一個分叉門(1.5T)單元結(jié)構(gòu),而數(shù)字實(shí)現(xiàn)中的SRAM單元則基于6T架構(gòu)。此外,與6TSRAM電池相比,該電池是一個小得多的比特細(xì)胞。另外,一個單元格可以存儲整個4位整數(shù)值,這與需要4*6=24晶體管的SRAM單元格不同。這提供了一個小得多的芯片足跡。

3. 較低的開發(fā)成本: 由于內(nèi)存性能瓶頸和馮諾依曼架構(gòu)的局限性,許多專用設(shè)備(如恩維迪亞的Jetsen或谷歌的TPU)傾向于使用較小的幾何形狀來獲得每瓦特的性能,這是解決邊緣人工智能計算挑戰(zhàn)的昂貴方法。利用多層存儲器方法,使用模擬內(nèi)存計算方法,在閃存單元中進(jìn)行芯片計算,從而可以使用更大的幾何形狀,降低掩模成本和準(zhǔn)備時間。

邊緣計算應(yīng)用顯示出巨大的前景。然而,在邊緣計算能夠起飛之前,還需要解決電力和成本方面的挑戰(zhàn)。一個主要障礙可以通過在閃存單元中執(zhí)行計算的內(nèi)存方法來消除。這種方法利用了生產(chǎn)證明,事實(shí)上標(biāo)準(zhǔn)類型的多層次存儲技術(shù)解決方案,是優(yōu)化的機(jī)器學(xué)習(xí)應(yīng)用。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉