告別多芯片方案!用一顆自適應SoC實現(xiàn)端側(cè)的AI全流程計算加速
2018年ACAP(適應性計算加速平臺)是Xlinx(現(xiàn)已并入AMD)的一個重要里程碑。彼時剛上任CEO的Victor Peng宣布了Versal ACAP這一全新的平臺,這一更靈活的產(chǎn)品形態(tài)打開了傳統(tǒng)FPGA產(chǎn)品邁向全面自適應加速計算的新市場。
在2018年,ACAP需要解決的問題是為端邊云實現(xiàn)大幅計算加速,增加在各種工作負載中的計算密度。Versal" 可能是 "Versatile"(多功能的)和 "Universal"(通用的)的結合,通過對于多種加速器IP的融合,旨在“在整個行業(yè)工藝制程線性增長受限的情況下,維持計算密度的加速增長曲線”。而到了2024年的今天,無人不談AI,AI無處不在。當AI從云走向端側(cè),新的計算難題來了。如何為端側(cè)設備實現(xiàn)更高效的AI計算,為其插上AI的翅膀?這將會是AMD最新發(fā)布的第二代Versal? AI Edge系列自適應 SoC想要解決的難題。
在端側(cè)設備上的實現(xiàn)AI加速計算,面臨哪些難題?
在端側(cè)設備,也就是嵌入式系統(tǒng)中要實現(xiàn)AI計算,面臨著諸多的限制。這些限制一部分是來自傳統(tǒng)的我們所能熟知的應用環(huán)境和設備自身,包括功耗水平、體積、散熱、實時性、信息安全和功能安全等等,針對這些問題的優(yōu)化,是所有類型的端側(cè)計算芯片廠商都在著力的方向。而談及在端側(cè)上部署AI計算,AMD則從系統(tǒng)角度觀察到了另一個更為關鍵的問題。
據(jù)AMD自適應與嵌入式計算事業(yè)部(AECG ) Versal產(chǎn)品營銷總監(jiān)Manuel Uhm介紹,在AI驅(qū)動型嵌入式系統(tǒng)中,包含三個處理階段,分別是預處理(傳感器處理于融合,數(shù)據(jù)調(diào)節(jié))、AI推理(感知、分析、情景感知)和后處理(決策、控制、反饋)。
目前大家的關注重點都放在AI推理階段,因為這是AI算法運行的階段。但其實在嵌入式系統(tǒng)中要應該從更加宏觀的系統(tǒng)視角來審視——首先要有數(shù)據(jù),數(shù)據(jù)要經(jīng)過預處理,才能提供給推斷來使用;推斷之后又必須要進行后處理,這樣才可以通過推斷的結果做出決策?!霸趯崟rAI驅(qū)動嵌入式系統(tǒng)當中,這三類算力都必須能夠加速,才能夠真正實現(xiàn)全系統(tǒng)的實時?!盡anuel Uhm解釋到。
預處理階段需要將各類傳感器采集的原始數(shù)據(jù)進行處理,這其中也涉及到了一些傳感器的數(shù)據(jù)融合和數(shù)據(jù)調(diào)節(jié)的工作,該階段是提高AI驅(qū)動型嵌入式系統(tǒng)的實時性和高效計算的關鍵??删幊踢壿嬙谶@一階段的優(yōu)勢在于,能夠非常靈活地適用各類傳感器類型接口,同時保證更低的時延和更好的確定性,并且能夠在現(xiàn)場完成部署之后持續(xù)升級。接下來在推理過程中,包含著大量的矢量數(shù)據(jù)計算工作,需要的是專用的矢量處理器來實現(xiàn)加速分析。而在最后一步的后處理階段則需要高性能的嵌入式CPU來做出決策和實現(xiàn)控制。
梳理完整個AI驅(qū)動型嵌入式系統(tǒng)的內(nèi)部數(shù)據(jù)處理流程之后,就不難發(fā)現(xiàn)當前的行業(yè)痛點所在——目前沒有一類處理器能夠同時針對預處理、AI推理和后處理三個階段同時優(yōu)化。即便是集成了AI Core的第一代Verssal自適應SoC,也只可以完成“預處理+AI推理”兩個階段,但無法覆蓋到最終的決策和控制過程中。
多芯片方案將會帶來更高的BOM成本、更大的體積占用、更高的功耗、更復雜的供電設計。多芯片之間的互聯(lián)互通問題,也帶來了更高的系統(tǒng)時延和信息安全挑戰(zhàn),也使得系統(tǒng)集成、軟件設計方面的復雜度進一步提升。
而AMD此次最新推出的第二代Versal自適應SoC中的AI Edge系列就可以很好地解決這一系列的難題,為AI驅(qū)動型嵌入式系統(tǒng)提供單片智能的解決方案。
在單芯片中實現(xiàn)AI應用的端到端加速,第二代Versal AI Edge從邊緣傳感器走向中央計算
據(jù)悉,此次最新發(fā)布的第二代Versal自適應SoC包含兩個系列,其中AI Edge系列是專門面向AI驅(qū)動型嵌入式系統(tǒng)打造,Prime系列則是主打經(jīng)典嵌入式系統(tǒng)的市場。相比上一代Versal產(chǎn)品,新一代實現(xiàn)了高達3倍的每瓦TOPS性能提升,全新的高性能集成CPU也帶來了高達10倍的標量計算能力提升。
“單芯片智能意味著在單個器件中提供端到端的加速,也就是可以實現(xiàn)AI全部三個階段的加速?!盡anuel分享到。在Versal第二代產(chǎn)品中,第一階段的傳感器數(shù)據(jù)預處理加速,可以由其中的可編輯邏輯塊來完成,而特別針對視頻和圖像信號預處理,還可以直接調(diào)用其中針對視頻和圖像處理的硬加速IP來完成。在第二階段的AI推理方面,可以通過新產(chǎn)品中內(nèi)置的AIE-ML v2這一AI引擎來完成。而在第三階段的控制和執(zhí)行階段的實時性保證方面,則有集成的Arm Cortex-A78AE和Cortex-R52來支持。
據(jù)了解,Versal不僅僅是單芯片實現(xiàn)AI智能,帶來了單芯片的方案優(yōu)勢。而且每一階段分開來對比多芯片的方案,也有著明顯的計算加速的提升。
在預處理階段,傳統(tǒng)的非自適應SoC的接口數(shù)量和類型往往是有限且固定的,當需要照顧到一些不同類型的傳感器連接、進行多類型數(shù)據(jù)傳輸和處理時,就必然要通過外部的內(nèi)存來進行緩存,這就必然會導致整個處理效率低下,時延變長。而采用可編程邏輯就靈活的多,能夠應對各種復雜的多傳感器配置,且不需要外部內(nèi)存,也沒有緩存的配置需求,整個執(zhí)行時間大大縮短,時延得到有效降低。
在AI推理方面,面臨著多類型數(shù)據(jù)高速吞吐和精準度的挑戰(zhàn)。而二代Versal AI Edge系列能夠?qū)崿F(xiàn)對于MX6數(shù)據(jù)類型高達370 TFLOPS的算力支持,對于INT8高達184TOPS的算力支持;內(nèi)部集成的AIE-ML v2引擎還可以進行像FIR、FFT等數(shù)據(jù)信號的處理工作。
在最后的控制和執(zhí)行階段,二代Versal中的Arm Cortex-A78AE核心,每核心最高頻率高達2.2GHz,并且有高達200.3K的DMIPS算力。針對控制功能的實時處理單元,RPU可以有高達10倍的Arm Cortex-R52核心,每核心最高頻率高達1.05 GHz,提供高達28.5K的DMIPS算力。
同時Manuel也強調(diào),二代Versal AI Edge系列最高級別產(chǎn)品將會通過ASIL-D車規(guī)級認證和SIL3安全認證,以滿足汽車、工業(yè)和機器人等應用客戶的功能安全需求。
據(jù)悉,斯巴魯將會在EyeSight系統(tǒng)中使用AMD的第二代Versal器件,通過單芯片智能的極低時延、多數(shù)據(jù)類型支持和高吞吐量等優(yōu)勢,來支持其車型實現(xiàn)碰撞前制動、車道偏離預警、自適應巡航控制和車道保持輔助。
第二代Versal的單芯片方案,相對于傳統(tǒng)的多芯片方案而言,在AI驅(qū)動型嵌入式系統(tǒng)上帶來的優(yōu)化是顯著的。舉例而言,在一個高級自動駕駛輔助系統(tǒng)中,同等的功率水平下就能夠具有4倍圖像處理的能力;而在智慧城市攝像頭的系統(tǒng)中,可以實現(xiàn)30%的占板面積減少和支持2倍的視頻流提升;在專業(yè)的音視頻和廣播視頻流處理系統(tǒng)中,能夠?qū)崿F(xiàn)每秒60幀的高精度流量表現(xiàn),與Zynq MPSoC的效率相比,提供2倍的視頻處理面積,每路視頻流占板面積縮小35%。
Manuel表示,“第二代Versal AI Edge系列的產(chǎn)品,最主要的目的是能夠形成系統(tǒng)的中央計算,這與第一代是不同的。第一代更多是進行CPU的加速,但是現(xiàn)在新一代主要針對的就是中央計算引擎。我們在這個領域也是深耕很多年,憑借著幾十年的經(jīng)驗,也是在市場上能夠應對嵌入式系統(tǒng)所帶來的各種挑戰(zhàn)而推出解決方案?!?
---
據(jù)悉,的第二代Versal自適應SoC目前正在與主要客戶進行接洽,早期訪問文檔現(xiàn)已發(fā)布。而芯片樣片預計將于2025上半年正式發(fā)布,有望在2025年末實現(xiàn)大規(guī)模量產(chǎn)出貨。