當(dāng)前位置:首頁(yè) > 芯聞號(hào) > 美通社全球TMT
[導(dǎo)讀]北京2024年10月21日 /美通社/ -- 隨著自動(dòng)駕駛算法技術(shù)的快速發(fā)展,基于BEV+Transformer的感知范式為高階自動(dòng)駕駛提供了更高精度感知、更強(qiáng)場(chǎng)景泛化能力和更優(yōu)多模態(tài)融合的方案,是目前各大主流汽車廠商高階自動(dòng)駕駛方案的標(biāo)配。當(dāng)下主流自動(dòng)駕駛方案的大模型...

北京2024年10月21日 /美通社/ -- 隨著自動(dòng)駕駛算法技術(shù)的快速發(fā)展,基于BEV+Transformer的感知范式為高階自動(dòng)駕駛提供了更高精度感知、更強(qiáng)場(chǎng)景泛化能力和更優(yōu)多模態(tài)融合的方案,是目前各大主流汽車廠商高階自動(dòng)駕駛方案的標(biāo)配。當(dāng)下主流自動(dòng)駕駛方案的大模型算法參數(shù)規(guī)模在幾千萬(wàn)至接近億級(jí),比以往最高提升了一個(gè)數(shù)量級(jí),但苛刻的時(shí)延要求并沒有降低,這對(duì)算力、數(shù)據(jù)IO和互聯(lián)都帶來(lái)了極大的挑戰(zhàn):大模型復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和算子推理,依賴于更高性能的車載算力;眾多傳感器的高頻采集,帶來(lái)了大規(guī)模數(shù)據(jù)流的實(shí)時(shí)IO吞吐需求;算力單元間的協(xié)同,也需要更強(qiáng)大的網(wǎng)絡(luò)通信支撐。

近日,浪潮信息發(fā)布支持BEV+Transformer的全新自動(dòng)駕駛計(jì)算框架AutoDRRT 2.0(Autonomous Driving Distributed Robust Real-Time),并第一時(shí)間開源,用戶可以基于該框架快速搭建部署端到端的低延時(shí)自動(dòng)駕駛方案,加速大模型上車。

基于在車載計(jì)算、自動(dòng)駕駛算法、軟硬協(xié)同等領(lǐng)域的研發(fā)積累,浪潮信息從硬件系統(tǒng)、軟件環(huán)境、應(yīng)用框架及算法內(nèi)核多個(gè)層面對(duì)AutoDRRT2.0進(jìn)行優(yōu)化,實(shí)現(xiàn)計(jì)算、通信、IO全面升級(jí),優(yōu)化后,框架整體端到端鏈路延時(shí)低于100 毫秒,保障車載大模型的高效穩(wěn)定運(yùn)行。

  • 計(jì)算方面,框架支持BEV+Transformer的低延時(shí)推理,BEV算法庫(kù)性能較業(yè)界平均水平提升一倍;
  • 通信方面,將DDS通信中間件從支持以太網(wǎng)擴(kuò)展到支持PCIe,大數(shù)據(jù)通信效率提升14倍;
  • IO方面,通過(guò)GPU數(shù)據(jù)共享,減少CPU與GPU間冗余數(shù)據(jù)搬運(yùn),讓IO吞吐效率提升6倍。

BEV+Transformer成為自動(dòng)駕駛標(biāo)配,車端部署面臨挑戰(zhàn)

利用相機(jī)進(jìn)行純視覺感知是自動(dòng)駕駛的主要技術(shù)路線之一。但在相機(jī)2D視角下,物體由于遮擋會(huì)產(chǎn)生不可避免的視覺盲區(qū)問(wèn)題。BEV (Bird's eye view,鳥瞰圖) 從俯視視角重建3D感知空間,不僅能夠提供360°全域感知信息,還便于多源、多模態(tài)的數(shù)據(jù)融合,有利于自動(dòng)駕駛高效感知、定位和路徑規(guī)劃。

純視覺方案在物理上會(huì)損失感知目標(biāo)的深度信息,BEV技術(shù)借助Transformer特征推理,可將2D透視空間映射到3D物理空間。Transformer大模型通過(guò)交叉注意力機(jī)制重建深度特征,具有精度上限高、泛化能力強(qiáng)等優(yōu)點(diǎn),并通過(guò)學(xué)習(xí)建立數(shù)據(jù)幀間的關(guān)聯(lián),在4D (3D+時(shí)序) 空間生成無(wú)盲區(qū)的全方位感知結(jié)果,確保駕駛安全。這種BEV+Transformer的感知范式正在成為自動(dòng)駕駛標(biāo)配,但在車端部署應(yīng)用中仍面臨計(jì)算、通信、IO等方面的多重挑戰(zhàn)。

模型參數(shù)量大幅提升,算力需求驟增:從2D+CNN小模型到BEV+Transformer大模型,參數(shù)量的大幅提升給計(jì)算帶來(lái)越來(lái)越大的挑戰(zhàn),車端模型部署不僅要考慮單SOC的計(jì)算性能優(yōu)化,如低比特量化、算子融合等,而且要考慮多SOC的模型并行問(wèn)題,實(shí)現(xiàn)多SOC的協(xié)同,包括算法拆分、模型的并行機(jī)制、SOC間的負(fù)載均衡與pipeline優(yōu)化等

通信帶寬不足,時(shí)延需求嚴(yán)苛:車載計(jì)算經(jīng)歷從2D+CNN小模型到BEV+Transformer大模型的技術(shù)升級(jí),并最終朝著端到端大模型的方向發(fā)展,這使得數(shù)據(jù)交互也逐步從目標(biāo)級(jí)過(guò)渡到特征級(jí),最終向數(shù)據(jù)級(jí)維度演變。數(shù)據(jù)通信量增加使得多SOC協(xié)作中的通信負(fù)荷急劇變大,設(shè)備間的通信開銷逐漸成為框架的延時(shí)瓶頸。作為主流的通信中間件,DDS (Data Distribution Service, 數(shù)據(jù)分發(fā)服務(wù)) 僅支持以太網(wǎng)進(jìn)行設(shè)備間的數(shù)據(jù)傳輸和調(diào)度。該模式受限于有效帶寬和傳輸協(xié)議的限制,在大批量數(shù)據(jù)吞吐的情況下容易發(fā)生阻塞,導(dǎo)致通信效率下降。以典型多模態(tài)感知模型BEVFusion為例,其在單SOC上單幀推理的時(shí)間約50 ms,若雙SOC推理時(shí)間降至約30 ms,然而設(shè)備間通過(guò)千兆以太網(wǎng)和DDS進(jìn)行特征融合的通信耗時(shí)也在數(shù)十毫秒,通信延遲抵消了算力提升帶來(lái)的性能優(yōu)勢(shì)。因此,車端部署大模型亟需更高速的數(shù)據(jù)通信帶寬。

數(shù)據(jù)吞吐提升,IO制約計(jì)算:自動(dòng)駕駛框架層面的感知任務(wù)包含原始數(shù)據(jù)的接入 (傳輸+調(diào)度) 和模型推理等多個(gè)部分。數(shù)據(jù)的調(diào)度包含大量邏輯操作,需要CPU運(yùn)行,而模型推理則主要為AI運(yùn)算,由GPU執(zhí)行,DDS則提供通信服務(wù)支持。但由于DDS不支持GPU層面上的通信和調(diào)度,導(dǎo)致跨模型/節(jié)點(diǎn)的任務(wù)數(shù)據(jù)在CPU-GPU間的冗余搬運(yùn),出現(xiàn)IO消耗。隨著自動(dòng)駕駛技術(shù)的發(fā)展,車輛各類傳感器數(shù)據(jù)呈爆發(fā)性增長(zhǎng)趨勢(shì),大量數(shù)據(jù)的傳輸讓IO問(wèn)題日益凸顯。在浪潮信息自動(dòng)駕駛研發(fā)團(tuán)隊(duì)的實(shí)測(cè)中,數(shù)據(jù)IO耗時(shí)占完整鏈路的15%~30%,IO限制計(jì)算效率的發(fā)揮。

全新推出AutoDRRT 2.0,計(jì)算、通信、IO全面升級(jí)

浪潮信息團(tuán)隊(duì)通過(guò)計(jì)算、通信、IO全面升級(jí),研發(fā)AutoDRRT 2.0,解決技術(shù)進(jìn)化帶來(lái)的各項(xiàng)挑戰(zhàn)。

  • 計(jì)算升級(jí),從2D+CNN到BEV+Transformer

為了實(shí)現(xiàn)"大模型上車"的目標(biāo),AutoDRRT 2.0從計(jì)算組件的分布式、高容錯(cuò)及低延時(shí)三個(gè)核心特點(diǎn)出發(fā)進(jìn)行技術(shù)革新,實(shí)現(xiàn)框架支持BEV+Transformer低延時(shí)推理。

分布式:從任務(wù)級(jí)并行到數(shù)據(jù)級(jí)并行。浪潮信息車載域控制器EIS400通過(guò)多SOC的PCIe互連實(shí)現(xiàn)算力擴(kuò)展。AutoDRRT 2.0框架采用分布式架構(gòu)設(shè)計(jì),選擇將200+個(gè)功能節(jié)點(diǎn)部署在不同SOC上并行執(zhí)行,通過(guò)自動(dòng)分布式并行工具進(jìn)行任務(wù)間的調(diào)度和設(shè)備的負(fù)載均衡,節(jié)點(diǎn)間通過(guò)DDS中間件進(jìn)行通信和協(xié)作,從而實(shí)現(xiàn)任務(wù)級(jí)并行計(jì)算加速。同時(shí),AutoDRRT 2.0利用BEV算法使用多環(huán)視相機(jī)補(bǔ)盲進(jìn)行全域感知的特點(diǎn),選擇將異源數(shù)據(jù)的編解碼流分配到SOC上不同的計(jì)算單元,實(shí)現(xiàn)算法單batch推理的數(shù)據(jù)并行,進(jìn)一步提高硬件使用效率,降低計(jì)算延時(shí)。

高容錯(cuò):從算法間容錯(cuò)到算法內(nèi)容錯(cuò)。在復(fù)雜工況下保障計(jì)算平臺(tái)的穩(wěn)定運(yùn)行也是框架設(shè)計(jì)的核心要點(diǎn)之一。AutoDRRT 2.0通過(guò)備份重要功能節(jié)點(diǎn)和關(guān)鍵消息,在主算法失效后實(shí)時(shí) (< 1ms) 切換從算法,實(shí)現(xiàn)算法間無(wú)感容錯(cuò),達(dá)到失效可操作。同時(shí),浪潮信息自動(dòng)駕駛研發(fā)團(tuán)隊(duì)進(jìn)一步從算法內(nèi)核層面升級(jí),開放了面向多模態(tài)任務(wù)的高魯棒性低延時(shí)自動(dòng)駕駛感知算法BEVFusion_Robust,在原始代碼基礎(chǔ)上通過(guò)高性能Lift-Splat-Shoot算法解綁相機(jī)流和雷達(dá)流,并基于流并行的方式,在BEV統(tǒng)一表征下適配多檢測(cè)頭實(shí)現(xiàn)了自動(dòng)駕駛多源傳感器融合感知方案中的魯棒性需求,使得框架在純視覺、純雷達(dá)及多模態(tài)下均可以穩(wěn)定運(yùn)行,延時(shí)較基礎(chǔ)版本下降22%。模型現(xiàn)已集成在AutoDRRT 2.0高性能算法庫(kù)。

低延時(shí):算法內(nèi)核全面優(yōu)化,降低運(yùn)行時(shí)延。為降低大模型運(yùn)行時(shí)延,AutoDRRT 2.0在算法內(nèi)核層面進(jìn)行改造,包括對(duì)典型BEV模型進(jìn)行Post-Training Quantization量化,提高推理效率,并引入結(jié)構(gòu)化稀疏N:M稀疏方案,提高了內(nèi)存訪問(wèn)效率,不影響模型精度的基礎(chǔ)上壓縮模型規(guī)模,節(jié)約計(jì)算和存儲(chǔ)成本。AutoDRRT 2.0還開發(fā)了高性能算子庫(kù),典型算子延時(shí)下降70%。通過(guò)算子融合的方式,大模型可以減少GPU在核函數(shù)之間的切換,進(jìn)一步優(yōu)化了性能。以BEVDet為例,AutoDRRT 2.0的BEV算法庫(kù)在典型推理能力上實(shí)現(xiàn)了相較于業(yè)界開源版本速度提升1倍,在單SOC上推理超過(guò)50 FPS。實(shí)車測(cè)試顯示,浪潮信息車載域控制器EIS400與AutoDRRT 2.0的自動(dòng)駕駛算法方案,數(shù)據(jù)閉環(huán)端到端延遲低于100毫秒,確保了大模型在車端的穩(wěn)定高效運(yùn)行。

  • 通信升級(jí),DDS中間件從支持以太網(wǎng)擴(kuò)展到支持PCIe

為提升通信帶寬,AutoDRRT 2.0在中間件層面進(jìn)行創(chuàng)新,給出DDS的Opt優(yōu)化版本 (DDS_Opt)??蚣芡ㄟ^(guò)PCIe內(nèi)存共享方式和設(shè)備間的直接訪問(wèn) (Direct Memory access,DMA) 技術(shù),使得大數(shù)據(jù)在設(shè)備間可以高速通信,同時(shí)開放API接口,一方面保留了DDS訂閱/發(fā)布的功能特點(diǎn),另一方面也使得用戶不需要關(guān)心底層設(shè)備間地址映射邏輯和實(shí)現(xiàn)方法,專注于DDS應(yīng)用層上的設(shè)計(jì)。

基于PCIe的通信模式創(chuàng)新大幅降低鏈路時(shí)延,減少CPU算力消耗,同時(shí)能兼顧DDS中的發(fā)布/訂閱等通信協(xié)議的優(yōu)勢(shì),滿足跨SOC的大數(shù)據(jù)通信場(chǎng)景需求。實(shí)測(cè)DDS基于PCIe的通信模式在通信原理和實(shí)際效果中均優(yōu)于以太網(wǎng),大文件傳輸時(shí)效果尤其明顯。我們基于PCIe模式實(shí)現(xiàn)ROS2+DDS的跨設(shè)備大數(shù)據(jù)通信應(yīng)用,在數(shù)據(jù)量達(dá)到100MB時(shí)完整鏈路通信效率較以太網(wǎng)模式提升14倍。

  • I/O升級(jí),節(jié)點(diǎn)間GPU數(shù)據(jù)共享,避免CPU-GPU間搬運(yùn)

為了提高感知任務(wù)的執(zhí)行效率,減少CPU-GPU間冗余IO操作,優(yōu)化鏈路延時(shí),AutoDRRT 2.0在不改變?cè)寄K鏈路的前提下,以傳輸數(shù)據(jù)"標(biāo)簽"的間接通信代替?zhèn)鬏敂?shù)據(jù)"本體"的直接通信,通過(guò)節(jié)點(diǎn)間GPU數(shù)據(jù)共享,在保留模型間松耦合結(jié)構(gòu)的同時(shí)完成了基于DDS的高效能協(xié)作,實(shí)現(xiàn)"輕量化"傳輸和調(diào)度功能,減少框架負(fù)荷。

對(duì)于相機(jī)傳輸鏈路,通過(guò)GPU數(shù)據(jù)共享完成數(shù)據(jù)獲取及模型推理兩個(gè)ROS2節(jié)點(diǎn)的數(shù)據(jù)通信,可以有效減少IO操作,降低系統(tǒng)時(shí)延。如下給出典型的單幀圖像數(shù)據(jù)讀入(8 MB數(shù)據(jù)量)下IO_Opt升級(jí)效果,對(duì)比優(yōu)化前模塊 (傳統(tǒng)IO算法) 延時(shí)下降85%,效率提升近6倍。  

此外,AutoDRRT 2.0框架為BEV+Transformer大模型上車提供了完善的開發(fā)工具鏈,包括模型的數(shù)據(jù)標(biāo)定、訓(xùn)練推理和部署加速工具等,同時(shí)整合了完善的傳感器接入方案,集成主流型號(hào)的激光雷達(dá)、相機(jī)、毫米波雷達(dá)、組合慣導(dǎo)等設(shè)備驅(qū)動(dòng),支持用戶在系統(tǒng)層面對(duì)框架進(jìn)行監(jiān)控和管理。仿真方面,該框架還開放了RoboBus和GolfCar兩個(gè)L4級(jí)自動(dòng)駕駛場(chǎng)景的系統(tǒng)測(cè)試。浪潮信息希望通過(guò)自動(dòng)駕駛計(jì)算框架AutoDRRT 2.0和車載域控制器EIS400的一系列創(chuàng)新技術(shù)和產(chǎn)品,為汽車廠商、自動(dòng)駕駛軟件開發(fā)商帶來(lái)更高性能、更高通信帶寬、更低IO延時(shí)的自動(dòng)駕駛軟硬優(yōu)化車載計(jì)算方案,加速BEV+Transformer技術(shù)的大規(guī)模上車應(yīng)用。

 

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉