當前位置:首頁 > 原創(chuàng) > 劉巖軒
[導讀]大數(shù)據(jù)集計算的真正限制來自網(wǎng)絡和內(nèi)存兩大瓶頸,而AMD Alveo V80則能夠處理掉這兩大瓶頸,并且?guī)椭蛻舸蠓档蚑CO。

為提高特定類型的計算負載,在數(shù)據(jù)中心中存在著大量的加速卡,包括GPU、FPGA和ASIC等多種不同的類型。GPU憑借著更高的并行計算能力聞名,對于深度學習和機器學習能夠提供更好的效能優(yōu)勢;而FPGA則具備高度可編程性和可配置性,可針對特定任務進行硬件優(yōu)化來顯著提高性能、優(yōu)化延遲并帶來成本效益。

全球數(shù)據(jù)中心加速器市場預計將以24%的年增長率飛速發(fā)展,到2032年達到1300億。這背后不僅是生成式AI的訓練來推動,還包括了各類的推理場景的落地。而在像銀行業(yè)的高頻交易、電信行業(yè)的網(wǎng)絡虛擬化和安全加密、醫(yī)學和科研領(lǐng)域的大規(guī)模數(shù)據(jù)分析和實時洞見等具備大規(guī)模數(shù)據(jù)集和低延遲需求的應用中,F(xiàn)PGA加速卡憑借著靈活計算和低延遲的優(yōu)勢,通常會為計算負載帶來著更好的加速表現(xiàn)。

近日AMD發(fā)布了其最新的基于Versal HBM自適應SoC的加速卡——AMD Alveo V80加速卡,這是其第一款面向大規(guī)模市場的加速卡產(chǎn)品,旨在幫助突破計算和存儲密集型工作負載中的網(wǎng)絡和內(nèi)存帶寬瓶頸,幫助客戶實現(xiàn)性能最大化的同時減少功耗、占板面積和時延。


大數(shù)據(jù)集計算的真正限制——網(wǎng)絡和內(nèi)存瓶頸

一個高性能計算架構(gòu)需要包含數(shù)據(jù)的輸入、前級處理、主處理單元、內(nèi)存和高速互聯(lián)輸出等多個部分,而限制整個計算加速的瓶頸,其實并不出現(xiàn)在計算部分。如下圖所示,傳統(tǒng)的架構(gòu)中,網(wǎng)絡的輸入帶寬較低,僅支持25G和100G兩個通路的數(shù)據(jù)輸入,這為整個計算架構(gòu)帶來了第一個瓶頸;而計算單元還需要和DDR進行反復的數(shù)據(jù)讀寫。但其實DDR內(nèi)存的帶寬,遠低于計算單元計算帶寬,這就又產(chǎn)生了第二個瓶頸。

網(wǎng)絡帶寬不足可能會成為整個系統(tǒng)性能的瓶頸,限制數(shù)據(jù)處理的速度和效率。內(nèi)存速度和容量如果不足,將影響數(shù)據(jù)的快速訪問和處理,尤其是在涉及大規(guī)模數(shù)據(jù)集或需要復雜計算的應用中。在這兩個瓶頸的限制下,即使計算單元有著更高的計算速度、后端的PCIe和Interlaken與其他芯片有著更快的連接速度,也無法完全釋放整個計算架構(gòu)的真正能力。從整個架構(gòu)來看,要實現(xiàn)數(shù)據(jù)流的管理和優(yōu)化,讓其保持與計算單元相匹配的快速響應。

在像高性能科學模擬、視頻處理和分析、金融技術(shù)等大型計算任務中,對于網(wǎng)絡帶寬和內(nèi)存瓶頸尤其敏感。網(wǎng)絡和內(nèi)存性能不足都會直接影響到任務的處理速度、系統(tǒng)的響應時間以及最終的輸出質(zhì)量。因此,在設計和部署這些應用時,優(yōu)化網(wǎng)絡和內(nèi)存配置是關(guān)鍵。

“通過Versal HBM,也就是今天給大家介紹的Alveo V80計算加速卡,能夠主要解決高性能計算工作負載的內(nèi)存和網(wǎng)絡訪問方面形成瓶頸的這兩個問題?!癆MD 自適應和嵌入式計算事業(yè)部(AECG )高級產(chǎn)品線經(jīng)理Shyam Chander在發(fā)布會上分享到,“V80芯片支持的工作負載非常廣泛,可以從10G到800G,范圍非常廣泛,而且速率有所提高,能夠支持不同的協(xié)議。HBM再加上其他各種Versal器件,它可以處理掉剛剛提到的瓶頸問題,所以不再需要DDR4或其他外部芯片。把安全連接再加上靈活應變的計算,再加上HBM,我們可以幫助用戶實現(xiàn)性能的最大化,同時減少功耗、占板面積以及時延?!?


Alveo V80加速卡:靈活硬件加速和低時延處理

Alveo V80加速卡上搭載的加速芯片是來自AMD的一顆7nm Versal系列自適應SoC,其中包含了260萬LUT可編程邏輯資源,以及集成了32GB的HBM2e,能夠達到820GB/s的數(shù)據(jù)帶寬。此外,該SoC上還集成了400G加密引擎和600G以太網(wǎng)的高帶寬核心,還包括了DDR控制器、PCIe5等硬核資源。

整個加速卡上除了這顆Versal自適應SoC外,還具備豐富的拓展和連接能力。板載高帶寬收發(fā)器和光纖模塊,能夠支持800G(4X200G)網(wǎng)絡帶寬、PCIe Gen5金手指、32GB DDR4 DIMM拓展插槽和MCIO拓展插槽等。

據(jù)Shyam Chander介紹,相比上一代的Alveo U55C加速卡,Alveo V80的提升明顯。通過參數(shù)對比可以看到存儲器帶寬方面,V80是至高1.8倍,邏輯密度是至高2倍,網(wǎng)絡帶寬從200GB每秒升至800GB每秒,至高4倍,在PCle帶寬方面至高2倍。

【FPGA加速卡的獨特優(yōu)勢】

網(wǎng)絡附接加速卡需要與本地的CPU進行連接,而受限于CPU的連接能力,所以不能夠無限增加加速卡的數(shù)量。而如果選擇Alveo V80作為網(wǎng)絡附接加速卡,那么就可以以以網(wǎng)絡限速加速傳入數(shù)據(jù),避開CPU至加速器的PCle的瓶頸,實現(xiàn)每服務器卡數(shù)和計算密度的最大化。

憑借著靈活的存儲器層次,自適應計算架構(gòu)相比傳統(tǒng)架構(gòu)有著更低的時延和功耗。在傳統(tǒng)的CPU/GPU架構(gòu)中,計算核心和緩存之間有著固定的層次結(jié)構(gòu),大數(shù)據(jù)量的讀寫必然需要夸層訪問,這種不規(guī)則的訪問模式會帶來了潛在的低效率。而在自適應計算架構(gòu)中,內(nèi)存可以部署地更靠近計算核心,這能夠大大降低了數(shù)據(jù)遷移的成本。


加速傳感器處理和數(shù)據(jù)壓縮分析等工作負載,大幅降低客戶總體擁有成本

憑借著Alveo V80的獨特優(yōu)勢,不少客戶已經(jīng)獲得了更好的加速體驗。AMD在發(fā)布會現(xiàn)場展示了多個不同類型的案例。一個非常適合FPGA加速卡的場景是在傳感器處理方面,Alveo V80能夠強化處理相信你,且大幅降低客戶的成本。

聯(lián)邦科學與工業(yè)研究組織(CSIRO)需要在每平方公里的面積上部署131000個天線,以15TB/s的速率進行次序的傳感器數(shù)據(jù)采集和傳輸。此前CSIRO選擇的是420塊Alveo U55C卡用于波束成形和相關(guān)器計算,總計需要占用21臺服務器和4個機架。而在更新到ALveo V80之后,通過單卡的密集計算簡化了整個新系統(tǒng)的集成、擴展和集群。最終僅需140張V80加速卡就可以完成之前420張U55C才能完成的計算,服務器數(shù)量也減少至14臺,電力消耗也節(jié)省了一半以上。換算總擁有成本預計至高可以降低21%。

另一個典型的用例是在具備壓縮與數(shù)據(jù)分析功能的服務器存儲節(jié)點上,V80加速卡可用于數(shù)據(jù)壓縮和分析的功能。NVMe SSD可以直接透過MICO連接器將數(shù)據(jù)傳入V80上的Versal SoC中進行壓縮、分析和解壓縮等操作,然后將數(shù)據(jù)通過PCIe 5傳輸給主機CPU。因為Versal SoC中集成了HBM,所以大大減少了數(shù)據(jù)遷移,加速了數(shù)據(jù)查詢的效率。

據(jù)Shyam Chander分享,通過Alveo V80帶來的壓縮加速和存儲容量增加,傳統(tǒng)上需要55臺服務器、1303個SSD驅(qū)動器才能完成的計算負載,現(xiàn)在僅需21臺服務器、504個SSD驅(qū)動器和42張V80加速卡即可完成。服務器成本降低了44%,功耗降低了55%,總擁有成本最高可以降低56%。

除此外,在網(wǎng)絡安全和金融科技方面,V80加速卡也有著不可替代的價值。憑借著硬化的加密引擎和靈活的數(shù)據(jù)檢測、協(xié)議和安全策略,以及來自HBM帶來的緩沖和流量表儲存功能,Alveo V80可以推動下一代800G網(wǎng)絡防火墻的構(gòu)建。在金融建模和算法交易方面,Alveo V80中的FPGA和DSP計算資源可用于建模仿真和回測,而HBM資源則可用于大數(shù)據(jù)集和歷史定價數(shù)據(jù)存儲,此外還有752Mb的RAM用于定價數(shù)據(jù)、交易記錄。


結(jié)語

FPGA加速卡相比GPU加速卡,在某些工作負載方面有著獨特的優(yōu)勢。而Alveo V80還集成了HBM,因此在提供靈活計算能力的同時,還大大降低了處理的時延和能效。但不可否認的是,F(xiàn)PGA加速卡對于開發(fā)者的硬件編程能力要求更高,純軟件工程師上手可能還需要一些學習成本。AMD也表示,Alveo V80針對傳統(tǒng)FPGA開發(fā)者提供了更為優(yōu)化的開發(fā)流程,當他們需要針對自定義工作負載進行硬件優(yōu)化的時候,可以通過AMD VVivado設計套件來優(yōu)化RTL設計,快速完成啟動項目的示例設計。

Shyam Chander表示,根據(jù)不同的工作負載會有不同的計算加速需求,未來各種類型的加速卡將會共存。GPU主要擅長浮點、并聯(lián)、定點計算,可以提供大量的HBM。FPGA主要擅長線上訪問的實時處理,而且具備低時延、靈活應變特點,有非常豐富的存儲器架構(gòu)資源,就像樂高積木一樣,可以自定義進行拼接和拼裝。“FPGA的自適應SoC能降低時延,也能進行實時的傳入數(shù)據(jù)的處理,同時還能夠減少功耗。所以我覺得對于硬件開發(fā)者來說,FPGA為基礎(chǔ)的加速器卡是最為適用的?!?

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉