當(dāng)前位置:首頁(yè) > 智能硬件 > 人工智能AI
[導(dǎo)讀]   AI加速的尷尬現(xiàn)狀,不知你是否有感受?   獨(dú)占式方案,非虛擬化使用,成本高昂。缺少異構(gòu)加速管理和調(diào)度,方案難度大,供應(yīng)商還容易被鎖定。   對(duì)于AI開(kāi)發(fā)者而言,虛擬化使用加

  AI加速的尷尬現(xiàn)狀,不知你是否有感受?

  獨(dú)占式方案,非虛擬化使用,成本高昂。缺少異構(gòu)加速管理和調(diào)度,方案難度大,供應(yīng)商還容易被定。

  對(duì)于AI開(kāi)發(fā)者而言,虛擬化使用加速器計(jì)算資源,現(xiàn)有調(diào)度和管理軟件,并不親民。

  所以現(xiàn)在,幾位虛擬化計(jì)算領(lǐng)域的專家,初步打造完成了一套解決方案并正式在GitHub推出,面向開(kāi)發(fā)者,免費(fèi)下載和使用。

  這就是剛上線的OrionAI計(jì)算平臺(tái)。

  

  AI加速器虛擬化

  整個(gè)OrionAI計(jì)算平臺(tái),包括AI加速器虛擬化軟件,和異構(gòu)加速器管理和調(diào)度軟件等兩大組件。

  其中OrionAI加速器虛擬化軟件,不僅支持用戶使用和共享本地加速器資源,而且支持應(yīng)用透明地使用遠(yuǎn)程加速器資源——無(wú)需修改代碼。

  從而打破資源調(diào)度的物理邊界,構(gòu)建更高效資源池。

  異構(gòu)加速器管理和調(diào)度軟件,同樣支持用戶的應(yīng)用無(wú)需修改代碼,即可透明地運(yùn)行在多種不同加速器之上。

  最終,幫助用戶更好利用多種不同加速器的優(yōu)勢(shì),構(gòu)建更高效的異構(gòu)資源池。

  剛上線的OrionAI計(jì)算平臺(tái)社區(qū)版v1.0,支持英偉達(dá)GPU的虛擬化,供AI、互聯(lián)網(wǎng)和公有云頭部客戶試用,開(kāi)發(fā)者用戶可免費(fèi)下載和使用。

  AI加速痛點(diǎn)

  OrionAI計(jì)算平臺(tái)因何出發(fā)?

  方案打造者稱,隨著AI技術(shù)的快速發(fā)展和普及,越來(lái)越多客戶開(kāi)始使用高性能的AI加速器,包括GPU, FPGA和AI ASIC芯片等。

  同時(shí),越來(lái)越多的客戶需要高效的AI加速器虛擬化軟件,來(lái)提高加速器資源的利用率,以及高效的異構(gòu)加速器管理和調(diào)度軟件,來(lái)更好地利用多種不同的加速器,提高性能,降低成本,避免供應(yīng)商鎖定。

  但相應(yīng)地面臨開(kāi)頭提及的兩大痛點(diǎn)。

  首先,AI加速器價(jià)格偏高。

  以知名的英偉達(dá)V100 GPU為例,價(jià)格在8萬(wàn)元人民幣左右,高性能FPGA卡,價(jià)位也在5萬(wàn)元人民幣。

  其次,由于缺乏高效經(jīng)濟(jì)的AI加速器虛擬化解決方案,目前絕大部分企業(yè),不得不獨(dú)占式使用上述昂貴的加速器資源,導(dǎo)致資源利用率低,成本高。

  根據(jù)AWS在re:Invent 2018披露數(shù)據(jù),AWS上GPU利用率只有10%~30%。

  當(dāng)物理機(jī)上只有一塊GPU時(shí),如果沒(méi)有GPU虛擬化解決方案,用戶就只能讓一個(gè)虛擬機(jī)獨(dú)占式地使用該GPU,導(dǎo)致該GPU無(wú)法被多個(gè)虛擬機(jī)共享。

  于是幾位加速虛擬化領(lǐng)域的老兵,決定試水,并最終推出了自己的方案:OrionAI計(jì)算平臺(tái)v1.0。

  方案詳解

  該平臺(tái)支持用戶通過(guò)多個(gè)虛擬機(jī)或者容器,來(lái)共享本地以及遠(yuǎn)程GPU資源。

  使用OrionAI平臺(tái)的典型場(chǎng)景有:

  第一,多個(gè)虛擬機(jī)或容器共享本地的GPU。

  用戶只需要將虛擬機(jī)或者容器中的CUDA運(yùn)行環(huán)境(CUDA runtime),替換成Orion運(yùn)行環(huán)境(Orion RunTIme)即可。

  而用戶的AI應(yīng)用和所使用的深度學(xué)習(xí)框架(TensorFlow,、PyTorch等)不需要任何改變,即可像在原生的CUDA運(yùn)行環(huán)境下一樣運(yùn)行。

  同時(shí),用戶需要在物理服務(wù)器上運(yùn)行Orion服務(wù)(Orion Server),該服務(wù)會(huì)接管物理GPU,并且將物理GPU虛擬化成多個(gè)Orion vGPU。

  用戶在不同虛擬機(jī)上運(yùn)行的AI應(yīng)用會(huì)被分配到不同的Orion vGPU上。這樣物理GPU的利用率就會(huì)得到顯著提升。

  第二,多個(gè)虛擬機(jī)或容器共享遠(yuǎn)程的GPU。

  用戶可以將虛擬機(jī)/容器,運(yùn)行在沒(méi)有GPU的服務(wù)器上,AI應(yīng)用無(wú)需修改,就可以通過(guò)Orion RunTIme來(lái)使用另外一臺(tái)服務(wù)器上的Orion vGPU。

  如此一來(lái),用戶的AI應(yīng)用就可以被部署在數(shù)據(jù)中心中的任何一臺(tái)服務(wù)器之上,用戶的資源調(diào)配和管理,得到極大靈活性提升。

  第三,單個(gè)虛擬機(jī)或容器,使用跨越多臺(tái)物理服務(wù)器上的GPU。

  

  用戶的虛擬機(jī)/容器通過(guò)Orion RunTIme,無(wú)需修改AI應(yīng)用和框架,就可以使用跨越多臺(tái)物理機(jī)上的GPU資源。

  目前現(xiàn)狀是,AI應(yīng)用可能需要64個(gè)GPU——甚至更多GPU來(lái)訓(xùn)練模型,但是今天還沒(méi)有一臺(tái)物理服務(wù)器能夠完全滿足。

  通過(guò)Orion RunTIme,應(yīng)用無(wú)需修改就可以直接使用多臺(tái)物理服務(wù)器上的GPU,如16臺(tái)服務(wù)器,每臺(tái)4塊GPU。

  如此一來(lái),用戶GPU資源,就能變成一個(gè)真正的數(shù)據(jù)中心級(jí)的資源池。

  用戶的AI應(yīng)用可以透明地使用任何一臺(tái)服務(wù)器上的GPU資源,資源利用率和管理調(diào)度靈活度,可以得到極大提升。

  用戶通過(guò)Orion AI Platform分配的GPU資源,無(wú)論是本地GPU資源,還是遠(yuǎn)程GPU資源,均軟件定義、按需分配。

  這些資源不同于通過(guò)硬件虛擬化技術(shù)得到的資源,它們的分配和釋放都能在瞬間完成,不需要重啟虛擬機(jī)或者容器。

  例如,當(dāng)用戶啟動(dòng)了一個(gè)虛擬機(jī)時(shí),如果用戶不需要運(yùn)行AI應(yīng)用,那么Orion AI Platform不會(huì)給這個(gè)虛擬機(jī)分配GPU資源。

  當(dāng)用戶需要運(yùn)行一個(gè)大型訓(xùn)練任務(wù),例如需要16個(gè)Orion vGPU,那么Orion AI Platform會(huì)瞬間給該虛擬機(jī)分配16個(gè)Orion vGPU。

  當(dāng)用戶完成訓(xùn)練后,又只需要1個(gè)Orion vGPU來(lái)做推理,那么Orion AI Platform又能瞬間釋放15個(gè)Orion vGPU。

  值得一提的是,所有上述的資源分配和釋放都不需要虛擬機(jī)重啟。

  技術(shù)細(xì)節(jié)和benchmark

  上述方案背后,究竟是怎樣的技術(shù)細(xì)節(jié)?

  實(shí)際上,Orion Runtime提供了和CUDA Runtime完全兼容的API接口,保證用戶的應(yīng)用無(wú)需修改即能運(yùn)行。

  Orion Runtime在得到用戶所有對(duì)CUDA Runtime的調(diào)用之后,將這些調(diào)用發(fā)送給Orion Server。

  Orion Server會(huì)將這些調(diào)用加載到物理GPU上去運(yùn)行,然后再將結(jié)果返回給Orion Runtime。

  OrionAI計(jì)算平臺(tái)v1.0也公布了性能對(duì)比結(jié)果。

  先看配置:

  GPU服務(wù)器配置:雙路Intel Xeon Gold 6132,128GB內(nèi)存,單塊nVidia Tesla P40。

  性能測(cè)試集:TensorFlow v1.12, 官方benchmark,無(wú)代碼修改,測(cè)試使用synthetic數(shù)據(jù)。

  “Native GPU”為將性能測(cè)試運(yùn)行在物理GPU之上,不使用虛擬機(jī)或者容器;

  “Orion Local Container”為將性能測(cè)試運(yùn)行在安裝了Orion Runtime的容器之中,Orion Server運(yùn)行在同一臺(tái)物理機(jī)之上;

  “Orion Local KVM”為將性能測(cè)試運(yùn)行在安裝了Orion Runtime的KVM虛擬機(jī)之中,Orion Server運(yùn)行在同一臺(tái)物理機(jī)之上;

  “Orion Remote – 25G RDMA”為性能測(cè)試運(yùn)行在一臺(tái)沒(méi)有GPU的物理機(jī)之上,Orion Server運(yùn)行在有GPU的物理機(jī)之上,兩臺(tái)物理機(jī)通過(guò)25G RDMA網(wǎng)卡連接。

  最終對(duì)比結(jié)果如下:

  

  通過(guò)數(shù)據(jù)可以看出,和跑在物理GPU上相比,Orion Runtime和Orion Server引入的性能損失非常小。

  尤其是在通過(guò)網(wǎng)絡(luò)連接來(lái)使用遠(yuǎn)程的GPU的情況下,OrionAI計(jì)算平臺(tái)通過(guò)大量的優(yōu)化,使其性能與使用本機(jī)GPU相比差距非常小。

  OrionAI計(jì)算平臺(tái)打造方

  最后,介紹下OrionAI計(jì)算平臺(tái)背后的打造方:

  趨動(dòng)科技 VirtAI Tech。

  2019年1月剛創(chuàng)立,主打AI加速器虛擬化軟件,以及異構(gòu)AI加速器管理和調(diào)度軟件。

  主要?jiǎng)?chuàng)始人有三位,皆為該領(lǐng)域的資深老兵。

  王鯤,趨動(dòng)科技CEO。博士畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系。

  在創(chuàng)辦趨動(dòng)科技之前,王鯤博士供職于Dell EMC中國(guó)研究院,任研究院院長(zhǎng),負(fù)責(zé)管理和領(lǐng)導(dǎo)Dell EMC在大中華區(qū)的所有研究團(tuán)隊(duì)。

  他長(zhǎng)期從事計(jì)算機(jī)體系結(jié)構(gòu),GPU和FPGA虛擬化,分布式系統(tǒng)等領(lǐng)域的研究工作,在業(yè)界最早開(kāi)始推動(dòng)FPGA虛擬化相關(guān)研究,在該領(lǐng)域擁有十多年的工作經(jīng)驗(yàn)和積累。

  陳飛,趨動(dòng)科技CTO。博士畢業(yè)于中國(guó)科學(xué)院計(jì)算技術(shù)研究所。

  在創(chuàng)立趨動(dòng)科技之前,陳飛博士供職于Dell EMC,擔(dān)任Dell EMC中國(guó)研究院首席科學(xué)家,長(zhǎng)期從事高性能計(jì)算,計(jì)算機(jī)體系結(jié)構(gòu),GPU和FPGA虛擬化等領(lǐng)域的研究工作。

  鄒懋,趨動(dòng)科技首席架構(gòu)師。博士畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)。

  在創(chuàng)立趨動(dòng)科技之前,鄒懋博士供職于Dell EMC,擔(dān)任Dell EMC中國(guó)研究院高級(jí)研究員,長(zhǎng)期從事計(jì)算機(jī)體系結(jié)構(gòu),GPU虛擬化等領(lǐng)域的研究工作。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉