AI加速 OrionAI計(jì)算平臺(tái)剛剛上線
AI加速的尷尬現(xiàn)狀,不知你是否有感受?
獨(dú)占式方案,非虛擬化使用,成本高昂。缺少異構(gòu)加速管理和調(diào)度,方案難度大,供應(yīng)商還容易被鎖定。
對(duì)于AI開(kāi)發(fā)者而言,虛擬化使用加速器計(jì)算資源,現(xiàn)有調(diào)度和管理軟件,并不親民。
所以現(xiàn)在,幾位虛擬化計(jì)算領(lǐng)域的專家,初步打造完成了一套解決方案并正式在GitHub推出,面向開(kāi)發(fā)者,免費(fèi)下載和使用。
這就是剛上線的OrionAI計(jì)算平臺(tái)。
AI加速器虛擬化
整個(gè)OrionAI計(jì)算平臺(tái),包括AI加速器虛擬化軟件,和異構(gòu)加速器管理和調(diào)度軟件等兩大組件。
其中OrionAI加速器虛擬化軟件,不僅支持用戶使用和共享本地加速器資源,而且支持應(yīng)用透明地使用遠(yuǎn)程加速器資源——無(wú)需修改代碼。
從而打破資源調(diào)度的物理邊界,構(gòu)建更高效資源池。
異構(gòu)加速器管理和調(diào)度軟件,同樣支持用戶的應(yīng)用無(wú)需修改代碼,即可透明地運(yùn)行在多種不同加速器之上。
最終,幫助用戶更好利用多種不同加速器的優(yōu)勢(shì),構(gòu)建更高效的異構(gòu)資源池。
剛上線的OrionAI計(jì)算平臺(tái)社區(qū)版v1.0,支持英偉達(dá)GPU的虛擬化,供AI、互聯(lián)網(wǎng)和公有云頭部客戶試用,開(kāi)發(fā)者用戶可免費(fèi)下載和使用。
AI加速痛點(diǎn)OrionAI計(jì)算平臺(tái)因何出發(fā)?
方案打造者稱,隨著AI技術(shù)的快速發(fā)展和普及,越來(lái)越多客戶開(kāi)始使用高性能的AI加速器,包括GPU, FPGA和AI ASIC芯片等。
同時(shí),越來(lái)越多的客戶需要高效的AI加速器虛擬化軟件,來(lái)提高加速器資源的利用率,以及高效的異構(gòu)加速器管理和調(diào)度軟件,來(lái)更好地利用多種不同的加速器,提高性能,降低成本,避免供應(yīng)商鎖定。
但相應(yīng)地面臨開(kāi)頭提及的兩大痛點(diǎn)。
首先,AI加速器價(jià)格偏高。
以知名的英偉達(dá)V100 GPU為例,價(jià)格在8萬(wàn)元人民幣左右,高性能FPGA卡,價(jià)位也在5萬(wàn)元人民幣。
其次,由于缺乏高效經(jīng)濟(jì)的AI加速器虛擬化解決方案,目前絕大部分企業(yè),不得不獨(dú)占式使用上述昂貴的加速器資源,導(dǎo)致資源利用率低,成本高。
根據(jù)AWS在re:Invent 2018披露數(shù)據(jù),AWS上GPU利用率只有10%~30%。
當(dāng)物理機(jī)上只有一塊GPU時(shí),如果沒(méi)有GPU虛擬化解決方案,用戶就只能讓一個(gè)虛擬機(jī)獨(dú)占式地使用該GPU,導(dǎo)致該GPU無(wú)法被多個(gè)虛擬機(jī)共享。
于是幾位加速虛擬化領(lǐng)域的老兵,決定試水,并最終推出了自己的方案:OrionAI計(jì)算平臺(tái)v1.0。
方案詳解該平臺(tái)支持用戶通過(guò)多個(gè)虛擬機(jī)或者容器,來(lái)共享本地以及遠(yuǎn)程GPU資源。
使用OrionAI平臺(tái)的典型場(chǎng)景有:
第一,多個(gè)虛擬機(jī)或容器共享本地的GPU。
用戶只需要將虛擬機(jī)或者容器中的CUDA運(yùn)行環(huán)境(CUDA runtime),替換成Orion運(yùn)行環(huán)境(Orion RunTIme)即可。
而用戶的AI應(yīng)用和所使用的深度學(xué)習(xí)框架(TensorFlow,、PyTorch等)不需要任何改變,即可像在原生的CUDA運(yùn)行環(huán)境下一樣運(yùn)行。
同時(shí),用戶需要在物理服務(wù)器上運(yùn)行Orion服務(wù)(Orion Server),該服務(wù)會(huì)接管物理GPU,并且將物理GPU虛擬化成多個(gè)Orion vGPU。
用戶在不同虛擬機(jī)上運(yùn)行的AI應(yīng)用會(huì)被分配到不同的Orion vGPU上。這樣物理GPU的利用率就會(huì)得到顯著提升。
第二,多個(gè)虛擬機(jī)或容器共享遠(yuǎn)程的GPU。
用戶可以將虛擬機(jī)/容器,運(yùn)行在沒(méi)有GPU的服務(wù)器上,AI應(yīng)用無(wú)需修改,就可以通過(guò)Orion RunTIme來(lái)使用另外一臺(tái)服務(wù)器上的Orion vGPU。
如此一來(lái),用戶的AI應(yīng)用就可以被部署在數(shù)據(jù)中心中的任何一臺(tái)服務(wù)器之上,用戶的資源調(diào)配和管理,得到極大靈活性提升。
第三,單個(gè)虛擬機(jī)或容器,使用跨越多臺(tái)物理服務(wù)器上的GPU。
用戶的虛擬機(jī)/容器通過(guò)Orion RunTIme,無(wú)需修改AI應(yīng)用和框架,就可以使用跨越多臺(tái)物理機(jī)上的GPU資源。
目前現(xiàn)狀是,AI應(yīng)用可能需要64個(gè)GPU——甚至更多GPU來(lái)訓(xùn)練模型,但是今天還沒(méi)有一臺(tái)物理服務(wù)器能夠完全滿足。
通過(guò)Orion RunTIme,應(yīng)用無(wú)需修改就可以直接使用多臺(tái)物理服務(wù)器上的GPU,如16臺(tái)服務(wù)器,每臺(tái)4塊GPU。
如此一來(lái),用戶GPU資源,就能變成一個(gè)真正的數(shù)據(jù)中心級(jí)的資源池。
用戶的AI應(yīng)用可以透明地使用任何一臺(tái)服務(wù)器上的GPU資源,資源利用率和管理調(diào)度靈活度,可以得到極大提升。
用戶通過(guò)Orion AI Platform分配的GPU資源,無(wú)論是本地GPU資源,還是遠(yuǎn)程GPU資源,均軟件定義、按需分配。
這些資源不同于通過(guò)硬件虛擬化技術(shù)得到的資源,它們的分配和釋放都能在瞬間完成,不需要重啟虛擬機(jī)或者容器。
例如,當(dāng)用戶啟動(dòng)了一個(gè)虛擬機(jī)時(shí),如果用戶不需要運(yùn)行AI應(yīng)用,那么Orion AI Platform不會(huì)給這個(gè)虛擬機(jī)分配GPU資源。
當(dāng)用戶需要運(yùn)行一個(gè)大型訓(xùn)練任務(wù),例如需要16個(gè)Orion vGPU,那么Orion AI Platform會(huì)瞬間給該虛擬機(jī)分配16個(gè)Orion vGPU。
當(dāng)用戶完成訓(xùn)練后,又只需要1個(gè)Orion vGPU來(lái)做推理,那么Orion AI Platform又能瞬間釋放15個(gè)Orion vGPU。
值得一提的是,所有上述的資源分配和釋放都不需要虛擬機(jī)重啟。
技術(shù)細(xì)節(jié)和benchmark上述方案背后,究竟是怎樣的技術(shù)細(xì)節(jié)?
實(shí)際上,Orion Runtime提供了和CUDA Runtime完全兼容的API接口,保證用戶的應(yīng)用無(wú)需修改即能運(yùn)行。
Orion Runtime在得到用戶所有對(duì)CUDA Runtime的調(diào)用之后,將這些調(diào)用發(fā)送給Orion Server。
Orion Server會(huì)將這些調(diào)用加載到物理GPU上去運(yùn)行,然后再將結(jié)果返回給Orion Runtime。
OrionAI計(jì)算平臺(tái)v1.0也公布了性能對(duì)比結(jié)果。
先看配置:
GPU服務(wù)器配置:雙路Intel Xeon Gold 6132,128GB內(nèi)存,單塊nVidia Tesla P40。
性能測(cè)試集:TensorFlow v1.12, 官方benchmark,無(wú)代碼修改,測(cè)試使用synthetic數(shù)據(jù)。
“Native GPU”為將性能測(cè)試運(yùn)行在物理GPU之上,不使用虛擬機(jī)或者容器;
“Orion Local Container”為將性能測(cè)試運(yùn)行在安裝了Orion Runtime的容器之中,Orion Server運(yùn)行在同一臺(tái)物理機(jī)之上;
“Orion Local KVM”為將性能測(cè)試運(yùn)行在安裝了Orion Runtime的KVM虛擬機(jī)之中,Orion Server運(yùn)行在同一臺(tái)物理機(jī)之上;
“Orion Remote – 25G RDMA”為性能測(cè)試運(yùn)行在一臺(tái)沒(méi)有GPU的物理機(jī)之上,Orion Server運(yùn)行在有GPU的物理機(jī)之上,兩臺(tái)物理機(jī)通過(guò)25G RDMA網(wǎng)卡連接。
最終對(duì)比結(jié)果如下:
通過(guò)數(shù)據(jù)可以看出,和跑在物理GPU上相比,Orion Runtime和Orion Server引入的性能損失非常小。
尤其是在通過(guò)網(wǎng)絡(luò)連接來(lái)使用遠(yuǎn)程的GPU的情況下,OrionAI計(jì)算平臺(tái)通過(guò)大量的優(yōu)化,使其性能與使用本機(jī)GPU相比差距非常小。
OrionAI計(jì)算平臺(tái)打造方最后,介紹下OrionAI計(jì)算平臺(tái)背后的打造方:
趨動(dòng)科技 VirtAI Tech。
2019年1月剛創(chuàng)立,主打AI加速器虛擬化軟件,以及異構(gòu)AI加速器管理和調(diào)度軟件。
主要?jiǎng)?chuàng)始人有三位,皆為該領(lǐng)域的資深老兵。
王鯤,趨動(dòng)科技CEO。博士畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系。
在創(chuàng)辦趨動(dòng)科技之前,王鯤博士供職于Dell EMC中國(guó)研究院,任研究院院長(zhǎng),負(fù)責(zé)管理和領(lǐng)導(dǎo)Dell EMC在大中華區(qū)的所有研究團(tuán)隊(duì)。
他長(zhǎng)期從事計(jì)算機(jī)體系結(jié)構(gòu),GPU和FPGA虛擬化,分布式系統(tǒng)等領(lǐng)域的研究工作,在業(yè)界最早開(kāi)始推動(dòng)FPGA虛擬化相關(guān)研究,在該領(lǐng)域擁有十多年的工作經(jīng)驗(yàn)和積累。
陳飛,趨動(dòng)科技CTO。博士畢業(yè)于中國(guó)科學(xué)院計(jì)算技術(shù)研究所。
在創(chuàng)立趨動(dòng)科技之前,陳飛博士供職于Dell EMC,擔(dān)任Dell EMC中國(guó)研究院首席科學(xué)家,長(zhǎng)期從事高性能計(jì)算,計(jì)算機(jī)體系結(jié)構(gòu),GPU和FPGA虛擬化等領(lǐng)域的研究工作。
鄒懋,趨動(dòng)科技首席架構(gòu)師。博士畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)。
在創(chuàng)立趨動(dòng)科技之前,鄒懋博士供職于Dell EMC,擔(dān)任Dell EMC中國(guó)研究院高級(jí)研究員,長(zhǎng)期從事計(jì)算機(jī)體系結(jié)構(gòu),GPU虛擬化等領(lǐng)域的研究工作。