AI加速 OrionAI計(jì)算平臺(tái)剛剛上線

時(shí)間：2020-06-01 07:30:02

關(guān)鍵字： AI GPU 加速器

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 　　AI加速的尷尬現(xiàn)狀，不知你是否有感受？　　獨(dú)占式方案，非虛擬化使用，成本高昂。缺少異構(gòu)加速管理和調(diào)度，方案難度大，供應(yīng)商還容易被鎖定。　　對(duì)于AI開(kāi)發(fā)者而言，虛擬化使用加

　　AI加速的尷尬現(xiàn)狀，不知你是否有感受？

　　獨(dú)占式方案，非虛擬化使用，成本高昂。缺少異構(gòu)加速管理和調(diào)度，方案難度大，供應(yīng)商還容易被鎖定。

　　對(duì)于AI開(kāi)發(fā)者而言，虛擬化使用加速器計(jì)算資源，現(xiàn)有調(diào)度和管理軟件，并不親民。

　　所以現(xiàn)在，幾位虛擬化計(jì)算領(lǐng)域的專家，初步打造完成了一套解決方案并正式在GitHub推出，面向開(kāi)發(fā)者，免費(fèi)下載和使用。

　　這就是剛上線的OrionAI計(jì)算平臺(tái)。

　　AI加速器虛擬化

　　整個(gè)OrionAI計(jì)算平臺(tái)，包括AI加速器虛擬化軟件，和異構(gòu)加速器管理和調(diào)度軟件等兩大組件。

　　其中OrionAI加速器虛擬化軟件，不僅支持用戶使用和共享本地加速器資源，而且支持應(yīng)用透明地使用遠(yuǎn)程加速器資源——無(wú)需修改代碼。

　　從而打破資源調(diào)度的物理邊界，構(gòu)建更高效資源池。

　　異構(gòu)加速器管理和調(diào)度軟件，同樣支持用戶的應(yīng)用無(wú)需修改代碼，即可透明地運(yùn)行在多種不同加速器之上。

　　最終，幫助用戶更好利用多種不同加速器的優(yōu)勢(shì)，構(gòu)建更高效的異構(gòu)資源池。

　　剛上線的OrionAI計(jì)算平臺(tái)社區(qū)版v1.0，支持英偉達(dá)GPU的虛擬化，供AI、互聯(lián)網(wǎng)和公有云頭部客戶試用，開(kāi)發(fā)者用戶可免費(fèi)下載和使用。

　　AI加速痛點(diǎn)

　　OrionAI計(jì)算平臺(tái)因何出發(fā)？

　　方案打造者稱，隨著AI技術(shù)的快速發(fā)展和普及，越來(lái)越多客戶開(kāi)始使用高性能的AI加速器，包括GPU， FPGA和AI ASIC芯片等。

　　同時(shí)，越來(lái)越多的客戶需要高效的AI加速器虛擬化軟件，來(lái)提高加速器資源的利用率，以及高效的異構(gòu)加速器管理和調(diào)度軟件，來(lái)更好地利用多種不同的加速器，提高性能，降低成本，避免供應(yīng)商鎖定。

　　但相應(yīng)地面臨開(kāi)頭提及的兩大痛點(diǎn)。

　　首先，AI加速器價(jià)格偏高。

　　以知名的英偉達(dá)V100 GPU為例，價(jià)格在8萬(wàn)元人民幣左右，高性能FPGA卡，價(jià)位也在5萬(wàn)元人民幣。

　　其次，由于缺乏高效經(jīng)濟(jì)的AI加速器虛擬化解決方案，目前絕大部分企業(yè)，不得不獨(dú)占式使用上述昂貴的加速器資源，導(dǎo)致資源利用率低，成本高。

　　根據(jù)AWS在re:Invent 2018披露數(shù)據(jù)，AWS上GPU利用率只有10%～30%。

　　當(dāng)物理機(jī)上只有一塊GPU時(shí)，如果沒(méi)有GPU虛擬化解決方案，用戶就只能讓一個(gè)虛擬機(jī)獨(dú)占式地使用該GPU，導(dǎo)致該GPU無(wú)法被多個(gè)虛擬機(jī)共享。

　　于是幾位加速虛擬化領(lǐng)域的老兵，決定試水，并最終推出了自己的方案：OrionAI計(jì)算平臺(tái)v1.0。

　　方案詳解

　　該平臺(tái)支持用戶通過(guò)多個(gè)虛擬機(jī)或者容器，來(lái)共享本地以及遠(yuǎn)程GPU資源。

　　使用OrionAI平臺(tái)的典型場(chǎng)景有：

　　第一，多個(gè)虛擬機(jī)或容器共享本地的GPU。

　　用戶只需要將虛擬機(jī)或者容器中的CUDA運(yùn)行環(huán)境（CUDA runtime），替換成Orion運(yùn)行環(huán)境（Orion RunTIme）即可。

　　而用戶的AI應(yīng)用和所使用的深度學(xué)習(xí)框架（TensorFlow，、PyTorch等）不需要任何改變，即可像在原生的CUDA運(yùn)行環(huán)境下一樣運(yùn)行。

　　同時(shí)，用戶需要在物理服務(wù)器上運(yùn)行Orion服務(wù)（Orion Server），該服務(wù)會(huì)接管物理GPU，并且將物理GPU虛擬化成多個(gè)Orion vGPU。

　　用戶在不同虛擬機(jī)上運(yùn)行的AI應(yīng)用會(huì)被分配到不同的Orion vGPU上。這樣物理GPU的利用率就會(huì)得到顯著提升。

　　第二，多個(gè)虛擬機(jī)或容器共享遠(yuǎn)程的GPU。

　　用戶可以將虛擬機(jī)/容器，運(yùn)行在沒(méi)有GPU的服務(wù)器上，AI應(yīng)用無(wú)需修改，就可以通過(guò)Orion RunTIme來(lái)使用另外一臺(tái)服務(wù)器上的Orion vGPU。

　　如此一來(lái)，用戶的AI應(yīng)用就可以被部署在數(shù)據(jù)中心中的任何一臺(tái)服務(wù)器之上，用戶的資源調(diào)配和管理，得到極大靈活性提升。

　　第三，單個(gè)虛擬機(jī)或容器，使用跨越多臺(tái)物理服務(wù)器上的GPU。

　　用戶的虛擬機(jī)/容器通過(guò)Orion RunTIme，無(wú)需修改AI應(yīng)用和框架，就可以使用跨越多臺(tái)物理機(jī)上的GPU資源。

　　目前現(xiàn)狀是，AI應(yīng)用可能需要64個(gè)GPU——甚至更多GPU來(lái)訓(xùn)練模型，但是今天還沒(méi)有一臺(tái)物理服務(wù)器能夠完全滿足。

　　通過(guò)Orion RunTIme，應(yīng)用無(wú)需修改就可以直接使用多臺(tái)物理服務(wù)器上的GPU，如16臺(tái)服務(wù)器，每臺(tái)4塊GPU。

　　如此一來(lái)，用戶GPU資源，就能變成一個(gè)真正的數(shù)據(jù)中心級(jí)的資源池。

　　用戶的AI應(yīng)用可以透明地使用任何一臺(tái)服務(wù)器上的GPU資源，資源利用率和管理調(diào)度靈活度，可以得到極大提升。

　　用戶通過(guò)Orion AI Platform分配的GPU資源，無(wú)論是本地GPU資源，還是遠(yuǎn)程GPU資源，均軟件定義、按需分配。

　　這些資源不同于通過(guò)硬件虛擬化技術(shù)得到的資源，它們的分配和釋放都能在瞬間完成，不需要重啟虛擬機(jī)或者容器。

　　例如，當(dāng)用戶啟動(dòng)了一個(gè)虛擬機(jī)時(shí)，如果用戶不需要運(yùn)行AI應(yīng)用，那么Orion AI Platform不會(huì)給這個(gè)虛擬機(jī)分配GPU資源。

　　當(dāng)用戶需要運(yùn)行一個(gè)大型訓(xùn)練任務(wù)，例如需要16個(gè)Orion vGPU，那么Orion AI Platform會(huì)瞬間給該虛擬機(jī)分配16個(gè)Orion vGPU。

　　當(dāng)用戶完成訓(xùn)練后，又只需要1個(gè)Orion vGPU來(lái)做推理，那么Orion AI Platform又能瞬間釋放15個(gè)Orion vGPU。

　　值得一提的是，所有上述的資源分配和釋放都不需要虛擬機(jī)重啟。

　　技術(shù)細(xì)節(jié)和benchmark

　　上述方案背后，究竟是怎樣的技術(shù)細(xì)節(jié)？

　　實(shí)際上，Orion Runtime提供了和CUDA Runtime完全兼容的API接口，保證用戶的應(yīng)用無(wú)需修改即能運(yùn)行。

　　Orion Runtime在得到用戶所有對(duì)CUDA Runtime的調(diào)用之后，將這些調(diào)用發(fā)送給Orion Server。

　　Orion Server會(huì)將這些調(diào)用加載到物理GPU上去運(yùn)行，然后再將結(jié)果返回給Orion Runtime。

　　OrionAI計(jì)算平臺(tái)v1.0也公布了性能對(duì)比結(jié)果。

　　先看配置：

　　GPU服務(wù)器配置：雙路Intel Xeon Gold 6132，128GB內(nèi)存，單塊nVidia Tesla P40。

　　性能測(cè)試集：TensorFlow v1.12，官方benchmark，無(wú)代碼修改，測(cè)試使用synthetic數(shù)據(jù)。

　　“Native GPU”為將性能測(cè)試運(yùn)行在物理GPU之上，不使用虛擬機(jī)或者容器；

　　“Orion Local Container”為將性能測(cè)試運(yùn)行在安裝了Orion Runtime的容器之中，Orion Server運(yùn)行在同一臺(tái)物理機(jī)之上；

　　“Orion Local KVM”為將性能測(cè)試運(yùn)行在安裝了Orion Runtime的KVM虛擬機(jī)之中，Orion Server運(yùn)行在同一臺(tái)物理機(jī)之上；

　　“Orion Remote – 25G RDMA”為性能測(cè)試運(yùn)行在一臺(tái)沒(méi)有GPU的物理機(jī)之上，Orion Server運(yùn)行在有GPU的物理機(jī)之上，兩臺(tái)物理機(jī)通過(guò)25G RDMA網(wǎng)卡連接。

　　最終對(duì)比結(jié)果如下：

　　通過(guò)數(shù)據(jù)可以看出，和跑在物理GPU上相比，Orion Runtime和Orion Server引入的性能損失非常小。

　　尤其是在通過(guò)網(wǎng)絡(luò)連接來(lái)使用遠(yuǎn)程的GPU的情況下，OrionAI計(jì)算平臺(tái)通過(guò)大量的優(yōu)化，使其性能與使用本機(jī)GPU相比差距非常小。

　　OrionAI計(jì)算平臺(tái)打造方

　　最后，介紹下OrionAI計(jì)算平臺(tái)背后的打造方：

　　趨動(dòng)科技 VirtAI Tech。

　　2019年1月剛創(chuàng)立，主打AI加速器虛擬化軟件，以及異構(gòu)AI加速器管理和調(diào)度軟件。

　　主要?jiǎng)?chuàng)始人有三位，皆為該領(lǐng)域的資深老兵。

　　王鯤，趨動(dòng)科技CEO。博士畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系。

　　在創(chuàng)辦趨動(dòng)科技之前，王鯤博士供職于Dell EMC中國(guó)研究院，任研究院院長(zhǎng)，負(fù)責(zé)管理和領(lǐng)導(dǎo)Dell EMC在大中華區(qū)的所有研究團(tuán)隊(duì)。

　　他長(zhǎng)期從事計(jì)算機(jī)體系結(jié)構(gòu)，GPU和FPGA虛擬化，分布式系統(tǒng)等領(lǐng)域的研究工作，在業(yè)界最早開(kāi)始推動(dòng)FPGA虛擬化相關(guān)研究，在該領(lǐng)域擁有十多年的工作經(jīng)驗(yàn)和積累。

　　陳飛，趨動(dòng)科技CTO。博士畢業(yè)于中國(guó)科學(xué)院計(jì)算技術(shù)研究所。

　　在創(chuàng)立趨動(dòng)科技之前，陳飛博士供職于Dell EMC，擔(dān)任Dell EMC中國(guó)研究院首席科學(xué)家，長(zhǎng)期從事高性能計(jì)算，計(jì)算機(jī)體系結(jié)構(gòu)，GPU和FPGA虛擬化等領(lǐng)域的研究工作。

　　鄒懋，趨動(dòng)科技首席架構(gòu)師。博士畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)。

　　在創(chuàng)立趨動(dòng)科技之前，鄒懋博士供職于Dell EMC，擔(dān)任Dell EMC中國(guó)研究院高級(jí)研究員，長(zhǎng)期從事計(jì)算機(jī)體系結(jié)構(gòu)，GPU虛擬化等領(lǐng)域的研究工作。