Wave Computing要靠DPU站穩(wěn)腳跟?
成立7年的AI新創(chuàng)公司W(wǎng)ave Computing日前在Hot Chips大會(huì)上介紹了該公司研發(fā)的多核架構(gòu)資料流處理器(Dataflow Processing Unit;DPU),號稱在神經(jīng)網(wǎng)路訓(xùn)練速度方面可達(dá)GPU加速器的1,000倍,該公司技術(shù)長Chris Nicol更認(rèn)為資料流架構(gòu)是訓(xùn)練高效能網(wǎng)路最有效的方式。
根據(jù)The Next Platform報(bào)導(dǎo),Nicol在應(yīng)用多核策略解決問題方面擁有豐富的經(jīng)驗(yàn),不僅曾協(xié)助澳洲最大的資訊及通訊科技研究機(jī)構(gòu)NICTA,也成立了貝爾實(shí)驗(yàn)室共同研發(fā)最早的多處理器系統(tǒng)單晶片。 Nicol認(rèn)為未來大規(guī)模的訓(xùn)練遲早會(huì)移出資料中心改在邊緣執(zhí)行,彰顯DPU元件的潛在價(jià)值。
Wave Computing發(fā)表的DPU晶片具有16,000個(gè)處理元件、8,000個(gè)以上的運(yùn)算單元以及獨(dú)特的自定時(shí)機(jī)制,使用粗??芍亟M式架構(gòu)(coarse grained reconfigurable architecture),運(yùn)行頻率為6.7GHz,在沒有資料通過時(shí),DPU會(huì)進(jìn)入休眠狀態(tài)。 DPU可以看作是FPGA與多核處理器的混合體,能處理數(shù)千個(gè)元件的靜態(tài)資料流圖排程。
Nicol表示,目前異質(zhì)運(yùn)算的定義有個(gè)問題,也就是主控都在CPU上執(zhí)行,加速器必須等待CPU下達(dá)指令,而Wave Computing希望徹底改變這樣的架構(gòu)。 Nicol指出,新的加速器架構(gòu)(尤其是GPU)在載入核心(kernel)以及使用微控制器在執(zhí)行期移出與移入程式時(shí)都會(huì)產(chǎn)生延遲問題,而一個(gè)去除CPU的架構(gòu)可以在卸載模式中得到更多性能效益。
Nicole指出,深度學(xué)習(xí)實(shí)際就是在深度學(xué)習(xí)軟體上編程的資料流圖,在類似Wave這種可以在執(zhí)行期組成資料流圖的處理器上運(yùn)行,而這樣的工作流程產(chǎn)生了用來訓(xùn)練網(wǎng)路的資料流圖。舉例來說,系統(tǒng)會(huì)在執(zhí)行期從TensorFlow取得資料流圖,然后直接將它轉(zhuǎn)換成不需要CPU就可執(zhí)行的資料流圖,然后再映成到Wave的資料流晶片上。
Nicol表示,這是一個(gè)粗??芍貥?gòu)陣列,有點(diǎn)類似空間運(yùn)算(spatial computing),當(dāng)程式編譯為多處理器核心時(shí),仍然需要將該程式分區(qū),這也是多核晶片的問題所在,而開放式運(yùn)算語言(OpenCL)并無法提供解決之道。 Wave有自己的空間編譯器可以排程、規(guī)定路線、將軟體映成在其緊密耦合的互連處理器架構(gòu)上,這樣會(huì)比使用暫存器速度更快。
盡管這些新架構(gòu)非常令人注目,但GPU的軟體生態(tài)系統(tǒng)在機(jī)器學(xué)習(xí)工作負(fù)載已十分健全,超大規(guī)模資料中心是否愿意容忍風(fēng)險(xiǎn),導(dǎo)入一個(gè)完全不同的訓(xùn)練模式,還是由他們自己決定。