全球首款異構(gòu)計(jì)算處理器 華夏真的能背負(fù)重任?
掃描二維碼
隨時(shí)隨地手機(jī)看文章
2016年初,在北京亦莊召開的“高性能異構(gòu)計(jì)算及網(wǎng)絡(luò)安全研討會(huì)”上,華夏芯(北京)通用處理器技術(shù)有限公司即將推出全球首款完全支持異構(gòu)系統(tǒng)架構(gòu)(HSA)的處理器。
據(jù)報(bào)道,“處理器IP核與生態(tài)系統(tǒng)兩方面問(wèn)題的解決,將使中國(guó)自主處理器產(chǎn)業(yè)有望在下一代異構(gòu)計(jì)算時(shí)代,取得更快速的發(fā)展,趕上國(guó)際先進(jìn)水平。”摘錄如下:
1、華夏芯的突破表明我國(guó)在新一代異構(gòu)計(jì)算上取得重大進(jìn)展,有望在原本相對(duì)空白的處理器IP(知識(shí)產(chǎn)權(quán))核授權(quán)領(lǐng)域打破國(guó)外壟斷,徹底改變中國(guó)處理器產(chǎn)業(yè)的核心知識(shí)產(chǎn)權(quán)基本依賴于國(guó)外許可的被動(dòng)局面。
2、從軟件角度看,應(yīng)用開發(fā)將變得輕松,任何程序都不必費(fèi)心考慮不同處理器內(nèi)核之間的存儲(chǔ)差異。這將給計(jì)算性能以革命性的提高。
3、是全球首次推出完全支持HSA標(biāo)準(zhǔn)的CPU+GPU+DSP的處理器IP核平臺(tái),它從指令集、微架構(gòu)到工具鏈具有完全自主知識(shí)產(chǎn)權(quán)。同時(shí),華夏芯還可進(jìn)行SoC定制設(shè)計(jì)服務(wù)。這將有效改善國(guó)產(chǎn)IP核設(shè)計(jì)及許可上的短板。
什么是異構(gòu)計(jì)算?
異構(gòu)計(jì)算主要是指使用不同類型指令集(X86、ARM、MIPS、POWER......)和體系架構(gòu)的計(jì)算單元(CPU、GPU、DSP、ASIC、FPGA......)組成系統(tǒng)的計(jì)算方式。
舉例來(lái)說(shuō),AMD的APU其實(shí)就屬于異構(gòu)計(jì)算。
異構(gòu)計(jì)算主要的優(yōu)點(diǎn)有:
一是可以讓各個(gè)計(jì)算單元執(zhí)行自己最擅長(zhǎng)的任務(wù)。術(shù)業(yè)有專攻,CPU、GPU、DSP、FPGA等計(jì)算單元各有所長(zhǎng),在引入特定計(jì)算單元,讓計(jì)算系統(tǒng)變成混合結(jié)構(gòu),就能讓CPU、GPU、DSP、FPGA執(zhí)行自己最擅長(zhǎng)的任務(wù),并相對(duì)于同構(gòu)計(jì)算可能有一定性能優(yōu)勢(shì),或性能功耗比優(yōu)勢(shì)。
二是可以避免顯式拷貝。最新的異構(gòu)計(jì)算理論上要求實(shí)現(xiàn)CPU、GPU、DSP等計(jì)算單元實(shí)現(xiàn)內(nèi)存統(tǒng)一尋址,使CPU、GPU等計(jì)算單元可以共享內(nèi)存,不必將數(shù)據(jù)復(fù)制一份到對(duì)方的內(nèi)存區(qū)域中。
異構(gòu)計(jì)算并非新概念,AMD、ARM等公司早已成立異構(gòu)系統(tǒng)架構(gòu)基金會(huì) (HSA Foundation)。另外,異構(gòu)計(jì)算在超算領(lǐng)域已經(jīng)有一定的應(yīng)用,而且已經(jīng)有取代同構(gòu)計(jì)算的發(fā)展趨勢(shì)。
舉例來(lái)說(shuō),美國(guó)泰坦(每個(gè)計(jì)算節(jié)點(diǎn)由1個(gè)AMD Opteron 6274處理器和1個(gè)NVIDIA Tesla K20加速器組成),中國(guó)天河2號(hào)(每個(gè)計(jì)算節(jié)點(diǎn)由2個(gè)E5和3個(gè)Xeon Phi組成)。中國(guó)正在升級(jí)或建設(shè)的3臺(tái)100P超算也都采用異構(gòu)計(jì)算。
相對(duì)于上述提到泰坦和天河2號(hào),由于CPU和加速器無(wú)法共享內(nèi)存,會(huì)因?yàn)樾枰@式拷貝而導(dǎo)致性能損失,最新的異構(gòu)系統(tǒng)架構(gòu)的優(yōu)勢(shì)在于可以發(fā)展成統(tǒng)一的內(nèi)存編制——在理論上,可以實(shí)現(xiàn)CPU、GPU、DSP等計(jì)算單元實(shí)現(xiàn)內(nèi)存統(tǒng)一尋址,使各個(gè)計(jì)算單元交互數(shù)據(jù)時(shí),不再需要將自身內(nèi)存區(qū)域中現(xiàn)有的數(shù)據(jù)復(fù)制一份到對(duì)方的內(nèi)存區(qū)域中,而是可以直接通過(guò)相同的地址訪問(wèn)到,在內(nèi)存和顯存的設(shè)計(jì)科學(xué)合理的前提下,實(shí)現(xiàn)性能提升。
另外,在編程方面,可以避免顯式拷貝,使程序員們不用介入不同計(jì)算單元的內(nèi)存管理,能有效降低編程的繁瑣程度。
當(dāng)然,理想很豐滿,現(xiàn)實(shí)很骨感——不同核心直接cache級(jí)別的互通始終是HSA架構(gòu)無(wú)法攻克的難關(guān)——雖然AMD的APU通過(guò)將CPU和GPU集成到一個(gè)芯片上實(shí)現(xiàn)了共享內(nèi)存。但CPU和GPU的Cache卻還沒(méi)有做到統(tǒng)一,不同核心直接cache級(jí)別的互通,而這也是HSA架構(gòu)最大的技術(shù)難點(diǎn)(CPU,GPU,DSP的緩存模型不同)。即便AMD等廠商給HSA畫了非常美好的藍(lán)圖,但就現(xiàn)階段而言,HSA的優(yōu)勢(shì)并不大。
華夏芯的技術(shù)究竟如何?
華夏芯未必能實(shí)現(xiàn)Cache級(jí)別的互通。
在HSA方面,AMD顯然是最有發(fā)言權(quán)的廠商之一,但其APU也只實(shí)現(xiàn)了CPU+GPU,而且實(shí)現(xiàn)了內(nèi)存共享,但CPU和GPU的Cache卻還沒(méi)有做到統(tǒng)一,而華夏芯言之鑿鑿,“該產(chǎn)品在架構(gòu)層面成功整合了CPU、GPU、DSP,實(shí)現(xiàn)了異構(gòu)多核的內(nèi)存統(tǒng)一尋址,使不同內(nèi)核真正無(wú)縫地緊密聯(lián)系在一起,”一家初出茅廬公司的技術(shù)水平已經(jīng)超越AMD這樣的老牌IC設(shè)計(jì)公司了,這實(shí)在令人難以置信,不知道AMD看到這段文字做何感想。
華夏芯所謂“自主知識(shí)產(chǎn)權(quán)”存在水分
根據(jù)報(bào)道,“華夏芯正在開發(fā)并即將推出的‘統(tǒng)一處理器平臺(tái)’是全球首次推出完全支持HSA標(biāo)準(zhǔn)的CPU+GPU+DSP的處理器IP核平臺(tái),它從指令集、微架構(gòu)到工具鏈具有完全自主知識(shí)產(chǎn)權(quán)。”這段文字所蘊(yùn)藏的消息實(shí)在讓人難以置信。
雖然國(guó)內(nèi)IC設(shè)計(jì)廠商推出了不少產(chǎn)品,但大多都是購(gòu)買購(gòu)買國(guó)外 IP核授權(quán),或者就是國(guó)外芯片的馬甲,能做自主設(shè)計(jì)CPU或GPU或DSP的單位如鳳毛麟角,更遑論同時(shí)具備三者的設(shè)計(jì)能力。
因此,筆者是不太相信一家在此之前從未聽(tīng)聞,也沒(méi)有什么技術(shù)積累的廠商,能橫空出世,并突然間同時(shí)具備CPU、GPU、DSP的設(shè)計(jì)能力。
而自主指令集雖然實(shí)現(xiàn)難度并不大,比如深圳中微電就采用了自主指令集,但是由于不可能兼容現(xiàn)有的軟件生態(tài),在商業(yè)化方面基本不具備市場(chǎng)前景。在黨政軍市場(chǎng)早已被龍芯、申威、飛騰等自主芯片瓜分完畢,武器裝備、人造衛(wèi)星、航天設(shè)備等特殊領(lǐng)域的嵌入式芯片也已“名花有主”的情況下,采用自主指令集既不具備商業(yè)市場(chǎng)前景,也無(wú)法在黨政軍市場(chǎng)贏得一席之地。
加上領(lǐng)導(dǎo)非常喜歡“自主知識(shí)產(chǎn)權(quán)”的因素,所謂“從指令集、微架構(gòu)到工具鏈具有完全自主知識(shí)產(chǎn)權(quán)”很有可能有相當(dāng)大的水分。
宣傳言過(guò)其實(shí)
就現(xiàn)階段而言,HSA的優(yōu)勢(shì)并不明顯,還遠(yuǎn)遠(yuǎn)達(dá)不到“給計(jì)算性能以革命性的提高”的地步。
而且就軟件而言,雖然APU統(tǒng)一尋址能方便編程,能使程序員們不用介入繁瑣的CPU-GPU內(nèi)存管理,但《中國(guó)電子報(bào)》對(duì)華夏芯的報(bào)道中稱“任何程序都不必費(fèi)心考慮不同處理器內(nèi)核之間的存儲(chǔ)差異”——消除CPU、GPU、DSP、ASIC、FPGA等計(jì)算單元之間的存儲(chǔ)差異,即便是AMD也只能表示:“臣妾做不到啊!”
國(guó)內(nèi)在異構(gòu)計(jì)算方面做得如何?
雖然異構(gòu)計(jì)算是老概念了,但由于現(xiàn)階段并不具備多少比較優(yōu)勢(shì),因而只在超算等為數(shù)不多的領(lǐng)域取得了明顯的成績(jī),有取同構(gòu)計(jì)算而代之的趨勢(shì)。
相對(duì)于華夏芯這樣的處于紙面上的產(chǎn)品,上海高性能集成電路設(shè)計(jì)中心設(shè)計(jì)的國(guó)產(chǎn)眾核芯片則是比較成功的例子,該芯片有數(shù)個(gè)主核心和兩百余個(gè)從核心,主核心主要負(fù)責(zé)邏輯運(yùn)算,兩百余個(gè)從核心可以使芯片擁有非常高的理論雙精浮點(diǎn)性能和良好的性能功耗比(小道消息稱10-15G/W),其峰值雙精度浮點(diǎn)運(yùn)算速度超過(guò)每秒3萬(wàn)億次(3TFlops),完全追平了Intel第二代Xeon Phi(也是Intel最好的眾核芯片)。
結(jié)合《我國(guó)首個(gè)研究完全自主知識(shí)產(chǎn)權(quán)的異構(gòu)計(jì)算處理器實(shí)驗(yàn)室破繭》的新聞看,華夏芯通用處理器技術(shù)有限公司目前還處于草創(chuàng)階段,其官方網(wǎng)站也非常簡(jiǎn)陋,除“成為國(guó)內(nèi)嵌入式處理器領(lǐng)域擁有自主知識(shí)產(chǎn)權(quán)的一流設(shè)計(jì)企業(yè)”表示華夏芯主攻嵌入式處理器外,基本沒(méi)有任何有價(jià)值的信息,華夏芯現(xiàn)在有可能依舊處于草臺(tái)班子階段。加上“從指令集、微架構(gòu)到工具鏈具有完全自主知識(shí)產(chǎn)權(quán)”需要非常深厚的技術(shù)積累,并非朝夕之間可以鑄就。
筆者斗膽推測(cè),所謂“是全球首次推出完全支持HSA標(biāo)準(zhǔn)的CPU+GPU+DSP的處理器IP核平臺(tái),它從指令集、微架構(gòu)到工具鏈具有完全自主知識(shí)產(chǎn)權(quán)”有很大的水分,即將推出的產(chǎn)品很有可能就是一款集成了CPU+GPU+DSP的SOC,以目前華夏芯的公開資料和媒體的相關(guān)報(bào)道,華夏芯頗有套取政策之利的嫌疑。