中科曙光:硬件超車無(wú)法掩蓋生態(tài)缺失,軟實(shí)力構(gòu)建任重而道遠(yuǎn)
按:在10月的2018全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)(HPC China 2018)上發(fā)布的中國(guó)高性能計(jì)算機(jī)性能排行榜TOP100中,中科曙光第九次奪取中國(guó)內(nèi)市場(chǎng)份額的第一名。而在11月全球超級(jí)計(jì)算大會(huì)(SC18)上,全球首款采用了浸沒(méi)式液體相變冷卻技術(shù)刀片服務(wù)器的HPC系統(tǒng)——曙光新一代硅立方高性能計(jì)算機(jī)首次亮相,標(biāo)志著使用全新浸沒(méi)式液冷高效散熱技術(shù)的硅立方產(chǎn)品形態(tài)的誕生。
軟件層面上,中科曙光發(fā)布了SothisAI2.0人工智能平臺(tái),推動(dòng)AI、深度學(xué)習(xí)及訓(xùn)練領(lǐng)域與HPC的深度融合。依托AI大潮,中科曙光也在以AI為主體業(yè)務(wù)的互聯(lián)網(wǎng)領(lǐng)域斬獲頗豐,簽下了以今日頭條為代表的大單,標(biāo)志著其在互聯(lián)網(wǎng)方向非傳統(tǒng)HPC領(lǐng)域的大力發(fā)展。
中科曙光表示,融合將會(huì)是未來(lái)重點(diǎn)推動(dòng)的理念之一,希望能夠?qū)⑵脚_(tái)打造成支撐HPC、大數(shù)據(jù)或AI的綜合性先進(jìn)計(jì)算平臺(tái)。
近日,與中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心副主任研究員遲學(xué)斌、曙光副總裁、中國(guó)國(guó)家高性能計(jì)算機(jī)工程技術(shù)研究中心副主任何鐵寧,以及曙光公司高HPC方案與交付部經(jīng)理杜夏威,就中科曙光HPC領(lǐng)域在2018年及未來(lái)的發(fā)展?fàn)顩r進(jìn)行了交流對(duì)話。
異構(gòu)計(jì)算興起
2018年,HPC領(lǐng)域出現(xiàn)了許多新名詞新概念,比如以前常用的性能單位是Flops,現(xiàn)在又多了一個(gè)新單位Ops,不再以浮點(diǎn)運(yùn)算作為衡量標(biāo)準(zhǔn),而是對(duì)操作次數(shù)的考量。此外還有NVIDIA產(chǎn)品上常見的Tensor Core,這一新計(jì)算單元在未來(lái)的AI運(yùn)算領(lǐng)域還會(huì)有更多發(fā)展空間。
自NVIDIA DGX2公布后,HPC界開始從純粹追求高性能,轉(zhuǎn)變?yōu)榕cAI尋求更好的結(jié)合,美國(guó)的Summit超級(jí)計(jì)算機(jī)也不例外。隨著Summit重新奪回了中國(guó)占據(jù)多年的TOP500第一名,讓采用CPU+GPU這種異構(gòu)體系結(jié)構(gòu)的HPC成為了絕對(duì)主流。
遲學(xué)斌對(duì)講到,Summit這臺(tái)機(jī)器讓人印象特別深刻的一點(diǎn)是它的實(shí)測(cè)效率很高,達(dá)到了70%多,這在已有的異構(gòu)系統(tǒng)里應(yīng)該是最高的一臺(tái),其最高性能高達(dá)3EOPS,這對(duì)于中科曙光來(lái)講是一個(gè)挑戰(zhàn),要發(fā)展同樣E級(jí)計(jì)算HPC的話,其他途徑很難實(shí)現(xiàn),只能使用異構(gòu)體系。
據(jù)介紹,在全球超級(jí)計(jì)算大會(huì)上,已經(jīng)有一些非常完美的Summit應(yīng)用展示了出來(lái),例如由美國(guó)加州理工大學(xué)和國(guó)家實(shí)驗(yàn)室設(shè)計(jì)的,使用傳統(tǒng)科學(xué)計(jì)算和AI計(jì)算相結(jié)合來(lái)預(yù)測(cè)地震的應(yīng)用,在設(shè)計(jì)上非常有意思。
“地震整體的計(jì)算使用了傳統(tǒng)科學(xué)計(jì)算中的有限元,而在單點(diǎn)破壞嚴(yán)重的地方則使用了測(cè)量數(shù)據(jù)加AI推理?!焙舞F寧分析道,“兩者結(jié)合之下,將Summit這臺(tái)機(jī)器應(yīng)用到了完美,并據(jù)此得到了戈登·貝爾獎(jiǎng)?!彼硎荆@些應(yīng)用最值得學(xué)習(xí)的地方是如何讓傳統(tǒng)科學(xué)計(jì)算和AI計(jì)算這兩者有機(jī)的結(jié)合起來(lái),實(shí)現(xiàn)比較完美的負(fù)載均衡完全匹配。
綠色、高效、可擴(kuò)展
在2018年的HPC領(lǐng)域,節(jié)能性已經(jīng)成為了一個(gè)非常重要的問(wèn)題,這從全球超級(jí)計(jì)算大會(huì)Green500排名便可見一斑。
根據(jù)的觀察,目前在一個(gè)計(jì)算中心的成本中,電費(fèi)占據(jù)了相當(dāng)大的比例,而為緩解這一狀況,內(nèi)蒙古等北方能源產(chǎn)地正在積極考慮如何將煤炭直接轉(zhuǎn)變?yōu)橛?jì)算力。即首先把煤炭能源就地轉(zhuǎn)為電力輸出,未來(lái)的計(jì)算中心則可以直接選址于此并直接將電力轉(zhuǎn)化為計(jì)算力輸出。
“原來(lái)要將北方開采的煤炭通過(guò)大秦鐵路運(yùn)到南方,發(fā)電之后再千里輸電給計(jì)算中心,最后才能輸出計(jì)算力。”何鐵寧稱,“如果就地開采、就地發(fā)電、就地計(jì)算,然后直接把計(jì)算力從內(nèi)蒙古輸?shù)綇V東,可以極大的減少現(xiàn)在運(yùn)煤和輸電過(guò)程中的一系列損耗,整體運(yùn)轉(zhuǎn)效率很高?!?/p>
他表示,目前中科曙光正在與呼和浩特政府進(jìn)行探討研究,未來(lái)可能在呼市展開試點(diǎn)建設(shè)。
此外,未來(lái)在HPC上執(zhí)行的運(yùn)算,可能不再全部屬于傳統(tǒng)科學(xué)計(jì)算,其中還會(huì)包括一些推理等AI計(jì)算。原來(lái)HPC所處理的應(yīng)用大部分屬于確定性的問(wèn)題,在計(jì)算結(jié)果完成后只需精度符合要求即可,而以后要處理的問(wèn)題可能越來(lái)越多是屬于趨勢(shì)問(wèn)題,不再是靠精度取勝。
針對(duì)這一轉(zhuǎn)變,遲學(xué)斌以股市分析舉例,這是很動(dòng)態(tài)的東西,并不需要那么精確,但是要能正確描繪出其整體走勢(shì)?!斑@種動(dòng)態(tài)問(wèn)題在未來(lái)會(huì)發(fā)揮更重要的作用,現(xiàn)在傳統(tǒng)科學(xué)計(jì)算的規(guī)模受到可擴(kuò)展性的制約已經(jīng)很難大幅提升,在傳統(tǒng)科學(xué)計(jì)算和AI計(jì)算相結(jié)合的新形勢(shì)下,可擴(kuò)展性的問(wèn)題依然是關(guān)鍵性問(wèn)題。”
中國(guó)超算的機(jī)遇和挑戰(zhàn)
今年的HPC市場(chǎng)風(fēng)起云涌,一邊是美國(guó)兩臺(tái)新超算Summit與Sierra,將占據(jù)HPC TOP500榜首多年的中國(guó)超級(jí)計(jì)算機(jī)神威太湖之光擠到了第三位,另一邊則是中國(guó)超算的入榜數(shù)量由半年前的206臺(tái)增加到227臺(tái)。此消彼長(zhǎng)的激烈競(jìng)爭(zhēng)讓我們更加關(guān)心,相比發(fā)達(dá)國(guó)家的超算技術(shù)領(lǐng)域,國(guó)內(nèi)在超算領(lǐng)域主要存在哪些機(jī)遇和挑戰(zhàn)?
對(duì)此杜夏威表示,從企業(yè)的角度來(lái)看,真正的HPC技術(shù)在傳統(tǒng)行業(yè)或成熟產(chǎn)業(yè)界的滲透其實(shí)還遠(yuǎn)遠(yuǎn)不足。國(guó)內(nèi)能做到依托HPC系統(tǒng)助推制造與仿真的制造業(yè)相比國(guó)外還很少,有很多高端制造企業(yè)依然停留在傳統(tǒng)工作站或傳統(tǒng)使用方式上,并不能有效利用或?qū)⑵錁I(yè)務(wù)遷移到HPC系統(tǒng)并充分發(fā)揮效能,以加速產(chǎn)業(yè)或設(shè)計(jì)的快速迭代。
“這一情況影響的不僅是能不能完成計(jì)算的問(wèn)題,可能還會(huì)影響依托計(jì)算衍生出來(lái)的整個(gè)產(chǎn)品生命周期管理、數(shù)據(jù)管理以及數(shù)據(jù)交互問(wèn)題,甚至還包括未來(lái)一步步迭代產(chǎn)生的知識(shí)庫(kù)復(fù)用問(wèn)題。”杜夏威對(duì)這一問(wèn)題非常認(rèn)真,“這是一個(gè)很大的鏈條,我們與國(guó)外相比還有很大的差距?!?/p>
遲學(xué)斌指出,中國(guó)在HPC領(lǐng)域跟國(guó)外一直有差距,也一直在追趕。這種差距主要體現(xiàn)在軟件和應(yīng)用層面,且這種差距并非依靠資金投入便能實(shí)現(xiàn)追趕,而是要持續(xù)不斷的慢慢積淀。目前國(guó)內(nèi)HPC硬件上的“彎道超車”并不能掩蓋整體缺乏良性發(fā)展的情況,我們現(xiàn)在也正向這一模式靠攏,想辦法完善生態(tài)體系,但差距依然很大。
“我們差的其實(shí)是一份底蘊(yùn)。”何鐵寧總結(jié)道,“國(guó)外是一點(diǎn)點(diǎn)發(fā)展起來(lái)的,我們現(xiàn)在重要的是把欠下的基礎(chǔ)打牢?!?/p>
對(duì)于即將到來(lái)的2019年,遲學(xué)斌表示中科曙光的重點(diǎn)仍然在于E級(jí)超算,“實(shí)現(xiàn)途徑可能是異構(gòu)也可能是眾核”,同時(shí)AI還是會(huì)繼續(xù)下去,依托于AI和傳統(tǒng)HPC如何能夠彼此配合或者融合起來(lái),這可能還是各家追逐的熱點(diǎn)。此外中科曙光在軟件上的投入也將逐漸增加,明年將會(huì)有更多的投入在生態(tài)建設(shè)上。