中國頂級(jí)超算入圍美國戈登·貝爾大獎(jiǎng)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
據(jù)報(bào)道,美國計(jì)算機(jī)協(xié)會(huì)(Associationfor Computing Machinery; ACM)近期公布了戈登·貝爾獎(jiǎng)(被譽(yù)為“超級(jí)計(jì)算應(yīng)用領(lǐng)域的諾貝爾獎(jiǎng)”)的入圍名單。
基于中國1.5 EXAFLOPS(百億億次)超級(jí)計(jì)算機(jī)的一篇研究論文再次入圍,該獎(jiǎng)項(xiàng)將在今年11月在美國丹佛舉行的SC23超級(jí)計(jì)算大會(huì)上頒發(fā)。
ACM表示,雖然最終的系統(tǒng)規(guī)模以及模擬和模型運(yùn)行的結(jié)果尚未完成,但基于新一代的 1.5 exaflops中國神威超級(jí)計(jì)算機(jī)(oceanlite,太湖之光升級(jí)版)完成的一篇題為《渦輪機(jī)械流動(dòng)的精確計(jì)算》論文(將在11月SC23會(huì)議之前正式發(fā)布)已經(jīng)入圍。
早在2021年11月,中國的超級(jí)計(jì)算機(jī)就曾以4190萬個(gè)核心的量子模擬而獲得了戈登貝爾獎(jiǎng)。
當(dāng)時(shí)阿里巴巴集團(tuán)、清華大學(xué)、DAMO學(xué)院,浙江實(shí)驗(yàn)室和北京人工智能研究院在Oceanlite機(jī)器中運(yùn)行了一個(gè)名為“八卦路”的預(yù)訓(xùn)練機(jī)器學(xué)習(xí)模型,該模型涉及3700多萬個(gè)核心和14.5萬億個(gè)參數(shù)。
此次《渦輪機(jī)械流動(dòng)的精確計(jì)算》論文,則是由Weiqi Shen, Jiahuan Cui, Yao Zheng等(共 19 位作者),來自浙江大學(xué)、清華大學(xué)、國家超級(jí)計(jì)算無錫中心、劍橋大學(xué)、佛羅里達(dá)大學(xué)團(tuán)隊(duì)共同完成。
該團(tuán)隊(duì)開發(fā)了一種新的大渦流模擬代碼,用于解決渦輪機(jī)械中的可壓縮流。他們將該代碼應(yīng)用于美國國家航空航天局(NASA)的重大挑戰(zhàn)問題,使用高階非結(jié)構(gòu)化求解器求解高壓渦輪級(jí)聯(lián)的 16.9 億個(gè)網(wǎng)格元素和 8650 億個(gè)自由度。
根據(jù)該論文的作者顯示,Oceanlite系統(tǒng)擁有超過100000個(gè)由中國國家并行計(jì)算機(jī)工程與技術(shù)研究中心(NRCPC)設(shè)計(jì)的定制SW26010 Pro處理器。
2022年4月,中國科學(xué)技術(shù)大學(xué)、國家海洋科學(xué)與技術(shù)試點(diǎn)實(shí)驗(yàn)室(青島)、北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院、無錫國家超級(jí)計(jì)算中心和中國海洋大學(xué)組成的聯(lián)合團(tuán)隊(duì),公布了一篇超級(jí)計(jì)算機(jī)模擬復(fù)雜量子多體的文章介紹,SW26010 pro是sw26010改進(jìn)型,擁有6個(gè)核心模塊,每個(gè)模塊有1個(gè)管理Linux線程的核心(MPE)和64個(gè)計(jì)算核心。
而組成太湖之光的SW26010處理器,只有4個(gè)核心模塊,說明SW26010 pro單片應(yīng)該有50%的性能提升。
The next platform的報(bào)道稱,SW26010 Pro處理器的64個(gè)(8 x 8)計(jì)算核心網(wǎng)絡(luò)是一個(gè)具有256KB L2高速緩存的計(jì)算處理單元(CPE)。每個(gè)CPE有四個(gè)邏輯塊,可以在一對(duì)上支持FP64和FP32,在另一對(duì)上則可以支持FP16和BF16。
SW26010 Pro中的每個(gè)核心模塊上都有一個(gè)DDR4內(nèi)存控制器和16 GB內(nèi)存,內(nèi)存帶寬為51.4 GB/秒,因此整個(gè)處理器有96 GB主內(nèi)存和307.2 GB/s帶寬。六個(gè)CPE通過環(huán)形互連連接,并有兩個(gè)網(wǎng)絡(luò)接口,使用專有互連將它們連接到外部。
SW26010 Pro芯片的FP64或FP32精度為14.03 PB,BF16或FP16精度為55.3 PB。
The next platform稱,Oceanlite最大的配置有107520個(gè)節(jié)點(diǎn),共有4193萬個(gè)核心,分布在105個(gè)機(jī)柜中。剛剛曝光的論文也證實(shí)了該超級(jí)計(jì)算機(jī)的理論峰值性能為1.5 exaflops,MPE內(nèi)核運(yùn)行在2.1 GHz,CPW內(nèi)核運(yùn)行在2.25 GHz。
如果將該超級(jí)計(jì)算機(jī)規(guī)模擴(kuò)大到120個(gè)機(jī)柜,在FP64 pervision下的峰值將達(dá)到1.72 Exaflops,這將超過美國橡樹嶺國家實(shí)驗(yàn)室的1.68 Exaflops的“Frontier”超級(jí)計(jì)算機(jī)。
在160個(gè)機(jī)柜的條件下,在FP64的峰值性能將接近2.3 Exaflops,將有望擊敗已經(jīng)安裝完成的美國能源部阿貢國家實(shí)驗(yàn)室的基于英特爾CPU及GPU的新一代超級(jí)計(jì)算機(jī)“Aurora”,以及正在建設(shè)的美國勞倫斯·利弗莫爾國家實(shí)驗(yàn)室基于AMD MI300芯片的“El Capitan”超級(jí)計(jì)算機(jī),后兩者的FP64性能都將達(dá)到 2 Exaflops以上。
不過,最新的戈登·貝爾獎(jiǎng)參賽論文《渦輪機(jī)械流動(dòng)的精確計(jì)算》顯示,其對(duì)于噴氣發(fā)動(dòng)機(jī)模擬在大約58333個(gè)節(jié)點(diǎn)上運(yùn)行,這些節(jié)點(diǎn)代表了超過350000個(gè)MPE核心和超過2240萬個(gè)CPE核心。
這是以上預(yù)測(cè)的Oceanlite最大配置的一半多一點(diǎn)。