富岳奪魁 中美歐日角逐E級(jí)超算
日前,“TOP500”發(fā)布最新運(yùn)算速度排行榜,日本理化學(xué)研究所計(jì)算科學(xué)研究中心(神戶市)的新機(jī)型Fugaku以每秒41.553京次的運(yùn)算速度超越了美國超算Summit,躍居全球首位。Fugaku登頂?shù)南⒈幻襟w爭相報(bào)道,一些分析文章把Fugaku奪冠和蘋果棄用英特爾,改用ARM CPU的事情聯(lián)系起來大肆鼓吹,仿佛ARM將要取代X86成為CPU的王者。鐵流認(rèn)為,一些媒體的報(bào)道用力過猛,已經(jīng)偏離事實(shí)了,就超算來說,采用ARM CPU處理器奪冠成績值得肯定,但整體市場還主要是X86 CPU或X86 CPU+加速器。
富士通Fugaku和A64FX值得肯定
日本超算一直自成一體,早些年的京就采用SPARC處理器,如今選擇ARM,而不是主流的X86,估計(jì)也和日本企業(yè)習(xí)慣于自成一體的做法有關(guān)。
Fugaku和排名第37的Flow,之所以把處理器指令集從京的SPARC改成現(xiàn)在的ARM,鐵流猜測一方面和軟銀收購了ARM有關(guān),另一方面與SPARC逐漸式微也有關(guān)系。由于X86授權(quán)拿不到,SPARC又逐步式微,因而選擇近年來風(fēng)頭正盛,且被日本企業(yè)收購的ARM。
Fugaku超算和Flow采用的是富士通研發(fā)的A64FX處理器,這款處理器曾經(jīng)在Hotchips會(huì)議上亮相,集成了52個(gè)核心,配備32GB HBM 2內(nèi)存,帶寬1TB/s,浮點(diǎn)性能2.7TFLOPS,使用7nm工藝生產(chǎn)。
A64FX的52(4+48)個(gè)核心和SW26010的260(4+256)個(gè)核心有相似之處,A64FX是四個(gè)管理核心+48個(gè)運(yùn)算核心,SW26010是4個(gè)管理核心+256個(gè)運(yùn)算核心。得益于SVE指令支持512bit浮點(diǎn)運(yùn)算單元,這使得A64FX的浮點(diǎn)性能大幅強(qiáng)化。
SW26010相對于CPU+加速器的組合有一個(gè)優(yōu)勢,那就是共享存儲(chǔ)避免了顯示拷貝。如果采用CPU+加速器的組合,數(shù)據(jù)需要在CPU和加速器之間來回倒騰,會(huì)帶來額外開銷。SW26010的設(shè)計(jì)則避免了這一點(diǎn)。A64FX采用了和SW26010類似的管理核心+運(yùn)算核心設(shè)計(jì),因而在這方面,可能同樣具有這種優(yōu)勢。根據(jù)富士通的規(guī)劃,F(xiàn)ugaku只是階段性成果,下一步計(jì)劃升級(jí)到1000PFLOPS。
炒作ARM處理器優(yōu)勢純屬莫名其妙
誠然,F(xiàn)ugaku和A64FX表現(xiàn)出色,但一些媒體把Fugaku登頂和蘋果換芯兩件事情聯(lián)系起來大肆鼓吹,仿佛ARM將要取代X86成為CPU的王者,這就未免有些不妥了。
就蘋果拋棄英特爾CPU,選擇ARM CPU的事情來說,蘋果換芯并非技術(shù)因素,而是商業(yè)因素。就桌面CPU的性能、功耗、成本、生態(tài)而言,X86已經(jīng)平衡的非常好了,全球暫時(shí)找不出在桌面CPU的性能、功耗、成本、生態(tài)等方面超越英特爾的公司。蘋果把X86處理器換成ARM處理器,主要還是基于蘋果一貫的商業(yè)邏輯,意圖打造蘋果自己的閉環(huán)生態(tài)鏈,進(jìn)而實(shí)現(xiàn)供應(yīng)鏈的高度掌控。這樣一來,就避免CPU上被英特爾分去一杯羹,在CPU、OS全部自己掌握后,蘋果可以借此獲取高額利潤。
就A64FX來說,從數(shù)據(jù)上看,F(xiàn)ugaku和A64FX很出色,F(xiàn)ugaku的雙精度浮點(diǎn)性能是Summit的2.8倍,從功耗上看,F(xiàn)ugaku也是Summit的2.8倍。也就是說,在性能功耗比這項(xiàng)屬性上,F(xiàn)ugaku相對于Summit并沒有提升。必須指出的是,A64FX采用的是7nm工藝,而Summit的Power9是14nm工藝,GV100是12nm工藝,在處理器工藝領(lǐng)先一代的情況下,F(xiàn)ugaku相對于Summit的性能功耗比并沒有提升。作為對比,當(dāng)年神威太湖之光奪魁時(shí),在絕對性能和性能功耗比兩項(xiàng)參數(shù)上都有明顯提升。
雖然ARM的鼓吹者把低功耗和ARM劃等號(hào),國內(nèi)還搞了一個(gè)綠色計(jì)算產(chǎn)業(yè)聯(lián)盟,打著綠色環(huán)保的名義,掛羊頭賣狗肉推廣ARM服務(wù)器。但從實(shí)踐上看,指令集對CPU性能、功耗的影響已經(jīng)微乎其微了,真正對CPU性能指標(biāo)有巨大影響的是設(shè)計(jì)水平和制造工藝。一些媒體用Fugaku登頂和蘋果換芯論證ARM CPU具有先天優(yōu)勢,將要取代X86 CPU完全是莫名其妙。
X86 CPU依然是超算主流選擇
近年來,神威太湖之光、Summit、Fugaku相繼在TOP500榜單上奪得第一,三款超算處理器的指令集分別是SW64、Power、ARM,由于冠軍往往吸引了更多的目光,給人一種感覺,仿佛X86 CPU在超算里已經(jīng)落伍了。但只要看一下TOP500榜單就會(huì)發(fā)現(xiàn),X86 CPU在TOP500里幾乎是刷榜的存在。
鐵流查閱了TOP500資料,其中,采用X86處理器的超算有481臺(tái),采用Power的超算有13臺(tái),采用ARM的有4臺(tái),采用SPARC的有一臺(tái),是富士通的京,采用SW64的有一臺(tái),是神威太湖之光。
(HPC TOP500里非X86 CPU 機(jī)器,500臺(tái)里共計(jì)19臺(tái))
從宏觀數(shù)據(jù)上看,X86依然是超算的絕對主流,SW64、Power、ARM的占比非常少。由于X86的市場份額高,這使X86超算在應(yīng)用方面更加便利,相比之下,采用SW64、ARM處理器的超算則面臨軟件移植的問題,此前,非線性大地震模擬應(yīng)用榮獲戈登貝爾獎(jiǎng),就是工程師將這個(gè)應(yīng)用移植到神威太湖之光超算上。相關(guān)部門為了擴(kuò)展神威太湖之光的應(yīng)用,也是花了大力氣鼓勵(lì)大家去移植應(yīng)用。由于日本企業(yè)在超算京上已經(jīng)積累了3000多項(xiàng)應(yīng)用,未來日本企業(yè)也會(huì)經(jīng)歷應(yīng)用移植這個(gè)過程。
總而言之,X86 CPU依然是超算主流選擇,而且應(yīng)用豐富,便于商業(yè)化。Fugaku和神威太湖之光這類超算,如果要想把超算性能真正發(fā)揮出來,必須進(jìn)行應(yīng)用移植,在特定行業(yè),或者自成一體的情況下自己玩是沒問題的,但要商業(yè)化全球出售,恐怕就遜色于X86超算了。
中美歐日角逐E級(jí)超算
雖然日本這幾年經(jīng)濟(jì)持續(xù)低迷,在全球超算競賽上逐步掉隊(duì),在京之后罕有高性能超算問世,但日本企業(yè)的技術(shù)底子還是在的,本次的Fugaku則是日本超算實(shí)力的體現(xiàn)。目前,中國天河、曙光、神威E級(jí)超算正在研發(fā)中,美國和歐洲也在研發(fā)E級(jí)超算。未來幾年,中美歐日可能會(huì)就E級(jí)超算進(jìn)行一場競賽。