天河二號超級計(jì)算機(jī):“計(jì)算機(jī)”+“超級”超強(qiáng)組合體
掃描二維碼
隨時(shí)隨地手機(jī)看文章
顧名思義,就是“計(jì)算機(jī)”+“超級”的超強(qiáng)組合體——它有著強(qiáng)大的計(jì)算能力和數(shù)據(jù)處理能力?!疤旌佣枴笔怯蓢揽拼笱兄频某売?jì)算機(jī)系統(tǒng),以峰值計(jì)算速度每秒5.49億億次、持續(xù)計(jì)算速度每秒3.39億億次雙精度浮點(diǎn)運(yùn)算的優(yōu)異性能位居榜首,成為全球最快超級計(jì)算機(jī)。
平時(shí),我們經(jīng)常會抱怨自己電腦“卡死了”,這與電腦的內(nèi)存和運(yùn)行速度有關(guān)。超級計(jì)算機(jī)就不會“卡”,因?yàn)樗膬?yōu)勢就是“大容量”和“高速度”。那它究竟有多快——就相當(dāng)于火箭的速度和人類步行的速度。
在這樣的運(yùn)算速度下,很多復(fù)雜的科學(xué)問題可以通過數(shù)值模擬來進(jìn)行解決,因此超級計(jì)算機(jī)也被生動的稱為“國家經(jīng)濟(jì)發(fā)展與科學(xué)技術(shù)創(chuàng)新能力的加速器”。
2019年11月18日,全球超級計(jì)算機(jī)500強(qiáng)榜單發(fā)布,中國超算“天河二號”排名第四位。
研究歷程
2009年,中國首臺千萬億次計(jì)算機(jī)“天河一號”研制成功,
運(yùn)行“核高基”專項(xiàng)支持研制的銀河麒麟操作系統(tǒng),名列當(dāng)年的國際超級計(jì)算機(jī)TOP 500排行榜世界第五位、亞洲第一位的排名,并使中國成為繼美國之后世界上第二個(gè)能夠研制千萬億次超級計(jì)算機(jī)的國家。
2010年時(shí),我國研制的首臺千萬億次超級計(jì)算機(jī)“天河一號”曾在全球TOP 500超級大型計(jì)算機(jī)排行榜中排名第一,但在2011年時(shí)被日本最新研發(fā)的超級計(jì)算機(jī)“京”超越了。到了2012年,美國的“泰坦”又超越了日本的“京”。
“天河二號”由280人歷時(shí)兩年多研制完成,耗資約1億美元。研發(fā)耗資約1億美元,由國家科技部、廣東省人民政府、廣州市人民政府共同出資建設(shè)。
2013年下半年,它將在廣州超級計(jì)算中心投入運(yùn)行,其先導(dǎo)系統(tǒng)已開始為生物醫(yī)藥、新材料等領(lǐng)域用戶提供服務(wù)。
從2010年11月14日天河一號排名世界第一到2013年6月17日天河二號再登世界超算之巔,從天河一號4.7千萬億次到天河二號5.49億億次,從超級計(jì)算機(jī)由千萬億次級(1015)邁入億億次級(1016)計(jì)算速度,這是國防科技大學(xué)天河團(tuán)隊(duì)再次創(chuàng)造的“中國速度”。
目前,天河二號超級計(jì)算機(jī)在國家超算廣州中心已正式投入運(yùn)行,為120多家用戶提供了300多項(xiàng)典型應(yīng)用計(jì)算。同時(shí),為用戶培訓(xùn)了一批超算應(yīng)用技術(shù)人才。
2015年5月,由北京師范大學(xué)、國防科技大學(xué)、加拿大理論天體物理研究所、北京大學(xué)、中科院高能物理研究所聯(lián)合組成的宇宙中微子數(shù)值模擬團(tuán)隊(duì),經(jīng)過一系列技術(shù)攻關(guān),在“天河二號”上成功進(jìn)行了3萬億粒子數(shù)中微子和暗物質(zhì)的宇宙學(xué)數(shù)值模擬,揭示了宇宙大爆炸1600萬年之后至今約137億年的漫長演化進(jìn)程。
2019年11月,在國際上率先開啟稱霸標(biāo)準(zhǔn)研究的、國防科技大學(xué)計(jì)算機(jī)學(xué)院吳俊杰帶領(lǐng)的QUANTA團(tuán)隊(duì),聯(lián)合信息工程大學(xué)等國內(nèi)外科研機(jī)構(gòu),提出了量子計(jì)算模擬的新算法。該算法在“天河二號”超級計(jì)算機(jī)上的測試性能達(dá)到國際領(lǐng)先水平,谷歌的工作也引用了這項(xiàng)結(jié)果的預(yù)印版論文。
天河2號由16000個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)有2顆基于Ivy Bridge-E Xeon E5 2692處理器和3個(gè)Xeon Phi,累計(jì)共有32000顆Ivy Bridge處理器和48000個(gè)Xeon Phi,總計(jì)有312萬個(gè)計(jì)算核心[1]。
每個(gè)Xeon Phi使用其中的57個(gè)核心,而不是使用全部的61個(gè),因?yàn)槭褂?1個(gè)在運(yùn)算周期協(xié)調(diào)方面會有問題,而使用57個(gè)核心能夠加速4個(gè)執(zhí)行線程,并且在每個(gè)線程單周期可以達(dá)成4Gflops的運(yùn)算量,運(yùn)行在1.1GHz的Xeon Phi可以生產(chǎn)1.003 Tflops的雙精度運(yùn)算能力。如果考慮CPU,2 Ivy Bridge * 0.2112 Tflop/s + 3 Xeon Phi * 1.003 Tflop/s=3.431 Tflops,2個(gè)Ivy Bridge+3個(gè)Xeon Phi單個(gè)節(jié)點(diǎn)可以有3.431 Tflops運(yùn)算能力,16000個(gè)節(jié)點(diǎn)總計(jì)可達(dá)54.9PFlops性能。每個(gè)運(yùn)算節(jié)點(diǎn)有64GB主存、而每個(gè)Xeon Phi板載8GB內(nèi)存,因此每個(gè)節(jié)點(diǎn)共有88GB內(nèi)存,總計(jì)16000個(gè)節(jié)點(diǎn)一共有1.404 PB內(nèi)存,而外部存儲器容量方面更是高達(dá)12.4PB.
天河二號
在每個(gè)主板上有2個(gè)計(jì)算節(jié)點(diǎn),而每個(gè)框架則有16個(gè)主板,4個(gè)框架組成一個(gè)機(jī)柜,整個(gè)系統(tǒng)由125個(gè)機(jī)柜組成。每個(gè)計(jì)算節(jié)點(diǎn)主板分為兩塊,一塊CPU一塊APU,CPU上有4核Ivy Bridge、內(nèi)存和一個(gè)Xeon Phi協(xié)處理器,而APU基板上則承載著5個(gè)Xeon Phi協(xié)處理器.CPU和APU之間有5個(gè)水平插入的鏈接口,由Ivy Bridge內(nèi)置的PCI-E 2.0進(jìn)行連接,雖然Ivy Bridge內(nèi)置為PCI Express 3.0接口,但Xeon Phi僅支持2.0,單個(gè)通路為10Gbps帶寬。
計(jì)算節(jié)點(diǎn)的前端處理器為4096個(gè)FT-1500處理器, FT-1500處理器是由國防科技大學(xué)為天河1研發(fā),其可以說是天河1項(xiàng)目的最大收獲,其為16核心的Sparc V9架構(gòu)處理器,在40nm工藝情況下運(yùn)行頻率為1.8Ghz,峰值性能為144 Gflops/s,功耗為65W,但相比英特爾22nm 12核 2.2GHz 211Gflops/s性能的Ivy Bridge還是有明顯差距。
天河2互聯(lián)方面采用自主研發(fā)的 Express-2 內(nèi)部互聯(lián)網(wǎng)絡(luò),其為有13個(gè)交換機(jī),而每個(gè)交換機(jī)有576個(gè)端口。連接介質(zhì)為光電混合。具體控制器是名為NRC的ASIC專用目的集成電路,其采用90nm工藝,封裝尺寸為17.16x17.16 mm,共有2577引腳。單個(gè)NRC的吞吐能力為2.56Tbps.而在終端方面網(wǎng)絡(luò)接口也采用類似結(jié)構(gòu)的NIC,但規(guī)模稍小,為10.76x10.76 mm, 675 pin,其采用PCIE 2.0方式連接,傳輸速率為6.36GB/s.并且在在12000節(jié)點(diǎn)的情況下延遲也很低,僅為85us.
而在計(jì)算能力方面,使用14336個(gè)節(jié)點(diǎn) 總計(jì)50GB內(nèi)存進(jìn)行LINPACK測試,理論性能為49.19Pflops,而實(shí)際測試性能為30.65Pflops,效率為62.3%.這個(gè)效率并不算高,還有很大優(yōu)化提升潛力。當(dāng)然也可能是被Xeon phi僅支持PCI Express 2.0帶寬不足限制。
上面測試使用了16000個(gè)節(jié)點(diǎn)中的14336個(gè),運(yùn)用了90%的規(guī)模,基本可以代表天河2的整體性能表現(xiàn)。天河2的性能部件(處理器、內(nèi)存、互聯(lián))整體功耗為17.6MW,而整體的運(yùn)算能力為30.65PFlops,這樣計(jì)算每瓦的性能為1.935Gflops,這個(gè)性能/功耗比可以排在超算TOP500的前五,其整體性能/功耗比十分出色。
系統(tǒng)的整體功耗為17.6 MW,并且這個(gè)功耗還不包括水冷這樣的散熱系統(tǒng),如果考慮上整體功耗將高達(dá)24MW,廣州國家超算中心將采用城市供水系統(tǒng)構(gòu)建高散熱效能的冷卻系統(tǒng),有能力可以提供80KW系統(tǒng)的散熱能力。
天河二號超級計(jì)算機(jī)系統(tǒng)由170個(gè)機(jī)柜組成,包括125個(gè)計(jì)算機(jī)柜、8個(gè)服務(wù)機(jī)柜、13個(gè)通信機(jī)柜和24個(gè)存儲機(jī)柜,占地面積720平方米,內(nèi)存總?cè)萘?400萬億字節(jié),存儲總?cè)萘?2400萬億字節(jié),最大運(yùn)行功耗17.8兆瓦。天河二號運(yùn)算1小時(shí),相當(dāng)于13億人同時(shí)用計(jì)算器計(jì)算一千年,其存儲總?cè)萘肯喈?dāng)于存儲每冊10萬字的圖書600億冊。相比此前排名世界第一的美國“泰坦”超級計(jì)算機(jī),天河二號計(jì)算速度是“泰坦”的2倍,計(jì)算密度是“泰坦”的2.5倍,能效比相當(dāng)。與該校此前研制的天河一號相比,二者占地面積相當(dāng),天河二號計(jì)算性能和計(jì)算密度均提升了10倍以上,能效比提升了2倍,執(zhí)行相同計(jì)算任務(wù)的耗電量只有天河一號的三分之一。
天河2號由16000個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)有2顆基于Ivy Bridge-E Xeon E5 2692處理器和3個(gè)Xeon Phi,累計(jì)共有32000顆Ivy Bridge處理器和48000個(gè)Xeon Phi,總計(jì)有312萬個(gè)計(jì)算核心[1]。
每個(gè)Xeon Phi使用其中的57個(gè)核心,而不是使用全部的61個(gè),因?yàn)槭褂?1個(gè)在運(yùn)算周期協(xié)調(diào)方面會有問題,而使用57個(gè)核心能夠加速4個(gè)執(zhí)行線程,并且在每個(gè)線程單周期可以達(dá)成4Gflops的運(yùn)算量,運(yùn)行在1.1GHz的Xeon Phi可以生產(chǎn)1.003 Tflops的雙精度運(yùn)算能力。如果考慮CPU,2 Ivy Bridge * 0.2112 Tflop/s + 3 Xeon Phi * 1.003 Tflop/s=3.431 Tflops,2個(gè)Ivy Bridge+3個(gè)Xeon Phi單個(gè)節(jié)點(diǎn)可以有3.431 Tflops運(yùn)算能力,16000個(gè)節(jié)點(diǎn)總計(jì)可達(dá)54.9PFlops性能。每個(gè)運(yùn)算節(jié)點(diǎn)有64GB主存、而每個(gè)Xeon Phi板載8GB內(nèi)存,因此每個(gè)節(jié)點(diǎn)共有88GB內(nèi)存,總計(jì)16000個(gè)節(jié)點(diǎn)一共有1.404 PB內(nèi)存,而外部存儲器容量方面更是高達(dá)12.4PB.
天河二號
在每個(gè)主板上有2個(gè)計(jì)算節(jié)點(diǎn),而每個(gè)框架則有16個(gè)主板,4個(gè)框架組成一個(gè)機(jī)柜,整個(gè)系統(tǒng)由125個(gè)機(jī)柜組成。每個(gè)計(jì)算節(jié)點(diǎn)主板分為兩塊,一塊CPU一塊APU,CPU上有4核Ivy Bridge、內(nèi)存和一個(gè)Xeon Phi協(xié)處理器,而APU基板上則承載著5個(gè)Xeon Phi協(xié)處理器.CPU和APU之間有5個(gè)水平插入的鏈接口,由Ivy Bridge內(nèi)置的PCI-E 2.0進(jìn)行連接,雖然Ivy Bridge內(nèi)置為PCI Express 3.0接口,但Xeon Phi僅支持2.0,單個(gè)通路為10Gbps帶寬。
計(jì)算節(jié)點(diǎn)的前端處理器為4096個(gè)FT-1500處理器, FT-1500處理器是由國防科技大學(xué)為天河1研發(fā),其可以說是天河1項(xiàng)目的最大收獲,其為16核心的Sparc V9架構(gòu)處理器,在40nm工藝情況下運(yùn)行頻率為1.8Ghz,峰值性能為144 Gflops/s,功耗為65W,但相比英特爾22nm 12核 2.2GHz 211Gflops/s性能的Ivy Bridge還是有明顯差距。
天河2互聯(lián)方面采用自主研發(fā)的 Express-2 內(nèi)部互聯(lián)網(wǎng)絡(luò),其為有13個(gè)交換機(jī),而每個(gè)交換機(jī)有576個(gè)端口。連接介質(zhì)為光電混合。具體控制器是名為NRC的ASIC專用目的集成電路,其采用90nm工藝,封裝尺寸為17.16x17.16 mm,共有2577引腳。單個(gè)NRC的吞吐能力為2.56Tbps.而在終端方面網(wǎng)絡(luò)接口也采用類似結(jié)構(gòu)的NIC,但規(guī)模稍小,為10.76x10.76 mm, 675 pin,其采用PCIE 2.0方式連接,傳輸速率為6.36GB/s.并且在在12000節(jié)點(diǎn)的情況下延遲也很低,僅為85us.
而在計(jì)算能力方面,使用14336個(gè)節(jié)點(diǎn) 總計(jì)50GB內(nèi)存進(jìn)行LINPACK測試,理論性能為49.19Pflops,而實(shí)際測試性能為30.65Pflops,效率為62.3%.這個(gè)效率并不算高,還有很大優(yōu)化提升潛力。當(dāng)然也可能是被Xeon phi僅支持PCI Express 2.0帶寬不足限制。
上面測試使用了16000個(gè)節(jié)點(diǎn)中的14336個(gè),運(yùn)用了90%的規(guī)模,基本可以代表天河2的整體性能表現(xiàn)。天河2的性能部件(處理器、內(nèi)存、互聯(lián))整體功耗為17.6MW,而整體的運(yùn)算能力為30.65PFlops,這樣計(jì)算每瓦的性能為1.935Gflops,這個(gè)性能/功耗比可以排在超算TOP500的前五,其整體性能/功耗比十分出色。
系統(tǒng)的整體功耗為17.6 MW,并且這個(gè)功耗還不包括水冷這樣的散熱系統(tǒng),如果考慮上整體功耗將高達(dá)24MW,廣州國家超算中心將采用城市供水系統(tǒng)構(gòu)建高散熱效能的冷卻系統(tǒng),有能力可以提供80KW系統(tǒng)的散熱能力。
天河二號超級計(jì)算機(jī)系統(tǒng)由170個(gè)機(jī)柜組成,包括125個(gè)計(jì)算機(jī)柜、8個(gè)服務(wù)機(jī)柜、13個(gè)通信機(jī)柜和24個(gè)存儲機(jī)柜,占地面積720平方米,內(nèi)存總?cè)萘?400萬億字節(jié),存儲總?cè)萘?2400萬億字節(jié),最大運(yùn)行功耗17.8兆瓦。天河二號運(yùn)算1小時(shí),相當(dāng)于13億人同時(shí)用計(jì)算器計(jì)算一千年,其存儲總?cè)萘肯喈?dāng)于存儲每冊10萬字的圖書600億冊。相比此前排名世界第一的美國“泰坦”超級計(jì)算機(jī),天河二號計(jì)算速度是“泰坦”的2倍,計(jì)算密度是“泰坦”的2.5倍,能效比相當(dāng)。與該校此前研制的天河一號相比,二者占地面積相當(dāng),天河二號計(jì)算性能和計(jì)算密度均提升了10倍以上,能效比提升了2倍,執(zhí)行相同計(jì)算任務(wù)的耗電量只有天河一號的三分之一。
天河二號定位目標(biāo)
因?yàn)槌売?jì)算機(jī)在國內(nèi)的發(fā)展速度已經(jīng)遠(yuǎn)超過于相應(yīng)人才的培養(yǎng)速度,這導(dǎo)致超級計(jì)算機(jī)的軟硬件技術(shù)之間出現(xiàn)巨大差異。不過這也成就了中國超級計(jì)算機(jī)的“普適性”。比如美國,他們超算研發(fā)目的都是自用,例如Titan主要用于美國能源部內(nèi)部的核試驗(yàn)?zāi)M。他們的超級計(jì)算機(jī)計(jì)算用途較為簡單,基本只能適配于某一方向,但專業(yè)性比較更強(qiáng)。而國內(nèi)的超級計(jì)算機(jī)更為開放,可針對更多用戶。
中國的超級計(jì)算機(jī)之路已從最初的受制于人的狀態(tài)正在逐漸扭轉(zhuǎn),如今已呈現(xiàn)“三箭齊發(fā)”態(tài)勢——國防科學(xué)技術(shù)大學(xué)“銀河”、“天河”;北京“曙光”、“星云”;無錫“神威”,這些都是中國科技的“加速器”,助力科學(xué)未來。