霸氣外露,近距離看中國(guó)天河2號(hào)超級(jí)計(jì)算機(jī)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
曾經(jīng)報(bào)道了一次天河2,但關(guān)于這部機(jī)器的細(xì)節(jié)還是一團(tuán)迷霧,特別是升級(jí)了「ARCH」聯(lián)網(wǎng)系統(tǒng)的內(nèi)部細(xì)節(jié),16,000個(gè)節(jié)點(diǎn)是怎么通過(guò)這個(gè)ARCH堆到一起的。但下面這些圖片,稍能滿足一下大家的好奇心。首先是天河2的主板,根據(jù)最早爆料者,Jack Dongarra的說(shuō)法,國(guó)防科技大學(xué)做了一些「一體化改進(jìn)」。
天河2號(hào)主板
在天河2里,兩個(gè)ARCH網(wǎng)絡(luò)接口和兩枚Ivy Bridge-EP版的Xeon E5節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)有兩個(gè)CPU插座),被做在了一塊板子上(雖然他們理論上,它們之間沒(méi)有什么關(guān)系)。這樣一個(gè)節(jié)點(diǎn)上,還有一枚Xeon Phi協(xié)處理器供左半邊的節(jié)點(diǎn)共享,右側(cè)有5枚Xeon Phi。左右兩半電器上是分開(kāi)的,完全可以分開(kāi)維護(hù)。
所謂的Arch-2網(wǎng)絡(luò)界面,通過(guò)PCI-Express 2.0接口,連接著搭載著Xeon E5的主板,可惜,PCIe 2.0的帶寬只有PCIe 3.0版本的要少一半(也許Arch-3會(huì)升級(jí)到PCIe 3.0界面,或者NUDT的實(shí)驗(yàn)室白板上已經(jīng)有原型涂鴉了?)。每個(gè)節(jié)點(diǎn)上都有一個(gè)Arch-2網(wǎng)絡(luò)界面;每節(jié)點(diǎn)上的3個(gè)Xeon Phi協(xié)處理器,通過(guò)PCIe 3.0界面和CPU通訊,嗯~沒(méi)錯(cuò)Xeon Phi與CPU的談話速度,要快過(guò)CPU之間的……我不確定,這種不平衡的設(shè)置對(duì)天河二君的性能有什么影響。
來(lái)來(lái)來(lái),看一眼天河二君的霸氣外露的網(wǎng)口背板。
天河2的網(wǎng)口交換背板
天河的Arch-2網(wǎng)絡(luò)背板雙面都有接口,而且有不同的速率。Arch-2可以跑10Gb/s,或者14Gb/s。其中一個(gè)閃亮的RSW交換口在主板的背面,連接機(jī)架上節(jié)點(diǎn)組互相之間的通訊。(小編不太明白這個(gè)RSW是啥意思……給諸君賠不是)
天河2的RSW交換模塊
讓人看不懂的是,有幾組RSW交換界面是旋轉(zhuǎn)90度插在一起的——不過(guò),PDF上就是這么畫的。
8個(gè)一組的RSW交換刀片連接著4個(gè)刀片機(jī)(一共8個(gè)ARCH-2接口),看起來(lái)其他的4個(gè)幾口是用來(lái)連接576口的主干交換機(jī)的,實(shí)現(xiàn)與主干連接的硬件層叫做LSW刀片機(jī),看上去就是這個(gè)樣子:
天河2的LSW交換機(jī)刀片
Arch-2由13個(gè)576口的怪獸交換機(jī)組成,看來(lái)有用到不少的LSW交換機(jī)。這些交換機(jī)用的是國(guó)防大學(xué)自己的開(kāi)發(fā)的光纖技術(shù)和自有知識(shí)產(chǎn)權(quán)的傳輸協(xié)議。和所有的超級(jí)計(jì)算機(jī)一樣,布線看上去整齊如麻,特別是你要把16,000個(gè)節(jié)點(diǎn)連起來(lái)的時(shí)候。
In China, presumably they call a tangle of cables noodles, not spaghetti(不是我不敬業(yè),這句我吐槽不來(lái)……)
我真想改行賣光纖網(wǎng)線啊。
一些天河2的技術(shù)細(xì)節(jié)在此(PDF)
補(bǔ)充偵查一側(cè),對(duì)于超算用戶來(lái)講,好像很實(shí)惠啊……