天河2號已經(jīng)報道了很多次了,但關于這部全球第一的超級計算機,很多細節(jié)還是一團迷霧,特別是升級了“ARCH”聯(lián)網(wǎng)系統(tǒng)的內(nèi)部細節(jié),16000個節(jié)點是怎么通過這個ARCH堆到一起的?希望本文能稍微滿足一下大家的好奇心。
不管怎么樣,國家有天河2可以用,還是很值得高興的。
首先是天河2的主板,根據(jù)最早爆料者Jack Dongarra的說法,國防科技大學做了一些“一體化改進”。
天河2號主板
在天河2里,兩個ARCH網(wǎng)絡接口和兩枚Ivy Bridge-EP版的Xeon E5節(jié)點(每個節(jié)點有兩個CPU插座),被做在了一塊板子上(雖然他們理論上它們之間沒有什么關系)。這樣一個節(jié)點上,還有一枚Xeon Phi協(xié)處理器供左半邊的節(jié)點共享,右側有5枚Xeon Phi。左右兩半電器上是分開的,完全可以分開維護。
所謂的Arch-2網(wǎng)絡界面,通過PCI-Express 2.0接口連接著搭載著Xeon E5的主板,可惜,PCIe 2.0的帶寬比PCIe 3.0版本的要少一半(也許Arch-3會升級到PCIe 3.0界面,或者NUDT的實驗室白板上已經(jīng)有原型涂鴉了)。每個節(jié)點上都有一個Arch-2網(wǎng)絡界面;每節(jié)點上的3個Xeon Phi協(xié)處理器,通過PCIe 3.0界面和CPU通訊。嗯,沒錯Xeon Phi與CPU的談話速度,要快過CPU之間的……不確定這種不平衡的設置對天河二君的性能有什么影響。
來來來,看一眼天河二君的霸氣外露的網(wǎng)口背板。
天河2的網(wǎng)口交換背板
天河的Arch-2網(wǎng)絡背板雙面都有接口,而且有不同的速率。Arch-2可以跑10Gb/s,或者14Gb/s。其中一個閃亮的RSW交換口在主板的背面,連接機架上節(jié)點組互相之間的通訊。(不太明白這個RSW是啥意思……給諸君賠不是)
天河2的RSW交換模塊
讓人看不懂的是,有幾組RSW交換界面是旋轉90度插在一起的——不過,PDF上就是這么畫的。
8個一組的RSW交換刀片連接著4個刀片機(一共8個ARCH-2接口),看起來其他的4個幾口是用來連接576口的主干交換機的,實現(xiàn)與主干連接的硬件層叫做LSW刀片機,看上去就是這個樣子:
天河2的LSW交換機刀片
Arch-2由13個576口的怪獸交換機組成,看來有用到不少的LSW交換機。這些交換機用的是國防大學自己的開發(fā)的光纖技術和自有知識產(chǎn)權的傳輸協(xié)議。和所有的超級計算機一樣,布線看上去整齊如麻,特別是你要把16000個節(jié)點連起來的時候。
In China, presumably they call a tangle of cables noodles, not spaghetti(不是我不敬業(yè),這句我吐槽不來……)