7月末,IBM和中國科學(xué)院(CAS)計算機網(wǎng)絡(luò)信息中心聯(lián)合在京舉行了IBM-中國國家網(wǎng)格Cell/B.E.研討會。雙方就基于Cell/B.E.(Cell Broadband Engine)的IBM BladeCenter QS20刀片系統(tǒng)在中國國家網(wǎng)格(CNGrid)的成功應(yīng)用,以及目前高性能計算領(lǐng)域的最新進(jìn)展和發(fā)展趨勢進(jìn)行了研討。
基于Cell處理器的IBM刀片系統(tǒng)
基于Power架構(gòu)的Cell/B.E. 最初是IBM、索尼和東芝為游戲主機而開發(fā)的。IBM BladeCenter QS20是一種基于Cell/B.E.的刀片系統(tǒng),專為那些準(zhǔn)備從Cell/B.E.處理器的高性能計算力以及運行圖形密集型應(yīng)用的獨特能力中受益的公司而設(shè)計。QS20集成了7個刀片共14個Cell處理器,最高性能超過了2.8TFLOPS——相當(dāng)于每秒鐘完成2.8萬億次浮點運算。
2006年10月,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心和IBM啟動了為CNGrid提供基于Cell/B.E.的刀片服務(wù)器計算節(jié)點的項目,并鼓勵開發(fā)各種能夠充分利用其獨特性能的應(yīng)用。今年4月,國內(nèi)第一臺基于Cell/B.E.的刀片服務(wù)器系統(tǒng)開始在位于北京的中國科學(xué)院超級計算中心投入運行。
目前,這一系統(tǒng)已經(jīng)能夠?qū)Φ卣痤A(yù)報(Earthquake Prediction)、分子動態(tài)仿真(Molecular Dynamics Simulation),以及MPEG2代碼轉(zhuǎn)換機(MPEG2 Transcoder)等應(yīng)用進(jìn)行演示,Cell/B.E.多核并行處理技術(shù)的能力和性能在這些應(yīng)用演示中得到了充分的展現(xiàn)。IBM的工作人員介紹說,與傳統(tǒng)的x86處理器相比,地震預(yù)報和分子動態(tài)仿真在Cell處理器上的運行速度分別提升了37.7倍和21.5倍。
摩爾定律已“死”,架構(gòu)創(chuàng)新提升硬件性能
在IBM看來,摩爾定律(moore's law)代表的工藝進(jìn)步已接近極限,使得硬件產(chǎn)業(yè)需要在加速器、多核和SoC等方面實現(xiàn)架構(gòu)創(chuàng)新,以繼續(xù)提升硬件系統(tǒng)性能?!澳柖梢阉?moore's law is over),對不起,對不起,實際上,摩爾定律還沒有死,讓我來仔細(xì)解釋一下?!?Guernsey博士笑道。
他向《國際電子商情》記者解釋說,過去幾十年來,我們讓芯片變快的方法是讓晶體管越來越小,但是現(xiàn)在讓芯片變快非常困難,因為晶體管越小伴隨漏電的問題越嚴(yán)重,現(xiàn)在我們正接近臨界點。因此現(xiàn)在讓芯片的頻率變快越來越不現(xiàn)實,因為會有更大的功耗。事實上,摩爾定律并不是講芯片的速度越來越快,而是指它的密度每18個月或者24個月翻倍,晶體管密度仍然繼續(xù)翻倍,但是步伐也開始減慢,可能需要36個月翻倍。在芯片上集成更多的晶體管仍是可能的,但這也快接近終點了,越來越困難。今天看到Cell處理器是90nm的,下次看到的時候可能是45nm,再下去就是32nm的,每到一個新的工藝節(jié)點,就可以集成更多的晶體管。但是22nm是一個問題,太昂貴了,所以再過10-15年我們做到22nm的時候,就很難再往下走了。
IBM認(rèn)為,在工藝進(jìn)步面臨極限時,為了持續(xù)提升硬件系統(tǒng)性能,就必須在架構(gòu)上進(jìn)行創(chuàng)新,而以cell處理器為代表的加速器、多核和SoC就是未來的發(fā)展方向。“計算世界或者說硬件世界正在改變,它正在發(fā)生重大的轉(zhuǎn)變,主要是因為功耗問題。我認(rèn)為未來不可避免的在高性能計算會出現(xiàn)一種‘混血系統(tǒng)’(hybrid system),我們的Cell處理器和傳統(tǒng)的通用處理器能夠一起合作提供很強的計算能力,就是一個很好的例子?!盜BM中國技術(shù)學(xué)院院長John Turek博士表示。
Robert Guernsey:我們現(xiàn)在處于一場如何構(gòu)建高性能計算能力的革命的開始
與傳統(tǒng)處理器不同的是,Cell處理器是一個9核處理器,擁有8個協(xié)同處理單元以及1個基于Power架構(gòu)的核心,頻率達(dá)3.2GHz,可在很多計算密集型應(yīng)用中為客戶提供強大的性能。在初始硬件測試中,Cell處理器的最高性能超過了200 GFLOPS——相當(dāng)于每秒鐘完成2,000億次浮點運算。在研討會現(xiàn)場,IBM的工作人員演示了MPEG2轉(zhuǎn)換應(yīng)用,采用一個Cell處理器,其中一個協(xié)處理器實現(xiàn)MPEG2解碼,另外7個協(xié)處理器可支持7路H.264標(biāo)清編碼。據(jù)介紹,已有視頻監(jiān)控廠商非常感興趣,希望用它來取代目前昂貴的FPGA和DSP。
除了應(yīng)用于眾所周知的索尼PS3外,Cell處理器還被用于IBM刀片系統(tǒng)并被眾多機構(gòu)用于構(gòu)建超級計算機,應(yīng)用領(lǐng)域也擴展到了醫(yī)療影像、航空航天、防務(wù)、數(shù)字動畫、通信以及石油和天然氣等需要高性能計算力以及運行圖形密集型的應(yīng)用。
例如,IBM將為美國能源部設(shè)計名為“Roadrunner”的混血超級計算機,這臺將于今年底交付的超級計算機將使用超過1.6萬個AMD Opteron處理器內(nèi)核以及超過1.6萬個Cell處理器,最高性能超過了每秒鐘1,600萬億次計算(1.6 petaflops)?!癛oadrunner”的混血設(shè)計將允許系統(tǒng)對復(fù)雜的數(shù)學(xué)公式進(jìn)行分解,然后將分解后的各組成部分發(fā)送到能夠以最高效率對其進(jìn)行處理的系統(tǒng)。典型的計算流程——文件IO和通信活動將由 AMD Opteron處理器進(jìn)行處理,而更加復(fù)雜和重復(fù)性的工作(傳統(tǒng)上會占用超級計算機大部分資源的任務(wù))將由超過1.6萬個Cell處理器進(jìn)行處理。
IBM的Oliver Retting表示,事實上,IBM并不孤單,AMD和nVIDIA都在走類似cell處理器這種發(fā)展路線,即將CPU和GPU(圖形處理器)集成?!翱傊?,現(xiàn)在通過提升頻率以提高速度已經(jīng)很難了,但是你可以增加處理器的個數(shù),這就需要更多的軟件和編程”。Guernsey博士向《國際電子商情》記者總結(jié)說。