多方位多角度帶您重新詮釋多核技術(shù)

時間：2014-07-23 22:21:12

關(guān)鍵字： AMD ULTRA 協(xié)處理器 SPARC

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]在X86領(lǐng)域，英特爾和AMD在今后兩年內(nèi)還是會基于傳統(tǒng)的多核心方案繼續(xù)發(fā)展，其中，英特爾在下半年帶來的Merom架構(gòu)以高效率見長，但它非常缺乏擴(kuò)展的空間;而AMD公司在未來兩年

在X86領(lǐng)域，英特爾和AMD在今后兩年內(nèi)還是會基于傳統(tǒng)的多核心方案繼續(xù)發(fā)展，其中，英特爾在下半年帶來的Merom架構(gòu)以高效率見長，但它非常缺乏擴(kuò)展的空間;而AMD公司在未來兩年內(nèi)更多是對現(xiàn)有的AMD64架構(gòu)進(jìn)行改良。

在過去數(shù)十年歷史中，微處理器業(yè)界一直為提高芯片的運(yùn)算性能而努力，得益于IC設(shè)計和半導(dǎo)體制造技術(shù)的交互拉動，微處理器的運(yùn)算性能始終保持高速度提升狀態(tài)，芯片的集成度、工作頻率、執(zhí)行效率也在這個過程中不斷提升，計算機(jī)工業(yè)由此改變。在大家熟知的X86領(lǐng)域，處理器的技術(shù)進(jìn)步更是對世界產(chǎn)生重大的影響，作為PC機(jī)的核心，X86處理器事實上擔(dān)任起信息技術(shù)引擎的作用。

伴隨著X86處理器的性能提升，PC機(jī)可以完成越來越多的任務(wù):從最初的Basic到功能完善的DOS系統(tǒng)，再到圖形化的Windows 95，從平面二維到3D環(huán)境渲染，從一個無聲的純視覺界面進(jìn)入到視覺、音頻結(jié)合的多媒體應(yīng)用，計算機(jī)實現(xiàn)彼此相互聯(lián)網(wǎng)，龐大的Internet日漸完善，電子商務(wù)應(yīng)用從概念到全球流行;

與硬件技術(shù)高速發(fā)展相對應(yīng)，PC應(yīng)用也朝向前所未有的深度和廣度拓展:視頻媒體轉(zhuǎn)向HDTV高清晰格式，3D渲染朝向電影畫質(zhì)進(jìn)發(fā)，操作系統(tǒng)的人機(jī)界面也從2D的GUI進(jìn)入到三維時代，高速互聯(lián)網(wǎng)接入和無線技術(shù)方興未艾，應(yīng)用軟件越來越智能化，所有這些應(yīng)用都要求有高性能的處理器作為基礎(chǔ)。而除了應(yīng)用驅(qū)動外，激烈的市場競爭也成為微處理器業(yè)界競相研發(fā)新技術(shù)、提高產(chǎn)品性能的主要推動力。

在2006年，我們將看到具有卓越能源效率的英特爾Merom架構(gòu)出臺，AMD則以雙通道DDR2-800支持與之抗衡，同時雙核心產(chǎn)品成為桌面和移動芯片的新標(biāo)準(zhǔn)，X86處理器進(jìn)入到性能躍升階段。

毋庸置疑，X86處理器已然成為計算機(jī)工業(yè)的主導(dǎo)力量，在高端服務(wù)器和嵌入領(lǐng)域廣泛使用的RISC處理器反而少被提起。事實上，RISC處理器一直都以遠(yuǎn)超X86產(chǎn)品的卓越性能和銳意進(jìn)取的技術(shù)創(chuàng)新著稱，幾乎所有先進(jìn)的設(shè)計技術(shù)都是首先出現(xiàn)在RISC領(lǐng)域，之后才被X86產(chǎn)品所借鑒。而換一個角度來看，RISC處理器領(lǐng)域的每一次技術(shù)創(chuàng)新又反過來對X86產(chǎn)品產(chǎn)生重大影響，因此，了解當(dāng)前RISC領(lǐng)域的尖端技術(shù)便意味著能夠明晰X86處理器的未來走向。

今天，微處理器全面轉(zhuǎn)向多核心體系，無論RISC芯片還是X86芯片皆是如此，不過我們在本文中所要介紹的并不是人們熟知的雙核心 Pentium D或者Athlon64 X2，而是當(dāng)前多核微處理器領(lǐng)域的最新技術(shù)成果以及面向未來的新穎概念，它們包括RISC領(lǐng)域的黑馬、P.A.Semi公司的PWRficient雙核處理器，SUN公司推出的 UltraSPARC T1八核心處理器，英特爾公司Many Core計劃的實質(zhì)以及AMD正在考慮的HyperTransport協(xié)處理器架構(gòu)。

在這同時，我們也將向大家介紹各微處理器廠商對未來技術(shù)發(fā)展的不同理解，以及軟件業(yè)如何應(yīng)對為多核平臺編程的巨大挑戰(zhàn)。

高度整合的架構(gòu)

P.A.Semi公司的PWRficient處理器在去年微處理器論壇(MPF2005)上正式揭曉。對于P.A.Semi這個名字，相信所有人都感到陌生，這家專門從事RISC處理器設(shè)計的技術(shù)型企業(yè)成立于2003年，創(chuàng)始者都是微處理器業(yè)界的頂尖人物。其CEO曾負(fù)責(zé)Alpha服務(wù)器芯片和 StrongARM手持機(jī)芯片的開發(fā);負(fù)責(zé)技術(shù)的副總裁科勒也曾從事Alpha芯片的開發(fā)，后來進(jìn)入AMD公司幫助定義了Opteron芯片的架構(gòu);另一負(fù)責(zé)架構(gòu)的副總裁皮特同樣曾為Alpha架構(gòu)服務(wù)，在DEC公司發(fā)生的數(shù)次并購中先后進(jìn)入康柏、惠普和英特爾。

在MPF2005論壇上，P.A.Semi公司對外公布其設(shè)計的雙核心PWRficient處理器，高度整合的設(shè)計令外界耳目一新，并兼具低功耗和高性能兩大特性。該公司同時表示，PWRficient彈性的架構(gòu)可被方便擴(kuò)展到八核心或用于超級計算機(jī)系統(tǒng)，在高端服務(wù)器領(lǐng)域頗具競爭力。

在設(shè)計PWRficient之時，P.A.Semi面臨的第一個問題就是指令系統(tǒng)的選擇，X86無疑更加流行、市場更廣闊，但該領(lǐng)域被英特爾、 AMD把持，機(jī)會有限，加上X86指令系統(tǒng)復(fù)雜低效，與PWRficient的高端定位相悖。P.A.Semi最終選擇了IBM的Power架構(gòu)，這樣 PWRficient處理器便成為IBM Power大家族中的一個新成員。

但除此之外，PWRficient與IBM的Power芯片并沒有太多的共同點，它擁有一套極富彈性的架構(gòu)、高度整合以及低功耗特性。 PWRficient主要定位在刀片服務(wù)器和低運(yùn)營成本的服務(wù)器集群，P.A.Semi公司將英特爾的Sossaman Xeon處理器(Yonah架構(gòu))作為主要的競爭對手。

我們先來看看PWRficient的系統(tǒng)架構(gòu)，如圖1，我們可以看到，PWRficient與通常的處理器邏輯非常不同，除了CPU內(nèi)核和二級緩存外，它還包括一個名為ENVIO的智能型I/O子系統(tǒng)。換句話說，PWRficient上包含CPU和ENVIO I/O子系統(tǒng)等兩大邏輯，兩者通過一個名為CONEXIUM Interchage的高速交換總線聯(lián)結(jié)為一個有機(jī)系統(tǒng)。CPU部分為兩個代號為PA6T的64位Power CPU內(nèi)核，運(yùn)行頻率為2GHz。

與其他雙核芯片不同的是，PWRficient的每一個 PA6T內(nèi)核都擁有自己的DDR2內(nèi)存控制器，但兩者是以相互獨立的模式而非組成共享的雙通道。此種設(shè)計的好處在于每個CPU內(nèi)核都能擁有屬于自己的內(nèi)存資源，最大限度降低內(nèi)存搶占的幾率。每個CPU內(nèi)核都可支持64位或32位模式運(yùn)作，具有諸如超標(biāo)量、亂序執(zhí)行、三發(fā)射等技術(shù)特性。另外，PA6T內(nèi)核也都直接整合了硬件級的虛擬技術(shù)支持，可以在多套系統(tǒng)同時運(yùn)行時仍保持出色的性能。

PA6T內(nèi)核整合了64KB指令緩存和64KB數(shù)據(jù)緩存，而兩個PA6T核心再共同分享2MB容量的二級緩存。PWRficient并沒有采用類似Xeon的大緩存方案，原因就在于它的每個核心都有自己的內(nèi)存，出現(xiàn)內(nèi)存搶占的幾率遠(yuǎn)低于共享總線的落后設(shè)計。

兩個PA6T核心、2MB二級緩存和兩個DDR2內(nèi)存控制器都是通過CONEXIUM Interchage交換總線聯(lián)結(jié)為一體，如果未來有需要，也可以在這條交換總線上聯(lián)結(jié)四個內(nèi)核甚至八個內(nèi)核。但CONEXIUM的功能不僅于此，PWRficient處理器中的ENVOI I/O子系統(tǒng)也是通過這套總線與CPU邏輯直接通訊。與我們通常所見的固定模式不同，ENVOI相當(dāng)靈活且富有彈性，它直接整合了八個PCI Express控制器(每個控制器提供4GBps帶寬)、兩個10GbE網(wǎng)絡(luò)控制器(萬兆以太網(wǎng))和四個GbE(千兆以太網(wǎng))控制器，這三部分I/O邏輯共享24對串行傳輸線路。

設(shè)備制造商可根據(jù)自身情況對這24對串行線路進(jìn)行靈活配置，例如在NAS網(wǎng)絡(luò)存儲系統(tǒng)中，可以讓連接磁盤系統(tǒng)的PCI Express傳輸獲得更多線路資源，如果需要多端口的網(wǎng)絡(luò)訪問，那么便可以將線路資源朝向10GbE和GbE系統(tǒng)傾斜。這種高度彈性的架構(gòu)讓制造商擁有寬松的設(shè)計空間，可以根據(jù)企業(yè)的不同需要定制出最科學(xué)的服務(wù)器系統(tǒng)。而這種高度整合設(shè)計還有一個益處在于:無論是PCI Express系統(tǒng)還是網(wǎng)絡(luò)系統(tǒng)，數(shù)據(jù)傳輸時的總線延遲都極短，進(jìn)而獲得卓越的數(shù)據(jù)傳輸效能。[!--empirenews.page--]

盡管PWRficient專門針對服務(wù)器應(yīng)用，但它的設(shè)計思想對于X86產(chǎn)品仍然十分有借鑒意義。AMD計劃在下一代處理器架構(gòu)中引入類似的高度整合設(shè)計，直接內(nèi)建PCI Express控制器，以提高系統(tǒng)的數(shù)據(jù)傳輸性能。事實上，整個芯片組的功能都可以被處理器所整合，這對于芯片組廠商而言顯然不是什么好消息。

除了高度整合設(shè)計外，卓越的每瓦性能也是PWRficient處理器的主要賣點之一。PWRficient的核心頻率為2GHz，芯片最高能耗區(qū)區(qū)25瓦，平均運(yùn)行能耗甚至僅有5W的超低水平。IBM公司將重點放在高性能的Power 5/6和游戲機(jī)領(lǐng)域，對低功耗芯片重視不足，PWRficient便不會與IBM的產(chǎn)品有什么沖突。P.A.Semi公司將英特爾Sossaman核心的低功耗型Xeon作為主要對手，盡管Sossaman基于效率出眾的Yonah架構(gòu)，但它的能源效率遠(yuǎn)無法同PWRficient相提并論。

PWRficient 2GHz的實際性能略高于Sossaman Xeon 2.5GHz，但后者的能耗達(dá)到73瓦，整整比PWRficient高出兩倍。對服務(wù)器系統(tǒng)而言，低功耗芯片的意義不僅在于散熱更佳，最大的好處在于能夠節(jié)約出可觀的運(yùn)營成本。P.A.Semi公司作出了詳細(xì)的對比:如果要構(gòu)建一套運(yùn)算速度達(dá)到32TFLOPS標(biāo)準(zhǔn)的服務(wù)器集群，需要使用6400枚 Sossaman Xeon處理器，連帶配套芯片組、萬兆網(wǎng)卡等組件，整套集群的能耗將達(dá)到467200瓦;

而如果轉(zhuǎn)用PWRficient平臺，只需4000枚芯片就能夠?qū)崿F(xiàn)相同的性能，由于主要功能都被CPU直接集成，配套的芯片組也變得簡單，整個集群的功耗只有92000瓦，相當(dāng)于英特爾Sossaman Xeon平臺的1/5，集群的空間占用、散熱系統(tǒng)費用也更為低廉。如果選擇PWRficient平臺，集群系統(tǒng)的運(yùn)營費用可以被大幅度削減，對本例的 32TFLOPS集群系統(tǒng)而言，就是每年可節(jié)約出至少100萬美元運(yùn)營費用，PWRficient的優(yōu)勢十分明顯。

PWRficient將采用IBM的65納米SOI工藝進(jìn)行制造，P.A.Semi公司計劃在下半年推出處理器樣品，2007年正式上市。該芯片的主要銷售對象包括服務(wù)器廠商、網(wǎng)絡(luò)設(shè)備廠商，甚至還包括家電廠商，尤其在刀片服務(wù)器和服務(wù)器集群系統(tǒng)中，PWRficient具有明顯的優(yōu)勢。但光有優(yōu)秀的產(chǎn)品不足以說明問題，P.A.Semi只是一家小規(guī)模的技術(shù)型公司，自身沒有服務(wù)器制造和推廣力量，只有獲得服務(wù)器廠商的支持才能夠?qū)? PWRficient推向?qū)嵱没?。而對IBM來說，既然沒有更多的精力來開發(fā)低功耗Power芯片，將P.A.Semi收歸旗下不失為一個好選擇。

圖1 PWRficient處理器的邏輯架構(gòu)，整合了大量的I/O功能，堪稱一款SOC(片上系統(tǒng))型芯片。

精簡核心和超多線程設(shè)計

SUN公司在2005年底推出的UltraSPARC T1也是微處理器領(lǐng)域的又一巔峰之作。同PWRficient的高度整合設(shè)計不同，UltraSPARC T1的重心放在多任務(wù)并行功能，這是由UltraSPARC T1自身的定位所決定的。UltraSPARC T1主要針對承擔(dān)網(wǎng)絡(luò)中樞的高端服務(wù)器系統(tǒng)，這類服務(wù)器主要面向高吞吐量的事務(wù)計算，需要在同時處理大量的并發(fā)任務(wù)，而這些任務(wù)又都不需要復(fù)雜的運(yùn)算。

因此，SUN公司采用非均衡的思想來設(shè)計UltraSPARC T1:每個基本的CPU內(nèi)核都相當(dāng)精簡，但都能夠很好地完成相應(yīng)的數(shù)據(jù)處理任務(wù)，由于精簡核心占據(jù)的晶體管資源較少，處理器就能夠集成更多的硬件內(nèi)核;同時在較單純的數(shù)據(jù)處理任務(wù)中，每個CPU核心的執(zhí)行管線都不會被充分利用，在此基礎(chǔ)上導(dǎo)入多線程技術(shù)將能夠進(jìn)一步提高系統(tǒng)的并行能力。我們可以看到，UltraSPARC T1擁有八個對等的硬件內(nèi)核，每個內(nèi)核可同步執(zhí)行4個線程，這樣僅僅一枚處理器就具備同時執(zhí)行32個不同任務(wù)的能力。

UltraSPARC T1的晶體管總量只有3億個左右，峰值能耗只有區(qū)區(qū)80瓦，執(zhí)行效率相當(dāng)出眾。我們必須注意的是，UltraSPARC T1雖然具有超凡的事務(wù)處理能力，可它的科學(xué)計算能力十分糟糕，原因就在于SUN根據(jù)自身特殊的需要，采用不對等的設(shè)計。

UltraSPARC T1的CPU核心設(shè)計得非常簡單，它的流水線很短，也沒有包含浮點運(yùn)算單元，只有在八個核心之外附加了一個浮點運(yùn)算器。這樣每個核心的晶體管占用就很少，為芯片低功耗奠定基礎(chǔ);UltraSPARC T1的每個核心均只運(yùn)行在1.2GHz的低頻率下，這也是拜短流水線設(shè)計所賜，芯片節(jié)能就不難理解了。UltraSPARC T1的每個核心都擁有16KB一級指令緩存和8KB的一級數(shù)據(jù)緩存，并具備奇偶檢查能力(Parity Check)，可以自行偵測緩存錯誤。

如果數(shù)據(jù)串中有1bit出現(xiàn)錯誤，緩存自身可對其進(jìn)行修正，由此保證在苛刻環(huán)境下的運(yùn)行可靠性。在二級緩存方面，UltraSPARC T1實行八核心共享的機(jī)制。由于核心數(shù)量眾多，如果繼續(xù)采用獨立緩存設(shè)計的話，緩存同步操作需要耗費可觀的運(yùn)算資源，共享設(shè)計顯然是更理想的選擇。但為眾多的核心分配緩存資源也是一個令人頭疼的事情，SUN通過Crossbar連接架構(gòu)來解決問題:八個核心在Crossbar的統(tǒng)一分配下獲取緩存資源，有效避免了存取沖突。

一個比較特殊的地方就是UltraSPARC T1的二級緩存容量只有3MB，對一枚擁有八個硬件核心的處理器而言似乎少得可憐，但RISC處理器與X86處理器處理的任務(wù)迥異，提高緩存容量對X86 處理器的性能影響立竿見影，但UltraSPARC T1面向網(wǎng)絡(luò)運(yùn)算，而這類運(yùn)算對緩存容量并不十分依賴，起到?jīng)Q定作用的是核心的性能。

多線程支持是UltraSPARC T1的一大亮點。UltraSPARC T1擁有一項名為CoolThreads的多線程技術(shù)，該技術(shù)令UltraSPARC T1的每個硬件核心都擁有同步執(zhí)行4個線程的能力。這樣，八核心的UltraSPARC T1可以在同一時間運(yùn)行32個線程，具有超強(qiáng)的多任務(wù)處理能力。雖然英特爾的芯片很早就引入HyperTreading超線程功能、允許CPU執(zhí)行兩個線程，但HyperTreading設(shè)計僵化，線程一旦進(jìn)入執(zhí)行位置就無法替換，這樣即便該線程耗費大量的執(zhí)行資源和時間也必須持續(xù)等候。

在不少時候，此舉反而會令系統(tǒng)的效能降低，這也是HyperTreading發(fā)展多年，但始終都沒有獲得廣泛推行的主要原因。而SUN、IBM 等RISC處理器廠商在多線程技術(shù)領(lǐng)域有更深厚的實力，如IBM的Power 5系列具備線程動態(tài)轉(zhuǎn)移功能，在線程運(yùn)行開始即可對執(zhí)行狀況和資源使用進(jìn)行實時偵測，如某個線程久拖不完或資源占用高，其余的核心又處于閑置狀態(tài)時便立即將它轉(zhuǎn)移，同時將運(yùn)算資源和等候時間撫平，令系統(tǒng)保持卓越的并行執(zhí)行效率。[!--empirenews.page--]

UltraSPARC T1的 CoolThreads技術(shù)也具有類似的動態(tài)轉(zhuǎn)移功能，任何一個執(zhí)行單元有空余時，都可抓取已排入其他位置的待處理線程加以執(zhí)行，由此維持八個核心的均衡負(fù)載。

UltraSPARC T1的整合內(nèi)存控制器相當(dāng)強(qiáng)大，它并不是像常規(guī)多核處理器一樣只內(nèi)建1組，而是擁有多達(dá)4組內(nèi)存控制器，每個控制器都可以支持雙通道ECC DDR2-533MHz內(nèi)存、傳輸位寬達(dá)到144bit。在運(yùn)行過程中，如果有4bit以下的內(nèi)容錯誤，UltraSPARC T1的內(nèi)存控制系統(tǒng)可自行糾正，如果錯誤數(shù)量提高到8bit，UltraSPARC T1仍然具備識別能力，系統(tǒng)可保持長時間的穩(wěn)定運(yùn)作。

另外，每組內(nèi)存控制器都可以連接4個DIMM內(nèi)存槽，因此一枚UltraSPARC T1處理器最多可管理多達(dá)16個DIMM模組，創(chuàng)造該領(lǐng)域的最高記錄。毋庸置疑，UltraSPARC T1以4組144bit內(nèi)存接口來對應(yīng)8核心已經(jīng)是相當(dāng)充足，但SUN提供了更多的選擇。在必要時候，用戶可以將每兩個控制器捆綁在一起，相當(dāng)于將原本相互獨立的4組內(nèi)存系統(tǒng)變成兩組可并行存取的結(jié)構(gòu)，從而將內(nèi)存系統(tǒng)的傳輸速度提高一倍。倘若系統(tǒng)執(zhí)行的任務(wù)對數(shù)據(jù)傳輸有很高的要求，開啟這項功能將對系統(tǒng)性能提升起到立竿見影的作用。

而在多路擴(kuò)展方面，UltraSPARC T1采用的是SUN獨有的JBus高速互聯(lián)總線，JBus 1.0規(guī)格早在2003年4月就發(fā)布，采用128bit位寬的地址/數(shù)據(jù)接口，總線頻率在150MHz-200MHz之間，峰值傳輸速率可達(dá)到 3.1GBps。雖然成就遠(yuǎn)不如AMD的HyperTranspot總線，但JBus的性能同樣可滿足多處理器數(shù)據(jù)交換的要求，畢竟UltraSPARC T1擁有八個核心和32個獨立線程，處理器之間不需要交換太多的數(shù)據(jù)。

除了八核心版本外，SUN公司還將推出較低定位的六核心、四核心UltraSPARC T1，但三者其實都出自相同的晶圓，只是將存在瑕疵、但關(guān)閉部分內(nèi)核后可正常運(yùn)行的芯片作為六核或四核型號。令人驚訝的是，UltraSPARC T1非常節(jié)能，在八核心、32個線程都激活狀態(tài)下的典型功耗僅有72瓦，峰值功耗也只有80瓦，能源利用效率極其出色;另外，UltraSPARC T1還可以通過關(guān)閉某些核心來達(dá)到節(jié)能的目的。

當(dāng)然，我們不能簡單將UltraSPARC T1與X86處理器作直接的對比，畢竟兩者面向不同的應(yīng)用、設(shè)計思想迥異。但從UltraSPARC T1中我們可以接觸到另外一種設(shè)計思想:即根據(jù)特定的應(yīng)用來設(shè)計處理器，使得該處理器能夠在既定應(yīng)用中獲得最佳的效能。這種思想在RISC業(yè)界已經(jīng)開始風(fēng)行，X86處理器受通用所累，暫時難以實現(xiàn)類似設(shè)計，但在未來我們不排除這種思想被X86業(yè)界借鑒的可能:例如英特爾/AMD可以專門針對游戲玩家和多媒體娛樂用戶設(shè)計出強(qiáng)化浮點性能的娛樂型處理器，或者設(shè)計出強(qiáng)化整數(shù)性能、功耗更低的辦公型處理器，這樣辦公用戶不必為自己不需要的浮點性能多掏腰包，娛樂用戶也能夠獲得性能更出色的產(chǎn)品。而對英特爾、AMD廠商來說，只要設(shè)計一個富有彈性的處理器架構(gòu)，制造出不同定位的產(chǎn)品并不需要花費多少代價。

專用協(xié)處理器實現(xiàn)效能跨越

PWRficient的高度整合思想、SUN UltraSPARC T1根據(jù)任務(wù)定制的精簡核心、多任務(wù)方案令人耳目一新，但這兩者其實都只是在現(xiàn)有多核架構(gòu)基礎(chǔ)上的革新，處理器本身仍然基于對等的多核心設(shè)計。

微處理器領(lǐng)域真正意義的架構(gòu)革命將在未來數(shù)年內(nèi)誕生，那就是多核架構(gòu)將從通用的對等設(shè)計遷移到“主核心+協(xié)處理器”的非對等設(shè)計，亦即處理器中只有一個或數(shù)個通用核心承擔(dān)任務(wù)指派功能，諸如浮點運(yùn)算、HDTV視頻解碼、Java語言執(zhí)行等任務(wù)都可以由專門的DSP硬件核心來完成，由此實現(xiàn)處理器執(zhí)行效率和最終性能的大幅度躍進(jìn)—IBM Cell、英特爾Many Core和AMD HyperTransport協(xié)處理器平臺便是該種思想的典型代表。

下面，我們便從Cell入手，向大家介紹這種極具前途的新穎設(shè)計。

圖3 Cell處理器基于“PPE主處理單元+SPE協(xié)處理器”的專用化設(shè)計，實現(xiàn)浮點性能的飛躍。

IBM Cell:開創(chuàng)全新的多核架構(gòu)

IBM為索尼PS3游戲機(jī)定制的Cell是一枚擁有9個硬件核心的多核處理器，它的多核結(jié)構(gòu)同以往的多核心產(chǎn)品完全不同。在Cell芯片中，只有一個核心擁有完整的功能，被稱為主處理器，其余8個核心都是專門用于浮點運(yùn)算的協(xié)處理器。其中，主處理器只是PowerPC 970的精簡版本，其主要職能就是負(fù)責(zé)任務(wù)的分配，實際的浮點運(yùn)算工作都是由協(xié)處理器來完成。

由于Cell中的協(xié)處理器只負(fù)責(zé)浮點運(yùn)算任務(wù)，所需的運(yùn)算規(guī)則非常簡單，對應(yīng)的電路邏輯同樣如此，只要CPU運(yùn)行頻率足夠高，Cell就能夠獲得驚人的浮點效能。而由于電路邏輯簡單，主處理器和協(xié)處理器都可以輕松工作在很高的頻率上—Cell起步頻率即達(dá)到4GHz就是最好的證明。在高效率的專用核心和高頻率的幫助下，Cell獲得了高達(dá)256Gigaflops(2560億次浮點運(yùn)算每秒)的浮點運(yùn)算能力，接近超級計算機(jī)的水準(zhǔn)，遠(yuǎn)遠(yuǎn)超越目前所有的X86和RISC處理器。

作為對比，英特爾的4路Montecito安騰(雙內(nèi)核)系統(tǒng)也僅獲得45Gigaflops的浮點性能。更令人驚訝的是，Cell只花費了區(qū)區(qū)2.34億個晶體管，功耗在80-100瓦左右，能源利用效率比現(xiàn)在設(shè)計最佳的RISC和X86處理器都高出數(shù)十倍，這足以說明Cell專用、多核設(shè)計思想的優(yōu)越性。

必須提到的是，Cell并非通用的處理器，雖然它具有極強(qiáng)悍的浮點運(yùn)算性能，可很好滿足游戲機(jī)和多媒體應(yīng)用，但整數(shù)性能和動態(tài)指令執(zhí)行性能并不理想，這是由任務(wù)的形態(tài)所決定的。未來耗費計算機(jī)運(yùn)算性能最多的主要是3D圖形、HDTV解碼、科學(xué)運(yùn)算之類的應(yīng)用，所涉及到的其實都是浮點運(yùn)算，整數(shù)運(yùn)算只是決定操作系統(tǒng)和應(yīng)用軟件的運(yùn)行效能(操作系統(tǒng)、Office軟件等)，而這部分應(yīng)用對處理器性能要求并不苛刻，因此Cell將側(cè)重點放在浮點運(yùn)算性能，與SUN UltraSPARC T1專注事務(wù)處理的設(shè)計可以說有異曲同工之妙。

相較而言，當(dāng)前的X86處理器都采用通用的核心，為了同時提高整數(shù)性能和浮點性能，CPU核心被設(shè)計得越來越臃腫，晶體管消耗越來越多，不僅導(dǎo)致芯片的功耗急劇增大，頻率提升速度也非常緩慢。而且通用設(shè)計的另一個弊病在于，不管執(zhí)行什么任務(wù)，芯片內(nèi)的所有邏輯單元都消耗電力，導(dǎo)致X86芯片普遍存在能源利用率低的問題。[!--empirenews.page--]

可以預(yù)見，倘若繼續(xù)沿著現(xiàn)有的通用、多核設(shè)計方案向前發(fā)展，X86處理器將會陷入一系列的困境，例如芯片高度復(fù)雜，開發(fā)和制造成本越來越高、芯片功耗無法控制等等。面對這樣的現(xiàn)實，X86業(yè)界轉(zhuǎn)變思想勢在必行。顯然，IBM Cell的新穎設(shè)計非常值得參考，英特爾的Many Core和AMD HyperTransport協(xié)處理器計劃可以視作Cell思想的變種。

圖4 DSP與通用CPU執(zhí)行專用任務(wù)時的效能和效率對比

Many Core:Cell思想的繼承與發(fā)展

在2005年的IDF技術(shù)峰會上，英特爾對外公布了Many Core超多核發(fā)展藍(lán)圖。隨著時間推移，Many Core計劃越來越明晰，我們可以肯定它將成為英特爾未來的X86處理器架構(gòu)。Many Core采用的也是類似Cell的專用化結(jié)構(gòu)，我們知道，英特爾的四核心處理器采用對等設(shè)計，每個內(nèi)核地位相同，而轉(zhuǎn)到Many Core架構(gòu)之后，其中的某一個或幾個內(nèi)核可以被置換為若干數(shù)量的DSP邏輯，保留下來的X86核心執(zhí)行所有的通用任務(wù)以及對特殊任務(wù)的分派;DSP則用于某些特殊任務(wù)的處理。

依照應(yīng)用不同，這些DSP類型可以是Java解釋器、MPEG視頻引擎、存儲控制器、物理處理器等等。在處理這類任務(wù)時，DSP的效能遠(yuǎn)優(yōu)于通用的X86核心，功耗也低得多。在圖4中我們可以看到DSP與通用CPU的效率對比:功耗僅2瓦、特定功能的DSP芯片，在處理對應(yīng)任務(wù)時的效能比75瓦功耗的通用CPU更加出色，且由于DSP構(gòu)造簡單、頻率提升非常容易;由于DSP效能提升速度比通用處理器快得多，這樣隨著時間的推移，DSP的效能優(yōu)勢將越來越明顯。

而如果處理器將高負(fù)載的專用任務(wù)轉(zhuǎn)交給DSP執(zhí)行之后，那么主核心的運(yùn)算壓力就大大減輕，系統(tǒng)整體效能將獲得明顯提升。

第一代Many Core架構(gòu)處理器可能采用“3個通用X86核心+16個DSP內(nèi)核”的組合(圖5)，我們可以看到，它的原型是一枚四核心處理器，只是將其中一個核心置換成16個DSP邏輯而已，因此處理器的總體結(jié)構(gòu)和晶體管規(guī)模都不會有多大變化，但產(chǎn)品的實際水準(zhǔn)將獲得大幅度增強(qiáng)。在執(zhí)行Java程序、視頻解碼、3D 渲染等耗用CPU資源的任務(wù)中，DSP的效能都大幅優(yōu)于通用核心，因此Many Core產(chǎn)品在執(zhí)行這類專用任務(wù)時會有飛躍性的性能增益。

同時，DSP邏輯的能耗只有通用核心的幾十分之一，可以讓處理器的功耗出現(xiàn)可觀的降低。當(dāng)然，如果我們將英特爾的Many Core處理器與Cell相比，便會發(fā)現(xiàn)一個明顯的差異:Cell的主核心非常簡單，協(xié)處理器則非常強(qiáng)大;而Many Core的通用核心仍然居于主導(dǎo)地位，DSP更多只是一種輔助。

這種差異源自于二者不同的定位:Cell只要求具備強(qiáng)勁的浮點效能，而對整數(shù)運(yùn)算不作要求，因此通用的主核心可以非常精簡;但Many Core必須考慮兼容大量的X86應(yīng)用軟件，專用的任務(wù)居于從屬性地位，在第一代產(chǎn)品中采用“三個通用核心+16個DSP核心”的組合應(yīng)該是比較恰當(dāng)?shù)摹?/p>

根據(jù)英特爾的遠(yuǎn)景規(guī)劃，第二代Many Core產(chǎn)品將在2015年前后面世。這當(dāng)然過于遙遠(yuǎn)了，但我們不妨來看看它是一款什么樣的產(chǎn)品(圖6)—擁有8個通用X86核心、64個專用DSP邏輯，片內(nèi)緩存容量高達(dá)1GB，晶體管規(guī)模則達(dá)到200億。受限于半導(dǎo)體工藝，后兩個目標(biāo)或許很難完全實現(xiàn)，但Many Core設(shè)計將毋庸置疑成為標(biāo)準(zhǔn)，而英特爾從這往后將逐步引入Many Core Array架構(gòu)，不斷增強(qiáng)DSP的數(shù)量以及執(zhí)行能力，通用核心的地位將隨著時間推移不斷減弱，直到最后完全可能實現(xiàn)以DSP占主導(dǎo)地位的專用化運(yùn)算模式。

圖5 從四核心平滑升級到“三核心+16DSP”的方案，即將其中一個通用核心置換成DSP陣列。

HyperTransport協(xié)處理器系統(tǒng)

在英特爾對Many Core概念作出具體探討之時，AMD也在考慮自己的未來處理器架構(gòu)。但與英特爾不同的是，AMD尚未考慮另起爐灶的Many Core計劃，而是利用現(xiàn)有的HyperTransport連接架構(gòu)，對多路服務(wù)器系統(tǒng)進(jìn)行拓展。

Cray公司(克雷，著名的高性能計算機(jī)制造商)希望能在基于Opteron的超級計算機(jī)中使用矢量處理單元，以提升計算機(jī)的矢量運(yùn)算效能。 AMD方面并不是簡單考慮在Opteron核心中增加一個矢量邏輯了事，而是計劃以此為契機(jī)，建立一個以AMD為中心的企業(yè)生態(tài)圈—這或許過于抽象，但看完下文的分析之后大家便能夠明了其中的含義。

我們知道，現(xiàn)有的Opteron多路系統(tǒng)并非采用共享前端總線的方式連接，而是借助專用的HyperTransport總線實現(xiàn)芯片間的直連。這樣，每一顆Opteron處理器都可以直接與其他的處理器進(jìn)行數(shù)據(jù)交換或緩存同步，不必占用內(nèi)存空間，無論系統(tǒng)中有多少數(shù)量的Opteron，整套系統(tǒng)都能夠保持高效率的運(yùn)作。在該套平臺中，HyperTransport總線處于中樞地位，而它除了作為處理器連接總線外，還可以連接PCI-X控制器、 PCI Express控制器以及I/O控制芯片，也就是充當(dāng)芯片間的高速連接通路。

AMD公司考慮的一套協(xié)處理器擴(kuò)展方案也是以此為基礎(chǔ)，即為多路Opteron平臺開發(fā)各種功能的協(xié)處理器，這些協(xié)處理器都通過 HyperTransport總線與Opteron處理器直接連接。對Cray提出的需求，AMD給出的解決方案就是，將八路Opteron中的一顆 Opteron處理器置換成矢量協(xié)處理器，以此實現(xiàn)矢量計算性能的大幅度增長，而Opteron平臺本身不需要作任何形式的變動。

在未來，這種拓展架構(gòu)也可以延伸到PC領(lǐng)域，例如在PC中掛接基于HyperTransport總線的浮點協(xié)處理器、物理協(xié)處理器、視頻解碼器、專門針對Java程序的硬件解釋器，甚至可以是由nVIDIA或ATI開發(fā)的圖形處理器。為達(dá)成上述目標(biāo)，AMD必須設(shè)計出一個高度穩(wěn)定的統(tǒng)一接口方便用戶進(jìn)行擴(kuò)展，而借助各種各樣的協(xié)處理器，AMD64系統(tǒng)的性能將獲得空前強(qiáng)化。

如果從邏輯層面來看，AMD HyperTransport協(xié)處理器系統(tǒng)的實質(zhì)與英特爾Many Core平臺其實完全相同，兩者的區(qū)別更多是在物理組成方式:Many Core將專用的DSP邏輯直接整合于處理器內(nèi)部，AMD的協(xié)處理器系統(tǒng)則是借助HyperTransport總線在外部掛接，這樣用戶就不必為了獲得額外的性能購買新機(jī)，直接選擇相應(yīng)的協(xié)處理器掛接即可。由于協(xié)處理器類型將會非常豐富，每個用戶都能從中找到最適合自己的產(chǎn)品，這在無形之中增強(qiáng)了AMD HyperTransport協(xié)處理器平臺之于Many Core平臺的競爭力。[!--empirenews.page--]

HyperTransport協(xié)處理器方案最富殺傷力的地方并非在于靈活性，而在于AMD所創(chuàng)建的“共生模式”。AMD計劃將 HyperTransport協(xié)處理器授權(quán)給其他的專業(yè)IC設(shè)計公司，這樣大量的第三方公司都可以為AMD64平臺開發(fā)協(xié)處理器并分別銷售，AMD自身只需要負(fù)責(zé)通用處理器的開發(fā)和HyperTransport原生態(tài)的維護(hù)?；诠餐睦?，大量的第三方IC設(shè)計公司將緊密圍繞AMD公司共同發(fā)展 HyperTransport平臺:通過銷售協(xié)處理器，第三方IC公司能夠獲得豐厚的回報，AMD則通過平臺授權(quán)和AMD64處理器的銷售獲得利潤、并在第三方公司的幫助下提高市場份額。

至于終端用戶，則可以在現(xiàn)有基礎(chǔ)上通過增加或升級協(xié)處理器達(dá)成大幅度提高系統(tǒng)性能的目的—這便是AMD倡導(dǎo)的“友好生態(tài)系統(tǒng)”的實質(zhì)。與AMD 的開放策略形成鮮明對比，英特爾將變得越來越封閉，從迅馳到VIIV平臺，第三方廠商的機(jī)會越來越少，英特爾希望將全部的商業(yè)利潤都?xì)w自己所有，而不是與合作廠商共同分享機(jī)會。在這樣的背景下，越來越多IC廠商轉(zhuǎn)向?qū)MD平臺的支持，因此AMD所倡導(dǎo)的友好生態(tài)系統(tǒng)其實已經(jīng)有相當(dāng)良好的基礎(chǔ)。

圖6 2015年的處理器藍(lán)圖，Many Core設(shè)計成為標(biāo)準(zhǔn)

前瞻:架構(gòu)革命的前夜

盡管X86業(yè)界依然按部就班地進(jìn)行性能提升，軟件工業(yè)也是在以往基礎(chǔ)上匍匐前進(jìn)，但這場架構(gòu)革命距離我們并不遙遠(yuǎn)。在RISC領(lǐng)域，針對實際應(yīng)用對產(chǎn)品作定制化設(shè)計成為各個廠商的共識，而各個廠商在開發(fā)新一代架構(gòu)時都會有意識地為處理器預(yù)留擴(kuò)展定制的空間。

相信在未來，我們可以看到越來越多的專用型RISC處理器，例如游戲機(jī)/視頻任務(wù)處理器、網(wǎng)絡(luò)處理器、低耗能通用處理器、嵌入處理器等等;而在 X86領(lǐng)域，英特爾和AMD在今后兩年內(nèi)還是會基于傳統(tǒng)的多核心方案繼續(xù)發(fā)展，其中，英特爾在下半年帶來的Merom架構(gòu)以高效率見長，但它非常缺乏擴(kuò)展的空間;到2008年，英特爾才會陸續(xù)引入CSI總線并整合內(nèi)存控制器，解決多路服務(wù)器系統(tǒng)擴(kuò)展性的問題;大約到2010年，我們有望看到第一代Many Core處理器出臺，X86處理器將轉(zhuǎn)向一個全新的多核時代。

而AMD公司在未來兩年內(nèi)更多是對現(xiàn)有的AMD64架構(gòu)進(jìn)行改良，例如引入雙通道DDR2-800支持和65納米SOI工藝，服務(wù)器領(lǐng)域 Opteron的優(yōu)勢不太容易被打破。大約在2008年，AMD將帶來新一代的K9或K10，高度整合設(shè)計將被引入，更關(guān)鍵的是，AMD將帶來 HyperTransport 3.0和4.0版總線技術(shù)規(guī)范，并有可能開始啟動協(xié)處理器計劃。

由于HyperTransport 3.0/4.0將直接對協(xié)處理器提供支持，AMD只需要解決主處理器與協(xié)處理器的任務(wù)協(xié)作以及硬件連接標(biāo)準(zhǔn)的制定即可，接下來的協(xié)處理器開發(fā)工作便主要依靠第三方IC公司加以實現(xiàn)。如果AMD在新一輪變革中再度領(lǐng)先，那么在大量第三方企業(yè)和用戶的支持下，英特爾在微處理器市場的主導(dǎo)優(yōu)勢很可能徹底喪失，最終出現(xiàn)兩大平臺分庭抗禮的格局。

當(dāng)前微處理器技術(shù)發(fā)展的幾個方向

提高架構(gòu)執(zhí)行效率、多核心設(shè)計、靈活的擴(kuò)展彈性、深層次的功能整合是當(dāng)前微處理器領(lǐng)域的四大技術(shù)發(fā)展方向。處理器效率低下的弊端主要出現(xiàn)在 X86領(lǐng)域，X86指令集臃腫復(fù)雜，指令效率已明顯低于RISC體系，如果不在芯片設(shè)計方面加以彌補(bǔ)，X86處理器很難獲得媲美RISC產(chǎn)品的卓越性能。

衡量處理器效率通常有兩個指標(biāo):一是芯片的能源利用效率，也就是每瓦性能，在消耗同等能源條件下，最終性能高的產(chǎn)品能源效率就較高;第二個指標(biāo)便是芯片的晶體管效率，我們可以引入“每晶體管性能”來衡量，在消耗等量晶體管數(shù)量條件下，芯片效能高者效率就越高。

晶體管規(guī)模越大，制造成本越高，對芯片廠商來說，提高每晶體管性能能夠在保持成本不變的前提下獲得更卓越的性能。一般來說，每瓦性能和每晶體管性能總是被結(jié)合起來討論，不同指令體系的產(chǎn)品在此相差甚遠(yuǎn)，例如當(dāng)前頂級的RISC處理器與頂級的X86處理器作對比，我們便會發(fā)現(xiàn)X86芯片遠(yuǎn)遠(yuǎn)落后。

即便基于相同的指令體系但設(shè)計不同的產(chǎn)品，也可能存在懸殊的效率差異—一個最典型的例子就是英特爾Netburst架構(gòu)與AMD64架構(gòu)，Pentium 4芯片的功耗更高，晶體管規(guī)模也普遍更大，但性能無法同對應(yīng)的AMD64架構(gòu)產(chǎn)品抗衡。且Pentium 4芯片的能耗已超過百瓦，達(dá)到風(fēng)冷散熱的極限，無法進(jìn)一步向上提升。

為了解決這個問題，英特爾將在今年中期引入Merom架構(gòu)來代替Netburst，誠如我們之前的分析，Merom引入了RISC精簡指令的思想，對X86架構(gòu)進(jìn)行根本性的改進(jìn)得以大幅提高效率。而在RISC技術(shù)領(lǐng)域，提高效率也一直都是各制造商的目標(biāo)，雖然RISC芯片在這方面已占據(jù)先天優(yōu)勢，但各芯片廠商仍然在此方面花費巨大的精力并獲得斐然成果。在本文關(guān)于P.A.Semi的PWRficient雙核處理器、SUN UltraSPARC T1八核處理器的分析中，我們將能看到這一點。

多核心設(shè)計可謂是提高每晶體管效能的最佳手段。在單核產(chǎn)品中，提高性能主要通過提高頻率和增大緩存來實現(xiàn)，前者會導(dǎo)致芯片功耗的提升，后者則會讓芯片晶體管規(guī)模激增，造成芯片成本大幅度上揚(yáng)。盡管代價高昂，這兩種措施也只能帶來小幅度性能提升。而如果引入多核技術(shù)，便可以在較低頻率、較小緩存的條件下達(dá)到大幅提高性能的目的。相比大緩存的單核產(chǎn)品，耗費同樣數(shù)量晶體管的多核心處理器擁有更出色的效能，同樣在每瓦性能方面，多核設(shè)計也有明顯的優(yōu)勢。

正因為如此，當(dāng)IBM于2001年率先推出雙核心產(chǎn)品之后，其他高端RISC處理器廠商也迅速跟進(jìn)，雙核心設(shè)計由此成為高端RISC處理器的標(biāo)準(zhǔn)。而X86業(yè)界直到去年中期才開始嘗試推出雙核產(chǎn)品，預(yù)計實現(xiàn)全面普及要等到2006-2007年。

此時，RISC業(yè)界又朝向多核、多線程的方向發(fā)展，四核心、八核心設(shè)計紛紛登臺亮相，并行線程數(shù)量多達(dá)32條，并且開始從通用多核體系轉(zhuǎn)向簡化核以及專用化的DSP，實現(xiàn)性能的跨越性提升—這些新設(shè)計和新方向也都將被X86業(yè)界所借鑒。[!--empirenews.page--]

在多路服務(wù)器領(lǐng)域，芯片能否具有良好的擴(kuò)展彈性至關(guān)重要，而這主要取決于以下兩大要素:第一，處理器擁有一條專門的芯片間直連總線，這樣當(dāng)系統(tǒng)中擁有多枚處理器的時候，各個處理器可借助該總線進(jìn)行通訊，從而實現(xiàn)高效的任務(wù)協(xié)作;第二，處理器是否將內(nèi)存控制器直接整合、擁有一套獨立的內(nèi)存系統(tǒng)。這方面反面的例子就是英特爾的Xeon平臺，如果要構(gòu)建多路Xeon系統(tǒng)，那么就必須依賴于芯片組，多枚處理器共同分享一套內(nèi)存系統(tǒng)。

處理器之間如果需要進(jìn)行數(shù)據(jù)通訊，就必須經(jīng)由“前端總線-北橋-內(nèi)存”的鏈路，這個過程不僅耗費了可觀的時鐘周期，也消耗了總線和內(nèi)存資源。更嚴(yán)重的是，這類系統(tǒng)存在內(nèi)存搶占和緩存同步兩個難題:內(nèi)存搶占是指當(dāng)多個處理器同時發(fā)起對內(nèi)存中的某段數(shù)據(jù)進(jìn)行存取指令時，各個處理器必須以搶占的方式獲得內(nèi)存存取權(quán)限—如果有一個處理器對某段數(shù)據(jù)進(jìn)行修改，該處理器就會鎖定這段數(shù)據(jù)，其他的處理器必須等待，導(dǎo)致性能提升幅度大打折扣。

系統(tǒng)中的處理器數(shù)量越多，此種內(nèi)存搶占現(xiàn)象就會越頻繁，最糟糕的時候?qū)?dǎo)致系統(tǒng)的性能不升反降。緩存同步主要出現(xiàn)在多處理器/多內(nèi)核協(xié)作處理同一任務(wù)時，各個處理器或內(nèi)核必須進(jìn)行緩存同步。由于Xeon缺乏直接溝通渠道，緩存同步操作也必須依賴“前端總線-北橋-內(nèi)存”的鏈路進(jìn)行，效率較為低下。

相比之下，AMD的Opteron平臺就沒有這兩個問題:借助HyperTransort總線，Opteron處理器可實現(xiàn)直接通訊，加之 Opteron擁有獨立的內(nèi)存控制器，不存在內(nèi)存搶占的問題，因此該平臺非常易于擴(kuò)展。Opteron在服務(wù)器領(lǐng)域?qū)eon造成強(qiáng)大的壓力，很大程度上就是得益于此。至于RISC領(lǐng)域，芯片直連總線和整合內(nèi)存控制器也早已成為處理器的標(biāo)準(zhǔn)設(shè)計，而英特爾在自己的技術(shù)藍(lán)圖上也表明將在2008年開始采用類似的設(shè)計。

對應(yīng)用于PC的X86處理器而言，處理器的擴(kuò)展彈性無關(guān)緊要，但整合內(nèi)存控制器還是非常有意義，原因在于該項設(shè)計能夠有效降低內(nèi)存系統(tǒng)的延遲時間。事實上，這只是整合運(yùn)動的開始，不少處理器廠商都在考慮讓處理器整合越來越多的功能，例如SUN和AMD都在考慮在下一代架構(gòu)中直接整合PCI Express控制器、I/O控制器甚至是圖形功能，借此提升系統(tǒng)的I/O性能以及降低平臺成本;P.A.Semi的PWRficient處理器則整合了 10GbE和GbE網(wǎng)絡(luò)控制器以及PCI Express控制器，目的是提高相應(yīng)服務(wù)器的網(wǎng)絡(luò)性能和I/O傳輸效能。盡管其他的處理器廠商似乎不為所動，但高度的整合無疑是未來處理器的發(fā)展方向之一。

多核處理器同軟件配合的討論

在多核心處理器如火如荼發(fā)展的時候，軟件業(yè)卻遠(yuǎn)遠(yuǎn)沒有來得及為此作準(zhǔn)備。最早發(fā)現(xiàn)問題的是PS3、Xbox 360等平臺的游戲開發(fā)商，由于兩套系統(tǒng)完全不同于前一代產(chǎn)品，游戲開發(fā)者對此怨聲載道，程序員普遍認(rèn)為對多核心處理器編程近乎是一種災(zāi)難，因為程序員必須深入了解相應(yīng)的硬件平臺，然后據(jù)此編寫代碼，而讓代碼在兩個核心之間平衡更是一大難題。

相對來說，PS3的Cell平臺難度更大，程序員首次接觸到主-從方式的多核平臺，對如何發(fā)揮出協(xié)處理器的性能優(yōu)勢缺乏經(jīng)驗，由于編碼的不到位，讓Cell平臺無法表現(xiàn)出與實際相稱的高性能。同樣的事情現(xiàn)在也出現(xiàn)在X86領(lǐng)域，雙核平臺的出現(xiàn)讓軟件開發(fā)商考慮對雙核優(yōu)化的重要性—但比較幸運(yùn)的是，諸如辦公軟件、網(wǎng)頁瀏覽器、內(nèi)容創(chuàng)建工具等常規(guī)的商務(wù)軟件對CPU性能要求不高，對雙核優(yōu)化也不見得會帶來什么實質(zhì)性的益處，因此主要的X86軟件都不需要作出變動，真正需要考慮雙核平臺的仍然是X86平臺下的游戲。

對此游戲開發(fā)商也是相當(dāng)頭疼，因為X86多核與PS3、Xbox 360游戲機(jī)的多核平臺不同，未來的Many Core或HyperTransport協(xié)處理器平臺也許又要作出改動。為了充分發(fā)揮硬件性能，設(shè)備廠商希望開發(fā)商深入了解對應(yīng)多核處理器的細(xì)節(jié)—問題是現(xiàn)存多種多核架構(gòu)，一一研究代價巨大。開發(fā)者都希望能夠利用一個硬件無關(guān)的自動化通用開發(fā)平臺進(jìn)行設(shè)計開發(fā)，這樣編碼工作將變得相當(dāng)容易，同時也能夠保證代碼擁有出色的適應(yīng)性，遺憾的是，至少在目前這還是軟件工業(yè)一廂情愿的想法。

當(dāng)然，我們沒必要因此對多核平臺喪失信心，對X86 PC來說，使用多核心處理器能夠極大提升系統(tǒng)的多任務(wù)效能，你可以在相同的時間里執(zhí)行多項任務(wù)，借此提高辦公效率—在軟件業(yè)來不及跟上的時候，辦公用戶或許能夠更多體驗到雙核平臺的優(yōu)勢所在。