兼容多種運(yùn)算核心 HSA架構(gòu)提高處理器能源效率
異質(zhì)運(yùn)算架構(gòu)(HSA)將有助實(shí)現(xiàn)高效能、低功耗處理器設(shè)計(jì)。隨著HSA標(biāo)準(zhǔn)和軟體解決方案日益成熟,處理器研發(fā)人員將能利用此技術(shù)促進(jìn)系統(tǒng)單芯片(SoC)內(nèi)部的異質(zhì)核心協(xié)同運(yùn)作,并透過(guò)軟體將復(fù)雜任務(wù)分配至最合適的運(yùn)算單元,進(jìn)而兼顧高運(yùn)算效率和低能源消耗。
異質(zhì)運(yùn)算的時(shí)代終于來(lái)臨,恰好能夠解救處理器設(shè)計(jì)者脫離為迎合摩爾定律的28奈米(nm)新制程成本增加問(wèn)題。處理器設(shè)計(jì)師不必只是仰賴昂貴的低功率電晶體,而是可以透過(guò)系統(tǒng)架構(gòu)改善,將軟體工作負(fù)載分配至不同異質(zhì)運(yùn)算單元,藉此協(xié)助降低能源消耗。
業(yè)界大廠合力推動(dòng) HSA技術(shù)受矚目
近年來(lái),處理器能源效率的進(jìn)步,多半是因?yàn)槌⌒突?strong>半導(dǎo)體制程的迅速發(fā)展,隨著制造技術(shù)的推陳出新,每一電晶體的成本不斷提高,異質(zhì)系統(tǒng)架構(gòu)(Heterogenous System Architecture, HSA)等替代技術(shù)因此而崛起。
不同于仰賴相同通用中央處理器(CPU)核心的同質(zhì)處理器架構(gòu),HSA連結(jié)多種運(yùn)算核心,如CPU、繪圖處理器(GPU)、數(shù)位訊號(hào)處理器(DSP)、現(xiàn)場(chǎng)可編程閘陣列(FPGA)及固定功能硬體等,各類核心針對(duì)不同類型的應(yīng)用工作負(fù)載而優(yōu)化。
由超微半導(dǎo)體(AMD)、安謀國(guó)際(ARM)、Imagination、聯(lián)發(fā)科、高通(Qualcomm)、三星電子(Samsung Electronics)與德州儀器(TI)等所設(shè)立的“HSA基金會(huì)”,旨在確保應(yīng)用程式能夠?qū)⑷蝿?wù)分配至對(duì)于特定工作負(fù)載具有最高電源效率的超微次世代繪圖核心(GCN)運(yùn)算單元,藉此妥善管理應(yīng)用程式執(zhí)行。HSA基金會(huì)建立一套連接異質(zhì)運(yùn)算核心的開放標(biāo)準(zhǔn),讓各家業(yè)者得以各自發(fā)展支援共同軟體基礎(chǔ)架構(gòu)的解決方案,從而實(shí)現(xiàn)具有高效能及高電源效率的異質(zhì)應(yīng)用。
同時(shí)支援x86/ARM架構(gòu) HSA實(shí)現(xiàn)跨平臺(tái)設(shè)計(jì)
超微半導(dǎo)體于2014年初發(fā)表A系列加速處理器(APU)--Kaveri,可支援HSA功能。軟體業(yè)者能夠利用該系統(tǒng),設(shè)計(jì)出廣泛部署支援HSA之應(yīng)用程式所需的軟體開發(fā)工具。
HSA 的重要特性之一是能跨平臺(tái)支援x86產(chǎn)品及安謀國(guó)際架構(gòu)產(chǎn)品,并具備開發(fā)系統(tǒng),可供開發(fā)支援HSA中間語(yǔ)言(HSAIL)的編譯器及其他工具,促進(jìn)真正的可攜式應(yīng)用。2014年6月首次公開發(fā)布HSA系統(tǒng)架構(gòu)規(guī)格(暫定為版本1.0)后,現(xiàn)已有更多軟體開發(fā)團(tuán)隊(duì)能夠得知HSA的詳情,進(jìn)而利用更為簡(jiǎn)單的 HSA異質(zhì)運(yùn)算編程模型開發(fā)出新的節(jié)電演算法。
由于目前系統(tǒng)效能擴(kuò)展受限于電力消耗,超微半導(dǎo)體已著手研發(fā)支援高度平行任務(wù),可于 CPU與GPU間無(wú)縫平移的異質(zhì)運(yùn)算形式。這項(xiàng)技術(shù)創(chuàng)新構(gòu)成HSA的基礎(chǔ),帶來(lái)加強(qiáng)能源效率,同時(shí)提升效能并維持可編程性的契機(jī)。而要整合CPU與GPU 于同一芯片,關(guān)鍵就在于GPU的設(shè)計(jì)。
每單位能源消耗所完成的工作是通用的能源效率指標(biāo)。舉例來(lái)說(shuō),一臺(tái)筆記型電腦的效率越高,就能讓使用者以越少的電池耗電量及越低的發(fā)熱程度完成相同任務(wù)。就行動(dòng)運(yùn)算而言,美國(guó)能源之星計(jì)畫(United States Energy Star Program)制定一套典型耗能的合理概算標(biāo)準(zhǔn);特別的是,這套標(biāo)準(zhǔn)是以“短期閑置”電力為主要依據(jù)。
一般而言,存取文件或打開網(wǎng)頁(yè)之后,使用者會(huì)花時(shí)間檢視結(jié)果。這樣的閑置期間在現(xiàn)代系統(tǒng)中可能短如按鍵輸入之間或影片訊框之間的間隔,這段時(shí)間處理器會(huì)進(jìn)入低耗電狀態(tài)。因此,超微半導(dǎo)體將運(yùn)算能力除以標(biāo)準(zhǔn)能源使用,定義為其行動(dòng)裝置芯片的通常使用效率。例如,將兩臺(tái)效能相近的筆記型電腦相較,使用者必然偏好電池續(xù)航力較長(zhǎng)的機(jī)種。同樣地,若將兩臺(tái)電池續(xù)航力相同的筆記型電腦相較,使用者必然也會(huì)傾向選擇效能較高且反應(yīng)速度較快的那一臺(tái)。這兩種情況都能透過(guò)標(biāo)準(zhǔn)使用能源效率指標(biāo)具體呈現(xiàn)。
超微半導(dǎo)體計(jì)畫于未來(lái)6年之內(nèi)將標(biāo)準(zhǔn)使用能源效率提升二十五倍,且已委托市場(chǎng)分析公司Tirias Research技術(shù)分析師就此目標(biāo)加以評(píng)估,并為超微半導(dǎo)體所做研究的結(jié)果統(tǒng)整成一份技術(shù)白皮書,公布于Tirias Research網(wǎng)站。
為達(dá)成二十五倍如此積極的目標(biāo),超微半導(dǎo)體將廣泛運(yùn)用各種資源,除著重架構(gòu)、設(shè)計(jì)及軟體等方面之外,還將輔以矽晶圓制程技術(shù)。具體而言,超微半導(dǎo)體將聚焦于以下三大面向:
.智能即時(shí)電源管理的改善
這些改良有助于降低閑置耗電,并發(fā)揮快速完成工作以更快回復(fù)低耗電狀態(tài)的“加速進(jìn)入閑置模式(Race To Idle)”優(yōu)點(diǎn)。
.強(qiáng)化異質(zhì)運(yùn)算能力
HSA能夠幫助APU提升一般工作負(fù)載效能(如以PCMark 8 v2.0等產(chǎn)業(yè)標(biāo)準(zhǔn)為基準(zhǔn)測(cè)試所示),以及新興的視覺導(dǎo)向互動(dòng)工作負(fù)載(如自然使用者介面連同影像及語(yǔ)音辨識(shí))。
.高電源效率實(shí)施的創(chuàng)新
透過(guò)運(yùn)用如先進(jìn)功率閘控、低電壓操作等技術(shù)以及進(jìn)一步整合系統(tǒng)組件等做法,提升APU矽智財(cái)(IP)效率。
Tirias Research指出,將降低閑置耗電及智能化電源管理所達(dá)成的節(jié)電功效,同時(shí)與異質(zhì)運(yùn)算效能提升和程序改善相結(jié)合。超微半導(dǎo)體應(yīng)能達(dá)成在2014?2020年之間實(shí)現(xiàn)二十五倍標(biāo)準(zhǔn)使用能源效率改善的目標(biāo)。
超微半導(dǎo)體目前已將筆記型電腦中的GPU、記憶體控制器、輸入/輸出(I/O)控制器及周邊匯流排等系統(tǒng)組件全部都整合于單一晶粒中,可實(shí)現(xiàn)同時(shí)監(jiān)控 CPU 與GPU的精密化電源管理。這項(xiàng)技術(shù)能夠有效平衡兩種單元之間的電力最佳化,將散熱能力集中在最須要散熱的單元。除此之外,將GPU移至CPU晶粒,可以減少所需要之記憶體介面數(shù)量,同時(shí)還可以達(dá)到省電之效果。
超微半導(dǎo)體的智能電源管理以專用晶粒控制器追蹤功耗、溫度及各主要組件活動(dòng)情形,使APU進(jìn)一步提升效率。這種功率微控制器就像是“APU交響曲”的指揮,在正確的時(shí)間將處理重點(diǎn)導(dǎo)向正確的位置,其可快速回應(yīng)熱事件,控制器能夠快速分配電力到CPU的特定部位,以發(fā)揮最大效能與效率。另外,也能判斷各單元何時(shí)最無(wú)活動(dòng)現(xiàn)象,并將其運(yùn)作降低至最小狀態(tài)或?qū)⒅耆P(guān)閉。
處理元件若能以最短時(shí)間完成工作,然后進(jìn)入最深休眠狀態(tài),即達(dá)到其最大能源效率。這種“加速進(jìn)入閑置模式”行為對(duì)于網(wǎng)頁(yè)瀏覽、文件編輯和相片編輯等多數(shù)消費(fèi)者導(dǎo)向任務(wù)都很有助益。協(xié)調(diào)GPU與CPU的使用能夠使APU更快完成任務(wù),然后降低功率、減少總耗能(能量=功率×時(shí)間)。此一耗電狀態(tài)過(guò)渡時(shí)間應(yīng)極短,使單元盡快降低功率,讓處理器能夠在使用者進(jìn)行按鍵輸入或影片訊框之間,就可進(jìn)入閑置狀態(tài)。[!--empirenews.page--]
借重HSA編程架構(gòu) 處理器達(dá)成高效能/低功耗
超微半導(dǎo)體現(xiàn)正著手設(shè)計(jì)與1.0版HSA相容的新款A(yù)PU,而HSA規(guī)格的目的在于協(xié)助軟體利用GPU及其他處理元件的功率與效能。以GPU而非 CPU來(lái)執(zhí)行高度平行碼時(shí),APU能夠利用其GPU核心的能源效率,以及巨量平行運(yùn)算來(lái)處理工作負(fù)載,更快完成任務(wù)。HSA編程架構(gòu)可將工作負(fù)載導(dǎo)向最佳芯片資源,例如專為特定演算法所設(shè)計(jì)的加速器,其設(shè)計(jì)宗旨在于減少完成固定工作負(fù)載所需周期數(shù)量及電力消耗,并在行動(dòng)裝置的功率限制內(nèi)執(zhí)行高階運(yùn)算密集式應(yīng)用程式,轉(zhuǎn)由GPU而非CPU處理之后,高階行動(dòng)應(yīng)用程式(如語(yǔ)音辨識(shí)、手勢(shì)辨識(shí)、臉部辨識(shí)等次世代使用者介面和相片索引)都能獲得次方程度的效能改善。
個(gè)人電腦處理器的效能隨時(shí)間而成長(zhǎng),但步調(diào)相對(duì)較慢。另一方面,由于設(shè)計(jì)者將更多芯片空間留給圖形處理,以支援4K解析度的顯示設(shè)備,GPU效能得以快速攀升。藉由HSA架構(gòu),超微半導(dǎo)體就能善用這種GPU效能成長(zhǎng)。將GPU用于一般任務(wù)的優(yōu)點(diǎn),展現(xiàn)于個(gè)人電腦應(yīng)用程式和基準(zhǔn)測(cè)試中(圖1)。
圖1 標(biāo)準(zhǔn)35W行動(dòng)處理器的GPU運(yùn)算趨勢(shì)
OpenCL 是首批支援以GPU執(zhí)行平行運(yùn)算的業(yè)界標(biāo)準(zhǔn)編程語(yǔ)言之一,可供C程式發(fā)揮語(yǔ)言擴(kuò)充的功效,為代碼的運(yùn)算密集部分帶來(lái)次方程度的效能提升。采用OpenCL 1.x(以O(shè)penCL 2.x全面啟用HSA的前身)加速時(shí),PCMark 8 v2.0基準(zhǔn)測(cè)試展現(xiàn)多達(dá)25%的增益(圖2)。
圖2 現(xiàn)有平臺(tái)經(jīng)由GPU卸載所達(dá)成的PCMark 8 v2.0加速
回頭參考圖1所示,異質(zhì)架構(gòu)利用GPU效能的快速成長(zhǎng),而GPU效能遠(yuǎn)勝近代CPU效能,GPU仍會(huì)是讓未來(lái)處理器實(shí)現(xiàn)更高效能與能源效率的關(guān)鍵。每一個(gè) GPU都有多個(gè)“著色器”核心(超微半導(dǎo)體將其稱之為“串流處理單元”),每個(gè)核心都能處理整數(shù)或浮點(diǎn)運(yùn)算,同時(shí)維持小于標(biāo)準(zhǔn)CPU核心的體積與耗電量。而且,由于每一個(gè)著色器核心都很小,所以單一晶??梢哉蠑?shù)十甚至數(shù)百個(gè)著色器核心與個(gè)位數(shù)的通用CPU核心。因此,GPU可以對(duì)運(yùn)用這么多處理核心的工作負(fù)載,產(chǎn)生次方以上程度的運(yùn)算提升。上述所提及的每一種高階應(yīng)用程式,都可利用GPU固有的平行運(yùn)算能力,來(lái)達(dá)成如此驚人的效能增益,而且耗電量極低。
圖3顯示超微半導(dǎo)體從2008年“Puma”CPU處理器,到2020年預(yù)測(cè)APU的標(biāo)準(zhǔn)使用耗電降低趨勢(shì)。虛線表示至2015年的耗電趨勢(shì),Tirias Research預(yù)測(cè)超越此點(diǎn)后至2020年之間降低速度會(huì)相對(duì)減緩,因?yàn)楹碾娨掩吔?瓦(W)。但Tirias Research預(yù)測(cè)2015年,異質(zhì)運(yùn)算將大幅提升,驅(qū)動(dòng)與GPU能力相稱的更高效能水準(zhǔn)。
圖3 APU的能源使用與運(yùn)算趨勢(shì)
閑置耗電量降低,將可以幫助標(biāo)準(zhǔn)使用耗電,得以從相鄰的2008年平臺(tái)“Puma”CPU的近4W,降低至2014年“Kaveri”APU的 1.6W,將會(huì)產(chǎn)生2.5倍的基準(zhǔn)耗電量改善(兩種產(chǎn)品都適用于相同的35W筆記型電腦熱功率封包)。數(shù)量更多的CPU核心、更快的時(shí)脈速度,以及GPU 運(yùn)算協(xié)助,使得處理器效能得以改善,讓“Kaveri”的運(yùn)算力比起“Puma”高達(dá)4.5倍。因此,相較于“Puma”,“Kaveri”提供十倍 (2.5×4.5)以上的標(biāo)準(zhǔn)使用能源效率增加,如標(biāo)準(zhǔn)耗能最大效能所示。
Tirias Research預(yù)估超微半導(dǎo)體將利用多項(xiàng)遠(yuǎn)遠(yuǎn)超越“Kaveri”的效能改善,在2015年達(dá)成下一次的大幅耗電降低。由于耗電漸趨于零,且開始以平臺(tái)組件功率為主,未來(lái)的閑置耗電降低步調(diào)必將趨緩。Tirias Research分析,根據(jù)超微半導(dǎo)體產(chǎn)品規(guī)畫,該公司可望在2008年至2020年之間實(shí)現(xiàn)標(biāo)準(zhǔn)使用耗電量的大幅降低,在此12年間達(dá)成16倍的改善,如圖3A線所示。
有鑒于GPU的效能預(yù)計(jì)將持續(xù)提升,且可運(yùn)用此種異質(zhì)運(yùn)算能力(圖3中B實(shí)線)的應(yīng)用程式將越來(lái)越多,Tirias Research預(yù)測(cè)超微半導(dǎo)體將于2020年達(dá)到對(duì)等點(diǎn)。在此點(diǎn)上,約有一半的尖峰值效能將來(lái)自GPU,另一半則來(lái)自CPU。保守估計(jì),由于CPU及 GPU兩者都在持續(xù)進(jìn)化,這種矽芯片資源分配方式能夠使2020年的未來(lái)APU相較于2014年的“Kaveri”產(chǎn)生四倍的運(yùn)算效能提升。
Tirias Research相信更大的GPU和更趨平行的應(yīng)用程式將有助于促進(jìn)更顯著的效能改善。以此合理保守估計(jì)額外的四倍運(yùn)算效能提升,結(jié)合至少六倍的標(biāo)準(zhǔn)使用耗電量降低,將可使超微半導(dǎo)體的最大效能對(duì)閑置耗電比在2014年至2020年之間展現(xiàn)高達(dá)二十五倍的改善。這是十分驚人的大幅變化,兼具兩方面之長(zhǎng),低閑置耗電既可以減少能源耗用,又能以高峰值效能支援未來(lái)的高階應(yīng)用。
由于HSA可降低對(duì)于APU之CPU端的依賴程度,超微半導(dǎo)體將之視為改善高度平行工作負(fù)載效能與節(jié)電的必要方法。除了GPU之外,超微半導(dǎo)體現(xiàn)正配合智能型手機(jī)芯片開發(fā)者所需,將單一功能加速器整合于APU。這些專用加速器的設(shè)計(jì)目標(biāo)是以最小晶粒面積提供最高能源效率表現(xiàn),將耗電量降到最低。專用單元的缺點(diǎn)在于無(wú)法輕易適應(yīng)新的演算法,因?yàn)榭删幊绦缘挠邢?。而其他替代性可編程單元如以通訊與音訊處理見長(zhǎng)的數(shù)位訊號(hào)處理器,可替CPU核心分擔(dān)相關(guān)任務(wù)。
例如,超微半導(dǎo)體已于其最新APU及GPU中加入數(shù)位音效處理器,藉此解除CPU處理音訊的負(fù)擔(dān)。對(duì)如音訊處理等工作負(fù)載而言,這些微小的架構(gòu)新增可帶來(lái)極大的功率效率增益,相較于單獨(dú)以CPU處理,其增益可達(dá)兩倍至將近二十五倍不等。
超微半導(dǎo)體運(yùn)用支援HSA的軟體結(jié)合其節(jié)電設(shè)計(jì),讓筆記型電腦和平板電腦APU的電池續(xù)航力與峰值效能勝過(guò)現(xiàn)今水準(zhǔn)。