詳細解讀Vega織女星GPU架構(gòu),AMD的翻身神器?
萬年老二AMD在本次CES上也沒有閑著,除了拿出了代號Zen的Ryzen桌面處理器展示機之外,還出乎意料的公布了下一代圖形處理器的不少架構(gòu)細節(jié)。從AMD透露的資料看,代號Vega織女星的GPU圖形處理芯片完全重新設(shè)計了架構(gòu),準備和NVIDIA Pascal GP10x甚至是下一代Volta正面對決。
從消失的格陵蘭(Greenland)開始
早在 2014 年年末時,AMD 已經(jīng)開始在一些內(nèi)部會議中透露代號名為 Greenland 的新 GPU 微架構(gòu),根據(jù)當(dāng)時寥寥數(shù)字的介紹,這個 Greenland 采用 14 納米制程,設(shè)計散熱功耗是 250 瓦級別,雙精度性能耗電比是當(dāng)時的 Hawaii (Radeon R9 290 系列)兩倍以上。
隨著時間的推移,人們發(fā)現(xiàn)這個神秘的 Greenland 并未如期而至,在 2015 年,AMD 賣的依然是 28 納米制程的重命名 GPU,相較之下,NVIDIA 則是推出了雖然依然是 28 納米但是在效率更好、基于 Maxwell 微架構(gòu)的中端 GPU GM204,它被用于 GeForce GTX 960 這片顯卡上,針對的是 1000 到 2000 元人民幣市場。憑借 Maxwell 良好的性能耗電優(yōu)勢和整體強勁的營銷能力,NVIDIA 已經(jīng)將 AMD 的 GPU 產(chǎn)品線逼到死角。
AMD 在 2015 年年末和 2016 年年中分別推出了基于 HBM1 的 Fiji 和 GDDR5 的 Polaris 微架構(gòu) GPU,它們的內(nèi)部其實都是屬于上一代的 Tango 就采用的 GCN 1.2 圖形內(nèi)核,只是 Fiji 方面采用了 HBM1 有高內(nèi)存帶寬、小體積的賣點,但是并未完全擺脫性能耗電一般的問題。
所幸的是,AMD 在 GCN 1.x 引入的 ACE 異步計算引擎在進入 DX12 世代后開始顯現(xiàn)威力,在 DX12 和 Vulkans 游戲中,Polaris 挽回了不少顏面,這也是 AMD 得以在 16 年份額開始回升的重要因素。
當(dāng)前,AMD GPU 存在的問題其實大家都很清楚,這里列舉幾個常見同時也是我們認為比較致命的問題:
性能耗電比較低:基于14納米制程 Polaris GPU并沒有完全體現(xiàn)出制程進步帶來的功耗降低優(yōu)勢。除去格羅方德(GF)14納米制程本身問題外,Polaris微架構(gòu)效率同樣不盡人意。
部分指標存在明顯短板:基于 Polaris 的 RX480,像素填充率是 35.8GPixl/s,而 NVIDIA 基于 Pascal 的 GTX 1060 是 72.3GPix/s,像素填充率這個指標涉及到多樣本輸出性能,MSAA 等效果的性能都和像素填充率相關(guān)。由于理論性能存在巨大差異,直接導(dǎo)致了Polaris在實際測試項目中存在明顯性能短板。
缺乏可以和 NVIDIA 抗衡的高端產(chǎn)品:高端產(chǎn)品能顯著提升市場的話語權(quán),消費者看性能測試圖表的時候,是很難無視排名第一的產(chǎn)品,誰是第一,誰就是最強,選擇強者在任何情況下都是最簡單最可靠的選擇。真指望每個消費者都根據(jù)媒體的引導(dǎo)來分析 DX12 之類的優(yōu)勢嗎?
沒有什么事情是時間解決不了的,如果有,就花兩倍時間。去年從 AMD 分離出來由前蘋果首席視覺設(shè)計師拉加·庫德里(Raja Koduri)領(lǐng)導(dǎo)的RTG(Radeon Technologies Group)部門已完全掌控 GPU 的發(fā)展戰(zhàn)略,在經(jīng)歷了 Fiji、和 Polaris 的回血后,RTG 在本屆 CES 上首次公布了代號 Vega GPU 的下一代微架構(gòu)部分資料,我們得以藉此對讓人期待的Vega GPU GPU管中規(guī)豹。
全面改進的織女星存儲架構(gòu)
AMD 的 Fiji 是全球首個采用 HBM(高帶寬)顯存的 GPU,在 2015 年發(fā)布時HBM的確很震撼——在一枚 GPU 芯片上,GPU 的管芯(Die)和 HBM 內(nèi)存的管芯都焊在同一基片上,顯卡 的 PCB 上沒有內(nèi)存芯片,只有供電電路和輸出接口器件,可以輕松放進 ITX 的機箱里,這可是當(dāng)時的高端顯卡。徹底顛覆了傳統(tǒng)旗艦卡動輒超長超大的定論。
上一代AMD Radeon R9 GPU與HBM顯存
不過 Fiji 搭配的 HBM 顯存是第一代 HBM,存在難以克服的容量問題。所以即便是旗艦定位的Radeon Fury X也不過是4GiB顯存容量。而在同一時期,AMD 自己的 R9 390 系列都已做到了 8GiB。在游戲中高分辨率、高特效設(shè)置的時候,游戲所需顯存會輕易超過 4GiB ,所以搭配HBM顯存的Fiji其實是有些尷尬的,它定位高端,但是在一定程度上來說,F(xiàn)iji 就是中端和高端之間的先鋒產(chǎn)品。
AMD Vega GPU與HBM2顯存
而這次的 Vega GPU 則采用了 HBM2,容量上可以做到 8GiB、16GiB 等多種規(guī)格,不僅涵蓋了游戲領(lǐng)域,甚至連對存儲容量有較高要求的高性能計算也不在話下,不會再在容量上受人詬病。
和上代產(chǎn)品相比,Vega GPU還幾乎完全重新設(shè)計了顯存控制器。AMD 將 Vega GPU 上的 HBM2 稱作 HBC(高帶寬緩存),將Vega GPU GPU的顯存控制邏輯稱作 HBCC(高帶寬高速緩存控制器),而不是顯存控制器這樣的傳統(tǒng)稱謂。這樣的命名在一定程度上是因為 Vega GPU 允許在顯卡 PCB 上放置 SSD、網(wǎng)絡(luò)存儲等多種形式的基片外存儲部件,而且這些存儲部件的訪問對用戶(開發(fā)人員)來說是可以像顯存一樣直接存取的,HBM2 扮演的就是作為 GPU 和外部存儲單元的大容量高速緩存。
HBM2 的帶寬是 HBM1 的兩倍,達到 256GiB/s,根據(jù)配置的不同,Vega GPU 可以實現(xiàn) 256GiB/s 或者 512GiB/s 的超高帶寬。
Vega GPU 不僅有更快更大的 HBM2,它的 HBCC 還提供了高達 512 TiB 的尋址能力,這樣的尋址能力當(dāng)然不會只用于 HBM 上,在去年 Siggraph 上 AMD 公布的 RADEON PRO SSG 其實就是基于 Vega GPU 的專業(yè)顯卡,該卡的最大特點就是集成了 1TiB 的 NAND 閃存,可以藉此將海量的數(shù)據(jù)全部存放到顯卡上,不再受限于系統(tǒng)總線和存儲一致性(存儲一致性就是指各層次存儲器中存放的數(shù)據(jù)確保為最新修改的)的性能約束,AMD 這次就用一塊 Vega GPU 顯卡進行了數(shù)據(jù)規(guī)模達數(shù) TiB 的豪華臥室場景的成品級真實渲染。
更靈活的幾何體渲染
目前的 RADEON GPU 在前端還保留了固定功能單元實現(xiàn)的幾何處理硬件,不過 AMD 表示他們已經(jīng)注意到了越來越多的開發(fā)人員使用計算著色器來進行幾何處理。
上面兩張圖都是 PC 游戲《殺出重圍:人類分裂》中巨像之城(Golem City)的場景圖,下面的則是它的線框圖。按照 AMD 的說法,上面這個場景有 2.2 億個多邊形,但是最終輸出的畫面其實只有 0.02 億個多邊形需要著色處理,明確哪些多邊形需要被渲染將能夠顯著降低渲染負荷。
AMD 為此在 Vega GPU 的幾何流水線上引入了名為 Primitive Shader(圖元著色器)的全新工位,開發(fā)人員可以透過圖元著色器,實現(xiàn)高效的幾何著色處理。AMD 認為這個新著色器可以讓無效圖元以極高的比值被舍棄掉,最終將會徹底替換掉現(xiàn)有的固定幾何處理功能單元。
為了實現(xiàn)更高效的幾何處理性能,AMD 引入了名為 Intelligent Workgroup Dostributor 的工作組分發(fā)器,可以支持更多的著色器引擎(NVIDIA 對應(yīng)的層級單元被稱作 GPC,AMD 目前的 GCN 架構(gòu)最多只有 4 個 著色器引擎),實現(xiàn)更靈活的載荷分配。
按照 AMD 的說法,Vega GPU 現(xiàn)在可以在四個幾何引擎的情況下每個周期處理多達 11 個多邊形,達到兩倍于現(xiàn)有產(chǎn)品的幾何處理能力。
更快的GPU微架構(gòu)
為了實現(xiàn)在某些負載中的計算需求,AMD 在 Vega GPU 中首次引入 packed(緊縮)數(shù)學(xué)操作支持。例如深度學(xué)習(xí),并不需要 GPU 所提供的32 位浮點或者說單精度運算。
在之前的 Fiji 和 Polaris 中,AMD 的單精度(FP32,32 位浮點)性能和半精度(FP16,16 位浮點)是相同速率的,16 位處理的時候,可以有兩倍于 32 位的寄存器,不過 NVIDIA 那邊的 GP100(Tesla 100 采用的 GPU)還實現(xiàn)了兩倍 32 位性能比率的 16 位計算性能。
AMD 在 Vega GPU 上引入了名為 NCU(下一代計算單元)的微架構(gòu),這里 NCU 是對應(yīng) GCN 中的 CU 而言的,全新的 NCU 支持緊縮(packed)數(shù)學(xué)處理,每個 NCU 擁有 64 個 ALU,在采用緊縮數(shù)學(xué)操作指令的時候,可以支持每個周期 512 個 8 位計算,或者 256 個 16 位計算,又或者是 128 個 32 位計算。
AMD 強調(diào) Vega GPU 在提升單線程性能方面上下了不少功夫,包括更高的頻率以及更高的 IPC,前者目前還絕對保密,而后者或者說 IPC 方面,AMD 表示 Vega GPU 具備更大的指令緩存,確保指令流可以運行得更持續(xù),尤其是三操作的指令。
AMD 還在 Vega GPU 上對像素著色處理流程進行了大幅度的改進,引入了 AMD 稱之為渲染流分倉光柵器(draw-streaming binning rasterizer,簡稱 DSBR)的下一代像素引擎。
這個 DSBR 實際上類似于 PowerVR 的塊元式渲染技術(shù),能讓 GPU 更高效地處理像素著色,尤其是具有高度復(fù)雜性(意味著大量無效渲染)深度緩存的像素。DSBR 對重疊的圖元只拾取、渲染一次,從而顯著節(jié)省耗電并提升性能,尤其適合于延后式著色操作。
DSBR 會按照 AMD 稱之為高速緩存感知化的方式來調(diào)度,它先在一個高速緩沖中對一個場景中給定的“對象包”進行盡可能多的處理,然后 GPU 才會清空掉這個高速緩存并拾取其余的數(shù)據(jù)。DSBR 可以讓 GPU 在無需考慮重疊的前后關(guān)系的情況下,在復(fù)雜的重疊幾何體里抓出哪些像素?zé)o需渲染,節(jié)省掉在最終場景中非可視的像素渲染處理,從而提升性能。
為了讓 DSBR 更有效運作,AMD 還對 Vega GPU 的二級高速緩存進行了重大的改進——在以往的 AMD GPU 中,紋理和像素的內(nèi)存存取是非一致性操作,如果是執(zhí)行渲染至紋理操作的話,需要先寫到內(nèi)存后,再讀到紋理緩存里,增加了大量數(shù)據(jù)搬動的次數(shù),而且這樣的非一致性增加了大量的同步處理和驅(qū)動層級的編程挑戰(zhàn)。
現(xiàn)在,Vega GPU 的后端單元可以直接訪問片上的二級高速緩存,這樣的變化可以讓更多的數(shù)據(jù)訪問動作在片上的二級高速緩存上實現(xiàn),減少了清空緩存然后在需要的時候又從顯存中讀回的處理,同樣有助于延后式渲染技術(shù)的性能提升。
按照 AMD 的說法,DSBR 只是 Vega GPU 的光柵化處理途徑之一,是高度動態(tài)以及基于狀態(tài)變換的,GPU 未必一直采用 DSBR 來處理所有的光柵操作,之所以這樣講,可能是因為 AMD 覺得片上的 DSBR 緩存未必總能放進所需的數(shù)據(jù)。
AMD Vega GPU會上演驚天大逆轉(zhuǎn)嗎?
AMD 目前對 Vega GPU 所公開的資料其實相當(dāng)之少。毫無疑問,我們依然有大量不明確的細節(jié),例如 L2 Cache 的大小、ROP 的數(shù)量、具體的頻率以及功耗等指標。根據(jù)上月AMD正式發(fā)布的Radeon Instinct MI25 能實現(xiàn) 25TFLOPS 的 FP16 性能來推斷,Vega GPU 的頂配版至少有 4096 個流處理器,頻率可能是 1.5GHz 左右。
AMD 在一個演示房間中用一片早期版的 8GB 顯存(內(nèi)存類型不明) Vega GPU 顯卡進行了 Doom 2016 Argemt D’Nur 關(guān)卡的演示,在 4K 分辨率 Ultra 畫面設(shè)置下實現(xiàn)了 60 到 70 fps 的性能,在大型爆炸的時候,幀時間為 24.8ms(相當(dāng)于 40 fps),這個性能被認為是 GTX 1070 至 GTX 1080 之間。
為了保持 ISA 命名的一貫性,AMD 可能還是會把 Vega GPU 歸為 GCN 架構(gòu),就好像 NVIDIA 現(xiàn)在依然把 G80 以來的 GPU 都稱作是 CUDA 架構(gòu),所不同的是,Vega GPU 和之前的 GCN 已經(jīng)有了很大的區(qū)別,尤其是 NCU 部分,很可能已經(jīng)和以前的 GCN 1.X 有明顯改進(相信到正式發(fā)布的時候會公開),基于這些改進的 Vega GPU 實體卡如果順利的話將會在今年上半年就能讓消費者購買到。
最后來個應(yīng)該比較靠譜的預(yù)言:Vega GPU 未必能讓 AMD 重新稱霸,但是一定可以增強市場的競爭,讓玩家有更多選擇。
『本文轉(zhuǎn)載自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系刪除』