詳細(xì)解讀Vega織女星GPU架構(gòu)，AMD的翻身神器？

時(shí)間：2017-01-09 17:21:25

關(guān)鍵字： AMD GPU NVIDIA vega

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]萬(wàn)年老二AMD在本次CES上也沒(méi)有閑著，除了拿出了代號(hào)Zen的Ryzen桌面處理器展示機(jī)之外，還出乎意料的公布了下一代圖形處理器的不少架構(gòu)細(xì)節(jié)。從AMD透露的資料看，代號(hào)Vega織女星的GPU圖形處理芯片完全重新設(shè)計(jì)了架構(gòu)，準(zhǔn)備和NVIDIA Pascal GP10x甚至是下一代Volta正面對(duì)決。

萬(wàn)年老二AMD在本次CES上也沒(méi)有閑著，除了拿出了代號(hào)Zen的Ryzen桌面處理器展示機(jī)之外，還出乎意料的公布了下一代圖形處理器的不少架構(gòu)細(xì)節(jié)。從AMD透露的資料看，代號(hào)Vega織女星的GPU圖形處理芯片完全重新設(shè)計(jì)了架構(gòu)，準(zhǔn)備和NVIDIA Pascal GP10x甚至是下一代Volta正面對(duì)決。

從消失的格陵蘭(Greenland)開(kāi)始

早在 2014 年年末時(shí)，AMD 已經(jīng)開(kāi)始在一些內(nèi)部會(huì)議中透露代號(hào)名為 Greenland 的新 GPU 微架構(gòu)，根據(jù)當(dāng)時(shí)寥寥數(shù)字的介紹，這個(gè) Greenland 采用 14 納米制程，設(shè)計(jì)散熱功耗是 250 瓦級(jí)別，雙精度性能耗電比是當(dāng)時(shí)的 Hawaii (Radeon R9 290 系列)兩倍以上。

隨著時(shí)間的推移，人們發(fā)現(xiàn)這個(gè)神秘的 Greenland 并未如期而至，在 2015 年，AMD 賣(mài)的依然是 28 納米制程的重命名 GPU，相較之下，NVIDIA 則是推出了雖然依然是 28 納米但是在效率更好、基于 Maxwell 微架構(gòu)的中端 GPU GM204，它被用于 GeForce GTX 960 這片顯卡上，針對(duì)的是 1000 到 2000 元人民幣市場(chǎng)。憑借 Maxwell 良好的性能耗電優(yōu)勢(shì)和整體強(qiáng)勁的營(yíng)銷(xiāo)能力，NVIDIA 已經(jīng)將 AMD 的 GPU 產(chǎn)品線逼到死角。

AMD 在 2015 年年末和 2016 年年中分別推出了基于 HBM1 的 Fiji 和 GDDR5 的 Polaris 微架構(gòu) GPU，它們的內(nèi)部其實(shí)都是屬于上一代的 Tango 就采用的 GCN 1.2 圖形內(nèi)核，只是 Fiji 方面采用了 HBM1 有高內(nèi)存帶寬、小體積的賣(mài)點(diǎn)，但是并未完全擺脫性能耗電一般的問(wèn)題。

所幸的是，AMD 在 GCN 1.x 引入的 ACE 異步計(jì)算引擎在進(jìn)入 DX12 世代后開(kāi)始顯現(xiàn)威力，在 DX12 和 Vulkans 游戲中，Polaris 挽回了不少顏面，這也是 AMD 得以在 16 年份額開(kāi)始回升的重要因素。

當(dāng)前，AMD GPU 存在的問(wèn)題其實(shí)大家都很清楚，這里列舉幾個(gè)常見(jiàn)同時(shí)也是我們認(rèn)為比較致命的問(wèn)題：

性能耗電比較低：基于14納米制程 Polaris GPU并沒(méi)有完全體現(xiàn)出制程進(jìn)步帶來(lái)的功耗降低優(yōu)勢(shì)。除去格羅方德(GF)14納米制程本身問(wèn)題外，Polaris微架構(gòu)效率同樣不盡人意。

部分指標(biāo)存在明顯短板：基于 Polaris 的 RX480，像素填充率是 35.8GPixl/s，而 NVIDIA 基于 Pascal 的 GTX 1060 是 72.3GPix/s，像素填充率這個(gè)指標(biāo)涉及到多樣本輸出性能，MSAA 等效果的性能都和像素填充率相關(guān)。由于理論性能存在巨大差異，直接導(dǎo)致了Polaris在實(shí)際測(cè)試項(xiàng)目中存在明顯性能短板。

缺乏可以和 NVIDIA 抗衡的高端產(chǎn)品：高端產(chǎn)品能顯著提升市場(chǎng)的話語(yǔ)權(quán)，消費(fèi)者看性能測(cè)試圖表的時(shí)候，是很難無(wú)視排名第一的產(chǎn)品，誰(shuí)是第一，誰(shuí)就是最強(qiáng)，選擇強(qiáng)者在任何情況下都是最簡(jiǎn)單最可靠的選擇。真指望每個(gè)消費(fèi)者都根據(jù)媒體的引導(dǎo)來(lái)分析 DX12 之類(lèi)的優(yōu)勢(shì)嗎?

沒(méi)有什么事情是時(shí)間解決不了的，如果有，就花兩倍時(shí)間。去年從 AMD 分離出來(lái)由前蘋(píng)果首席視覺(jué)設(shè)計(jì)師拉加·庫(kù)德里(Raja Koduri)領(lǐng)導(dǎo)的RTG(Radeon Technologies Group)部門(mén)已完全掌控 GPU 的發(fā)展戰(zhàn)略，在經(jīng)歷了 Fiji、和 Polaris 的回血后，RTG 在本屆 CES 上首次公布了代號(hào) Vega GPU 的下一代微架構(gòu)部分資料，我們得以藉此對(duì)讓人期待的Vega GPU GPU管中規(guī)豹。

全面改進(jìn)的織女星存儲(chǔ)架構(gòu)

AMD 的 Fiji 是全球首個(gè)采用 HBM(高帶寬)顯存的 GPU，在 2015 年發(fā)布時(shí)HBM的確很震撼——在一枚 GPU 芯片上，GPU 的管芯(Die)和 HBM 內(nèi)存的管芯都焊在同一基片上，顯卡的 PCB 上沒(méi)有內(nèi)存芯片，只有供電電路和輸出接口器件，可以輕松放進(jìn) ITX 的機(jī)箱里，這可是當(dāng)時(shí)的高端顯卡。徹底顛覆了傳統(tǒng)旗艦卡動(dòng)輒超長(zhǎng)超大的定論。

上一代AMD Radeon R9 GPU與HBM顯存

不過(guò) Fiji 搭配的 HBM 顯存是第一代 HBM，存在難以克服的容量問(wèn)題。所以即便是旗艦定位的Radeon Fury X也不過(guò)是4GiB顯存容量。而在同一時(shí)期，AMD 自己的 R9 390 系列都已做到了 8GiB。在游戲中高分辨率、高特效設(shè)置的時(shí)候，游戲所需顯存會(huì)輕易超過(guò) 4GiB ，所以搭配HBM顯存的Fiji其實(shí)是有些尷尬的，它定位高端，但是在一定程度上來(lái)說(shuō)，F(xiàn)iji 就是中端和高端之間的先鋒產(chǎn)品。

AMD Vega GPU與HBM2顯存

而這次的 Vega GPU 則采用了 HBM2，容量上可以做到 8GiB、16GiB 等多種規(guī)格，不僅涵蓋了游戲領(lǐng)域，甚至連對(duì)存儲(chǔ)容量有較高要求的高性能計(jì)算也不在話下，不會(huì)再在容量上受人詬病。

和上代產(chǎn)品相比，Vega GPU還幾乎完全重新設(shè)計(jì)了顯存控制器。AMD 將 Vega GPU 上的 HBM2 稱(chēng)作 HBC(高帶寬緩存)，將Vega GPU GPU的顯存控制邏輯稱(chēng)作 HBCC(高帶寬高速緩存控制器)，而不是顯存控制器這樣的傳統(tǒng)稱(chēng)謂。這樣的命名在一定程度上是因?yàn)?Vega GPU 允許在顯卡 PCB 上放置 SSD、網(wǎng)絡(luò)存儲(chǔ)等多種形式的基片外存儲(chǔ)部件，而且這些存儲(chǔ)部件的訪問(wèn)對(duì)用戶(hù)(開(kāi)發(fā)人員)來(lái)說(shuō)是可以像顯存一樣直接存取的，HBM2 扮演的就是作為 GPU 和外部存儲(chǔ)單元的大容量高速緩存。

HBM2 的帶寬是 HBM1 的兩倍，達(dá)到 256GiB/s，根據(jù)配置的不同，Vega GPU 可以實(shí)現(xiàn) 256GiB/s 或者 512GiB/s 的超高帶寬。

Vega GPU 不僅有更快更大的 HBM2，它的 HBCC 還提供了高達(dá) 512 TiB 的尋址能力，這樣的尋址能力當(dāng)然不會(huì)只用于 HBM 上，在去年 Siggraph 上 AMD 公布的 RADEON PRO SSG 其實(shí)就是基于 Vega GPU 的專(zhuān)業(yè)顯卡，該卡的最大特點(diǎn)就是集成了 1TiB 的 NAND 閃存，可以藉此將海量的數(shù)據(jù)全部存放到顯卡上，不再受限于系統(tǒng)總線和存儲(chǔ)一致性(存儲(chǔ)一致性就是指各層次存儲(chǔ)器中存放的數(shù)據(jù)確保為最新修改的)的性能約束，AMD 這次就用一塊 Vega GPU 顯卡進(jìn)行了數(shù)據(jù)規(guī)模達(dá)數(shù) TiB 的豪華臥室場(chǎng)景的成品級(jí)真實(shí)渲染。

更靈活的幾何體渲染

目前的 RADEON GPU 在前端還保留了固定功能單元實(shí)現(xiàn)的幾何處理硬件，不過(guò) AMD 表示他們已經(jīng)注意到了越來(lái)越多的開(kāi)發(fā)人員使用計(jì)算著色器來(lái)進(jìn)行幾何處理。

上面兩張圖都是 PC 游戲《殺出重圍：人類(lèi)分裂》中巨像之城(Golem City)的場(chǎng)景圖，下面的則是它的線框圖。按照 AMD 的說(shuō)法，上面這個(gè)場(chǎng)景有 2.2 億個(gè)多邊形，但是最終輸出的畫(huà)面其實(shí)只有 0.02 億個(gè)多邊形需要著色處理，明確哪些多邊形需要被渲染將能夠顯著降低渲染負(fù)荷。

AMD 為此在 Vega GPU 的幾何流水線上引入了名為 Primitive Shader(圖元著色器)的全新工位，開(kāi)發(fā)人員可以透過(guò)圖元著色器，實(shí)現(xiàn)高效的幾何著色處理。AMD 認(rèn)為這個(gè)新著色器可以讓無(wú)效圖元以極高的比值被舍棄掉，最終將會(huì)徹底替換掉現(xiàn)有的固定幾何處理功能單元。

為了實(shí)現(xiàn)更高效的幾何處理性能，AMD 引入了名為 Intelligent Workgroup Dostributor 的工作組分發(fā)器，可以支持更多的著色器引擎(NVIDIA 對(duì)應(yīng)的層級(jí)單元被稱(chēng)作 GPC，AMD 目前的 GCN 架構(gòu)最多只有 4 個(gè) 著色器引擎)，實(shí)現(xiàn)更靈活的載荷分配。

按照 AMD 的說(shuō)法，Vega GPU 現(xiàn)在可以在四個(gè)幾何引擎的情況下每個(gè)周期處理多達(dá) 11 個(gè)多邊形，達(dá)到兩倍于現(xiàn)有產(chǎn)品的幾何處理能力。

更快的GPU微架構(gòu)

為了實(shí)現(xiàn)在某些負(fù)載中的計(jì)算需求，AMD 在 Vega GPU 中首次引入 packed(緊縮)數(shù)學(xué)操作支持。例如深度學(xué)習(xí)，并不需要 GPU 所提供的32 位浮點(diǎn)或者說(shuō)單精度運(yùn)算。

在之前的 Fiji 和 Polaris 中，AMD 的單精度(FP32，32 位浮點(diǎn))性能和半精度(FP16，16 位浮點(diǎn))是相同速率的，16 位處理的時(shí)候，可以有兩倍于 32 位的寄存器，不過(guò) NVIDIA 那邊的 GP100(Tesla 100 采用的 GPU)還實(shí)現(xiàn)了兩倍 32 位性能比率的 16 位計(jì)算性能。

AMD 在 Vega GPU 上引入了名為 NCU(下一代計(jì)算單元)的微架構(gòu)，這里 NCU 是對(duì)應(yīng) GCN 中的 CU 而言的，全新的 NCU 支持緊縮(packed)數(shù)學(xué)處理，每個(gè) NCU 擁有 64 個(gè) ALU，在采用緊縮數(shù)學(xué)操作指令的時(shí)候，可以支持每個(gè)周期 512 個(gè) 8 位計(jì)算，或者 256 個(gè) 16 位計(jì)算，又或者是 128 個(gè) 32 位計(jì)算。

AMD 強(qiáng)調(diào) Vega GPU 在提升單線程性能方面上下了不少功夫，包括更高的頻率以及更高的 IPC，前者目前還絕對(duì)保密，而后者或者說(shuō) IPC 方面，AMD 表示 Vega GPU 具備更大的指令緩存，確保指令流可以運(yùn)行得更持續(xù)，尤其是三操作的指令。

AMD 還在 Vega GPU 上對(duì)像素著色處理流程進(jìn)行了大幅度的改進(jìn)，引入了 AMD 稱(chēng)之為渲染流分倉(cāng)光柵器(draw-streaming binning rasterizer，簡(jiǎn)稱(chēng) DSBR)的下一代像素引擎。

這個(gè) DSBR 實(shí)際上類(lèi)似于 PowerVR 的塊元式渲染技術(shù)，能讓 GPU 更高效地處理像素著色，尤其是具有高度復(fù)雜性(意味著大量無(wú)效渲染)深度緩存的像素。DSBR 對(duì)重疊的圖元只拾取、渲染一次，從而顯著節(jié)省耗電并提升性能，尤其適合于延后式著色操作。

DSBR 會(huì)按照 AMD 稱(chēng)之為高速緩存感知化的方式來(lái)調(diào)度，它先在一個(gè)高速緩沖中對(duì)一個(gè)場(chǎng)景中給定的“對(duì)象包”進(jìn)行盡可能多的處理，然后 GPU 才會(huì)清空掉這個(gè)高速緩存并拾取其余的數(shù)據(jù)。DSBR 可以讓 GPU 在無(wú)需考慮重疊的前后關(guān)系的情況下，在復(fù)雜的重疊幾何體里抓出哪些像素?zé)o需渲染，節(jié)省掉在最終場(chǎng)景中非可視的像素渲染處理，從而提升性能。

為了讓 DSBR 更有效運(yùn)作，AMD 還對(duì) Vega GPU 的二級(jí)高速緩存進(jìn)行了重大的改進(jìn)——在以往的 AMD GPU 中，紋理和像素的內(nèi)存存取是非一致性操作，如果是執(zhí)行渲染至紋理操作的話，需要先寫(xiě)到內(nèi)存后，再讀到紋理緩存里，增加了大量數(shù)據(jù)搬動(dòng)的次數(shù)，而且這樣的非一致性增加了大量的同步處理和驅(qū)動(dòng)層級(jí)的編程挑戰(zhàn)。

現(xiàn)在，Vega GPU 的后端單元可以直接訪問(wèn)片上的二級(jí)高速緩存，這樣的變化可以讓更多的數(shù)據(jù)訪問(wèn)動(dòng)作在片上的二級(jí)高速緩存上實(shí)現(xiàn)，減少了清空緩存然后在需要的時(shí)候又從顯存中讀回的處理，同樣有助于延后式渲染技術(shù)的性能提升。

按照 AMD 的說(shuō)法，DSBR 只是 Vega GPU 的光柵化處理途徑之一，是高度動(dòng)態(tài)以及基于狀態(tài)變換的，GPU 未必一直采用 DSBR 來(lái)處理所有的光柵操作，之所以這樣講，可能是因?yàn)?AMD 覺(jué)得片上的 DSBR 緩存未必總能放進(jìn)所需的數(shù)據(jù)。

AMD Vega GPU會(huì)上演驚天大逆轉(zhuǎn)嗎?

AMD 目前對(duì) Vega GPU 所公開(kāi)的資料其實(shí)相當(dāng)之少。毫無(wú)疑問(wèn)，我們依然有大量不明確的細(xì)節(jié)，例如 L2 Cache 的大小、ROP 的數(shù)量、具體的頻率以及功耗等指標(biāo)。根據(jù)上月AMD正式發(fā)布的Radeon Instinct MI25 能實(shí)現(xiàn) 25TFLOPS 的 FP16 性能來(lái)推斷，Vega GPU 的頂配版至少有 4096 個(gè)流處理器，頻率可能是 1.5GHz 左右。

AMD 在一個(gè)演示房間中用一片早期版的 8GB 顯存(內(nèi)存類(lèi)型不明) Vega GPU 顯卡進(jìn)行了 Doom 2016 Argemt D’Nur 關(guān)卡的演示，在 4K 分辨率 Ultra 畫(huà)面設(shè)置下實(shí)現(xiàn)了 60 到 70 fps 的性能，在大型爆炸的時(shí)候，幀時(shí)間為 24.8ms(相當(dāng)于 40 fps)，這個(gè)性能被認(rèn)為是 GTX 1070 至 GTX 1080 之間。

為了保持 ISA 命名的一貫性，AMD 可能還是會(huì)把 Vega GPU 歸為 GCN 架構(gòu)，就好像 NVIDIA 現(xiàn)在依然把 G80 以來(lái)的 GPU 都稱(chēng)作是 CUDA 架構(gòu)，所不同的是，Vega GPU 和之前的 GCN 已經(jīng)有了很大的區(qū)別，尤其是 NCU 部分，很可能已經(jīng)和以前的 GCN 1.X 有明顯改進(jìn)(相信到正式發(fā)布的時(shí)候會(huì)公開(kāi))，基于這些改進(jìn)的 Vega GPU 實(shí)體卡如果順利的話將會(huì)在今年上半年就能讓消費(fèi)者購(gòu)買(mǎi)到。

最后來(lái)個(gè)應(yīng)該比較靠譜的預(yù)言：Vega GPU 未必能讓 AMD 重新稱(chēng)霸，但是一定可以增強(qiáng)市場(chǎng)的競(jìng)爭(zhēng)，讓玩家有更多選擇。

『本文轉(zhuǎn)載自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系刪除』