NVIDIA全新顯卡Pascal解析到底強(qiáng)在哪？

時(shí)間：2016-05-10 09:29:03

關(guān)鍵字： NVIDIA pascal 顯卡

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]2016上半年過得差不多了，顯卡市場(chǎng)上這一年來基本上沒什么新品，不論是AMD還是NVIDIA主推的還是上一代架構(gòu)的顯卡，恍恍惚惚之間28nm工藝的顯卡竟然支撐了4年時(shí)間，這在以往的GPU升級(jí)歷史上可不多見。之所以沉寂這么久是雙方都在憋大招...

2016上半年過得差不多了，顯卡市場(chǎng)上這一年來基本上沒什么新品，不論是AMD還是NVIDIA主推的還是上一代架構(gòu)的顯卡，恍恍惚惚之間28nm工藝的顯卡竟然支撐了4年時(shí)間，這在以往的GPU升級(jí)歷史上可不多見。之所以沉寂這么久是雙方都在憋大招，AMD新一代顯卡架構(gòu)為14nm工藝的Polaris(北極星)，NVIDIA準(zhǔn)備的則是16nm工藝的Pascal(帕斯卡)，后者在GTC 2016大會(huì)上首次揭開了面紗，NVIDIA發(fā)布的Tesla P100專業(yè)卡使用了旗艦GP100核心。

也許是久未見新工藝新架構(gòu)顯卡，現(xiàn)在看到GP100這樣的龐然大物都覺得興奮了，這幾天我們已經(jīng)被各種Pascal顯卡爆料刷屏了。從Kepler到Maxwell架構(gòu)，NVIDIA錢兩次都是選擇首發(fā)面向主流游戲市場(chǎng)的核心GK104、GM204(Maxwell首發(fā)的其實(shí)是GM107這樣的低端核心)，GK110、GM200大核心產(chǎn)品通常要晚半年時(shí)間，但這次的Pascal顯卡就跟當(dāng)年的GF100費(fèi)米架構(gòu)一樣選擇了大核心首發(fā)，歷史終于輪回了。

作為16nm工藝的新一代旗艦，NVIDIA的GP100核心到底有多強(qiáng)?或者說它與目前的架構(gòu)有什么質(zhì)的不同?今天的超能課堂上我們就來分析下GP100核心的特色，回顧下它與Kepler、Maxwell架構(gòu)有什么不同。

Pascal與Kepler、Maxwell規(guī)格對(duì)比

切入正題之前我們先來了解下GP100核心與Kepler、Maxwell架構(gòu)的規(guī)格，此前NVIDIA官方也公布了GP100核心與GK110、GM200核心的一些對(duì)比，這里我們做了一份更詳細(xì)的規(guī)格表，并加入了GM204及GK104這兩款游戲顯卡核心。

GP100核心與GK110、GM200、GM204、GK104核心規(guī)格對(duì)比

這份規(guī)格表內(nèi)容非常多，初看之下會(huì)覺得手足無措，不過小編把需要重點(diǎn)關(guān)注的地方標(biāo)紅了，簡(jiǎn)單來說就是GP100核心晶體管密度再次攀升、CUDA核心大幅增加、雙精度性能逆天增長(zhǎng)、緩存/寄存器容量翻倍、HBM 2顯存及NVLink總線，這幾點(diǎn)基本上能概括GP100核心的特色。

Pascal架構(gòu)看點(diǎn)之一：計(jì)算性能是關(guān)鍵，雙精度性能逆市回歸

GP100的性能一經(jīng)公布，給小編的感覺就是NVIDIA這次回歸了GK110大核心時(shí)代注重雙精度運(yùn)算的設(shè)計(jì)，而且比之前更加變態(tài)——GK110架構(gòu)中FP64雙精度與FP32單精度的比例不過1：3，每組SMX單元中有192個(gè)FP32單元，64個(gè)FP64單元，但GP100核心中每組SM單元中有64個(gè)FP32單元，但有32個(gè)FP64單元，F(xiàn)P64與FP32比例是1：2。

要知道，Maxwell架構(gòu)中單雙精度比砍到了1/32，GK104核心中單雙精度比是1/24，這都遠(yuǎn)遠(yuǎn)低于Pascal核心，唯一能與之媲美的就是當(dāng)年Fermi核心的Tesla加速卡了。

因此在雙精度性能上，GP100核心可以說突破天際了，F(xiàn)P64浮點(diǎn)性能可達(dá)5.3TFLOPS，而GK110核心不過1.68TFLOPS，GM200核心更是只有可憐的0.21TFLOPS，GP100雙精度性能達(dá)到了GK110核心的3倍多，是GM200核心的20多倍。

HPC很多應(yīng)用需要雙精度性能，不過深度計(jì)算(deep learning)這樣的計(jì)算并不需要高精度運(yùn)算，因?yàn)樗焐詭Ъm錯(cuò)能力，而GP100的FP32 CUDA核心可以同時(shí)執(zhí)行2個(gè)FP16半精度運(yùn)算，因此FP16浮點(diǎn)性能高達(dá)21.6TFLOPS。NVIDIA在Tesla P100之外還推出了基于GP100核心的DGX-1深度學(xué)習(xí)超級(jí)計(jì)算機(jī)，由8顆GP100核心及2顆16核Xeon E5處理器組成，深度計(jì)算性能達(dá)到了170TFLOPS，號(hào)稱比250臺(tái)X86服務(wù)器還要強(qiáng)大。

GK110核心架構(gòu)示意圖

GM200核心架構(gòu)示意圖

GP100核心架構(gòu)示意圖

GP100為了提升計(jì)算性能，增強(qiáng)的不僅僅是雙精度單元，其L2緩存、寄存器文件也大幅提升，總計(jì)擁有4MB L2緩存、14MB寄存器文件。

總之，NVIDIA的GP100核心為了計(jì)算性能可謂煞費(fèi)苦心，雙精度性能簡(jiǎn)直逆天，不過NVIDIA針對(duì)高性能運(yùn)算所做的設(shè)計(jì)固然討好HPC市場(chǎng)，但對(duì)游戲市場(chǎng)來說雙精度是沒多少用處的，反而浪費(fèi)了晶體管單元，提高了成本及功耗。

Pascal架構(gòu)看點(diǎn)之二：升級(jí)16nm工藝，密度、能效提升

從AMD的HD 7970顯卡率先使用28nm工藝開始算起，TSMC的28nm工藝已經(jīng)陪伴我們四年時(shí)間了，期間AMD、NVIDIA數(shù)次升級(jí)的新核心都沒有工藝升級(jí)，依然堅(jiān)持28nm工藝，雙方都跳過了20nm工藝、直接進(jìn)入了性能更好的FinFET工藝節(jié)點(diǎn)，只不過AMD選擇了三星/GF的14nm FinFET LPP工藝，NVIDIA堅(jiān)持了老朋友TSMC的16nm FinFET Plus工藝。

TSMC的16nm FinFET工藝優(yōu)勢(shì)

對(duì)半導(dǎo)體芯片來說，升級(jí)工藝通常意味著晶體管性能提升、功耗下降，同時(shí)晶體管密度大幅提升。具體到TSMC的16nm工藝，該公司此前表示其16nm工藝的晶體管密度是28nm HPM工藝的2倍左右，同樣的功耗下性能提升38%，同樣的速度下功耗降低54%，對(duì)比20nm工藝則是20%速度提升、35%功耗下降。

我們?cè)賮砜聪翯P100核心的相關(guān)數(shù)據(jù)：

GP100核心的晶體管密度、頻率及TDP功耗

我們簡(jiǎn)單地把幾款GPU的晶體管密度換算了下(晶體管數(shù)量除以核心面積，由于GPU核心的電路復(fù)雜，這種算法不一定精確，僅供參考)，16nm工藝的GP100核心晶體管密度大約是2510萬每平方毫米，算起來晶體管密度比之前28nm工藝的Maxwell、Kepler恰好多一倍。

至于每瓦性能比，這里使用的是FP32浮點(diǎn)性能與TDP功耗的比值，考慮到上述核心面向的市場(chǎng)不同，我們要知道側(cè)重高性能的GP100與游戲市場(chǎng)的GM204、GK104對(duì)比TDP是不公平的，不過最終的結(jié)果依然顯示出16nm工藝的GP100在每瓦性能比上有明顯優(yōu)勢(shì)。

從這一點(diǎn)也可以猜測(cè)，未來針對(duì)游戲市場(chǎng)的Pascal核心(比如GP104、GP106)問世之后，它們勢(shì)必要閹割掉GP100核心上很多不必要的功能，優(yōu)化功耗，所以其每瓦性能比無疑會(huì)更出色。

Pascal架構(gòu)看點(diǎn)之三：HBM 2顯存登場(chǎng)，16GB很好很強(qiáng)大

早在2年前的GTC大會(huì)上，NVIDIA就公布了Pascal顯卡的2大特色——一個(gè)是NVLink總線，一個(gè)就是3D Memory，號(hào)稱容量、帶寬是目前顯卡的2-4倍，帶寬可達(dá)1TB/s，這個(gè)顯存實(shí)際上就是HBM 2顯存。有意思的是，NVIDIA此舉也意味著盡管AMD Fury顯卡搶先使用HBM顯存，但NVIDIA還是在新一代HBM顯存上搶了先，不知道AMD面對(duì)這種情況又是如何看的呢?

對(duì)于HBM 2顯存，我們之前也多次做過介紹，HBM 2顯存現(xiàn)在已經(jīng)被JEDEC吸納為標(biāo)準(zhǔn)。相比第一代HBM顯存，HBM 2顯存IO位寬不變，但核心容量從2Gb提升到了8Gb，支持4Hi、8Hi堆棧，頻率從1Gbps提升到了2Gbps，帶寬從512GB/s提升到了1024GB/s，這也是TB/s帶寬的由來。

目前三星、SK Hynix已經(jīng)或者正在量產(chǎn)HBM 2顯存，單顆容量是4GB的，NVIDIA的GTC大會(huì)上展示了SK Hynix的HBM 2顯存，GP100核心使用的應(yīng)該也是Hynix的產(chǎn)品，每個(gè)GP100核心周圍堆棧了4顆HBM 2顯存，總?cè)萘渴?6GB，要比AMD的Fury顯卡的4GB HBM顯存容量高得多。

支持HBM顯存對(duì)NVIDIA來說還有個(gè)好處，那就是ECC校驗(yàn)。此前的架構(gòu)中，NVIDIA Tesla顯卡的ECC校驗(yàn)需要占用6.25%的顯存空間，這意味著有相當(dāng)部分的顯存要被“浪費(fèi)”，Tesla K40加速卡的12GB顯存中有750MB預(yù)留給ECC校驗(yàn)，可用的內(nèi)存容量就剩下11.25GB，而且這還會(huì)影響內(nèi)存帶寬。

相比之下，HBM 2顯存原生支持ECC校驗(yàn)，不需要額外的內(nèi)存占用，這不僅提高了顯存利用率，帶寬也不會(huì)受影響。

GTC大會(huì)展示的SK Hynix公司的4GB HBM2顯存

16GB HBM2顯存總量在Tesla及Quadro專業(yè)卡中不算第一，但HBM 2顯存超高的帶寬是GDDR5顯存望塵莫及的。不過值得注意的是，在GTC大會(huì)上展示的HBM 2顯存頻率標(biāo)明是2Gbps的，但NVIDIA的GP100核心目前帶寬只有720GB/s，并沒有達(dá)到之前宣稱的TB/s帶寬，算下來頻率應(yīng)該只有1.4Gbps左右，這說明GP100核心的HBM 2顯存并沒有全速運(yùn)行，不清楚NVIDIA為何留了一手。

Pascal架構(gòu)看點(diǎn)之四：NVLink可支持8路顯卡并行

如果說3D顯存是NVIDIA公布的Pascal的第一個(gè)關(guān)鍵特性，那么NV Link總線就是另外一個(gè)關(guān)鍵了，它同樣是NVIDIA針對(duì)高性能運(yùn)算開發(fā)的技術(shù)，號(hào)稱速度是PCI-E總線的5-12倍，前面提到的DGX-1深度計(jì)算超級(jí)計(jì)算機(jī)就使用了NV Link技術(shù)。

GP100顯卡背后的NV Link接口

NV Link的優(yōu)點(diǎn)就是帶寬超高，目前PCI-E 3.0 x16帶寬不過16GB/s，用在游戲顯卡上是足夠的，但在超算中就不夠看了，新一代的PCI-E 4.0規(guī)范又延期了，這就得靠NV Link總線了。NV Link實(shí)際上是NVIDIA與IBM合作開發(fā)的，每個(gè)通道的帶寬是40GB/s，GP100核心支持4個(gè)NV Link，雙向帶寬高達(dá)160GB/s，而且?guī)捫矢哌_(dá)94%，這些都要比PCI-E總線更有優(yōu)勢(shì)。

DGX-1的8路GP100顯卡并行就靠了NV Link技術(shù)

NV Link技術(shù)主要是為高性能運(yùn)算而生的，IBM會(huì)在他們的Power 9處理器中使用該技術(shù)，Intel就不太可能使用NVIDIA的技術(shù)了，他們有自己的并行總線技術(shù)。對(duì)于普通消費(fèi)者來說，NV Link意義不大，不過超高的帶寬、更低的延遲使得NV Link技術(shù)可以支持8路顯卡并行，對(duì)高玩來說有一定吸引力，不過多卡互聯(lián)的關(guān)鍵在于目前恐怕沒有哪些應(yīng)用或者游戲能夠完美支持8卡運(yùn)行。

Pascal顯卡最關(guān)鍵的問題：消費(fèi)級(jí)顯卡如何“閹割”

以上四點(diǎn)只是NVIDIA Pascal顯卡的部分特色，由于官方公布的細(xì)節(jié)還不夠多，我們對(duì)Pascal顯卡的了解還需要進(jìn)一步深入。毫無疑問的是GP100大核心在高性能計(jì)算市場(chǎng)大有用武之地，不論是超高的雙精度性能、超高的每瓦性能比還是超高的顯存帶寬、超高的NV Link總線，GP100大核心都擁有極強(qiáng)的競(jìng)爭(zhēng)力，也無怪乎該卡剛發(fā)布，歐洲最強(qiáng)的超級(jí)計(jì)算機(jī)就準(zhǔn)備使用Tesla P100專業(yè)卡升級(jí)了。

不過非專業(yè)用戶對(duì)GP100最大的擔(dān)心也來源于此，因?yàn)樗砩霞闪颂嗟膶I(yè)技術(shù)，雙精度運(yùn)算對(duì)游戲應(yīng)用沒多少用處，16GB HBM 2顯存雖然夠YY，但成本讓人擔(dān)心，NV Link總線對(duì)游戲顯卡來說更是屠龍之技，只有16nm工藝的高能效對(duì)游戲玩家來說是有用的。

今年6月份的臺(tái)北電腦展上，NVIDIA發(fā)布針對(duì)游戲市場(chǎng)的GP104顯卡基本上是板上釘釘了，屆時(shí)我們才能看到NVIDIA在GP104核心上又做了哪些針對(duì)性改良和優(yōu)化。此外，AMD同期也會(huì)發(fā)布Polaris 11和Polaris 11顯卡，雙方新一代顯卡大戰(zhàn)很快也要揭幕了。