NVIDIA Turing架構(gòu)秘密曝光：SM單元大改，CUDA性能提升50%

時(shí)間：2018-10-16 10:48:05

關(guān)鍵字： rtx nvidia英偉達(dá) 2070 turing架構(gòu)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]NVIDIA第一批光線追蹤顯卡評測解禁臨近，但我們依然對其中Turing架構(gòu)的細(xì)節(jié)一無所知，這與NVIDIA最近實(shí)施最強(qiáng)的管控措施有關(guān)，從源頭上就限制住各方提前爆料的可能性，比如說顯卡不能提前給媒體、

NVIDIA第一批光線追蹤顯卡評測解禁臨近，但我們依然對其中Turing架構(gòu)的細(xì)節(jié)一無所知，這與NVIDIA最近實(shí)施最強(qiáng)的管控措施有關(guān)，從源頭上就限制住各方提前爆料的可能性，比如說顯卡不能提前給媒體、限制驅(qū)動分發(fā)等等。所以想提前知道詳細(xì)規(guī)格、性能如何？但這難不倒VideoCardZ，他們居然曝光了Turing架構(gòu)顯卡的一些秘密，比方說SM單元大改，CUDA性能提升50%，RTX 2070其實(shí)用TU106核心，還有一大堆新的著色技術(shù)引入。

由于NVIDIA尚未公布Turing架構(gòu)白皮書，很多細(xì)節(jié)無法得知。但VideoCardZ不知道哪里搞來了全套架構(gòu)圖，公布的架構(gòu)圖與NVIDIA官方傳統(tǒng)風(fēng)格不一樣，可能是為了規(guī)避水印而做的高清重制版本，真實(shí)性應(yīng)該可以得到確認(rèn)，不然沒事誰會亂P一個(gè)架構(gòu)圖呢？

我們先來看看SM單元的組成吧。除了原有的FP32單精度單元，F(xiàn)P64雙精度單元全都砍掉了，加入了INT32單元以及Tensor Core，底下新增加了一個(gè)相對獨(dú)立的RT Core。VCZ還提到Turing架構(gòu)SM單元還將共享緩存、L1緩存、紋理緩存引入了統(tǒng)一架構(gòu)，可以讓L1緩存更充分利用資源，這樣的設(shè)計(jì)可以使得每一個(gè)CUDA單元獲得50%的性能提升。

再回到比較大的層面上，看看RTX 2080 Ti的TU102框架圖，這可不得了非常壯觀的規(guī)格。TU102一共分為6組GPC單元，每組GPC單元又擁有12個(gè)SM單元，一共是72個(gè)SM單元，但RTX 2080 Ti也只是用了68個(gè)而已。同時(shí)按照已經(jīng)RTX 2080 Ti已經(jīng)公布的參數(shù)，可以計(jì)算得出，每個(gè)SM單元將會配備64個(gè)CUDA、8個(gè)Tensor Core 、1個(gè)RT Core。

完整版的TU106核心依然是6組GPC單元，不過每組GPC改為8個(gè)SM單元，一共是48個(gè)，RTX 2080的GPU核心是TU104-400，只用上了46組，還有預(yù)留有2組空缺的。VCZ給出的數(shù)據(jù)是545平方毫米，一共有136億晶體管。

原本以為RTX 2070依然會是TU104核心“閹割”下來，但是VCZ確實(shí)是全新的核心型號TU106，你可以將其視作RTX 2080 Ti規(guī)格砍半，3組GPC單元，3×12=36組SM單元，經(jīng)過計(jì)算，RTX 2070是滿血版的TU104核心。VCZ給出的數(shù)據(jù)時(shí)454平方毫米，一共有106億晶體管。但是這樣算下來，RTX 2070規(guī)格并不比GTX 1080好多少，性能提升堪憂。

Turing顯卡使用了新的顯存無損壓縮技術(shù)，不過VCZ也只是簡單說明了相比于Pascal顯卡有50%帶寬增長而已，沒具體說明。

此外NVLink可以確認(rèn)為RTX 2080 Ti、RTX 2080獨(dú)享，RTX 2070并不支持。此外新的Turing顯卡使用了新的視頻圖像引擎，支持Displayport 1.4標(biāo)準(zhǔn)，最高可以輸出8K@60Hz圖像，還可以一次性驅(qū)動兩臺這樣的顯示器。?新編解碼引擎，可以編碼H.265 8k@30FPS視頻，或者解碼YUV 4:4:4 10/12bit HDR 8K和VP9 10/12bit HDR視頻。

還有一大堆新的著色技術(shù)，比如Mesh Shading 、Variable Rate Shading (VRS)、Texture-Space Sharing、Multi-View Rendering (MVR) 等。