當前位置:首頁 > 消費電子 > 消費電子
[導(dǎo)讀]2016上半年過得差不多了,顯卡市場上這一年來基本上沒什么新品,不論是AMD還是NVIDIA主推的還是上一代架構(gòu)的顯卡,恍恍惚惚之間28nm工藝的顯卡竟然支撐了4年時間,這在以往的GPU升級歷史上可不多見。之所以沉寂這么久是雙方都在憋大招...

2016上半年過得差不多了,顯卡市場上這一年來基本上沒什么新品,不論是AMD還是NVIDIA主推的還是上一代架構(gòu)的顯卡,恍恍惚惚之間28nm工藝的顯卡竟然支撐了4年時間,這在以往的GPU升級歷史上可不多見。之所以沉寂這么久是雙方都在憋大招,AMD新一代顯卡架構(gòu)為14nm工藝的Polaris(北極星),NVIDIA準備的則是16nm工藝的Pascal(帕斯卡),后者在GTC 2016大會上首次揭開了面紗,NVIDIA發(fā)布的Tesla P100專業(yè)卡使用了旗艦GP100核心。

也許是久未見新工藝新架構(gòu)顯卡,現(xiàn)在看到GP100這樣的龐然大物都覺得興奮了,這幾天我們已經(jīng)被各種Pascal顯卡爆料刷屏了。從Kepler到Maxwell架構(gòu),NVIDIA錢兩次都是選擇首發(fā)面向主流游戲市場的核心GK104、GM204(Maxwell首發(fā)的其實是GM107這樣的低端核心),GK110、GM200大核心產(chǎn)品通常要晚半年時間,但這次的Pascal顯卡就跟當年的GF100費米架構(gòu)一樣選擇了大核心首發(fā),歷史終于輪回了。

作為16nm工藝的新一代旗艦,NVIDIA的GP100核心到底有多強?或者說它與目前的架構(gòu)有什么質(zhì)的不同?今天的超能課堂上我們就來分析下GP100核心的特色,回顧下它與Kepler、Maxwell架構(gòu)有什么不同。

Pascal與Kepler、Maxwell規(guī)格對比

切入正題之前我們先來了解下GP100核心與Kepler、Maxwell架構(gòu)的規(guī)格,此前NVIDIA官方也公布了GP100核心與GK110、GM200核心的一些對比,這里我們做了一份更詳細的規(guī)格表,并加入了GM204及GK104這兩款游戲顯卡核心。

GP100核心與GK110、GM200、GM204、GK104核心規(guī)格對比

這份規(guī)格表內(nèi)容非常多,初看之下會覺得手足無措,不過小編把需要重點關(guān)注的地方標紅了,簡單來說就是GP100核心晶體管密度再次攀升、CUDA核心大幅增加、雙精度性能逆天增長、緩存/寄存器容量翻倍、HBM 2顯存及NVLink總線,這幾點基本上能概括GP100核心的特色。

Pascal架構(gòu)看點之一:計算性能是關(guān)鍵,雙精度性能逆市回歸

GP100的性能一經(jīng)公布,給小編的感覺就是NVIDIA這次回歸了GK110大核心時代注重雙精度運算的設(shè)計,而且比之前更加變態(tài)——GK110架構(gòu)中FP64雙精度與FP32單精度的比例不過1:3,每組SMX單元中有192個FP32單元,64個FP64單元,但GP100核心中每組SM單元中有64個FP32單元,但有32個FP64單元,F(xiàn)P64與FP32比例是1:2。

要知道,Maxwell架構(gòu)中單雙精度比砍到了1/32,GK104核心中單雙精度比是1/24,這都遠遠低于Pascal核心,唯一能與之媲美的就是當年Fermi核心的Tesla加速卡了。

因此在雙精度性能上,GP100核心可以說突破天際了,F(xiàn)P64浮點性能可達5.3TFLOPS,而GK110核心不過1.68TFLOPS,GM200核心更是只有可憐的0.21TFLOPS,GP100雙精度性能達到了GK110核心的3倍多,是GM200核心的20多倍。

HPC很多應(yīng)用需要雙精度性能,不過深度計算(deep learning)這樣的計算并不需要高精度運算,因為它天生自帶糾錯能力,而GP100的FP32 CUDA核心可以同時執(zhí)行2個FP16半精度運算,因此FP16浮點性能高達21.6TFLOPS。NVIDIA在Tesla P100之外還推出了基于GP100核心的DGX-1深度學習超級計算機,由8顆GP100核心及2顆16核Xeon E5處理器組成,深度計算性能達到了170TFLOPS,號稱比250臺X86服務(wù)器還要強大。

GK110核心架構(gòu)示意圖

GM200核心架構(gòu)示意圖

GP100核心架構(gòu)示意圖

GP100為了提升計算性能,增強的不僅僅是雙精度單元,其L2緩存、寄存器文件也大幅提升,總計擁有4MB L2緩存、14MB寄存器文件。

總之,NVIDIA的GP100核心為了計算性能可謂煞費苦心,雙精度性能簡直逆天,不過NVIDIA針對高性能運算所做的設(shè)計固然討好HPC市場,但對游戲市場來說雙精度是沒多少用處的,反而浪費了晶體管單元,提高了成本及功耗。

Pascal架構(gòu)看點之二:升級16nm工藝,密度、能效提升

從AMD的HD 7970顯卡率先使用28nm工藝開始算起,TSMC的28nm工藝已經(jīng)陪伴我們四年時間了,期間AMD、NVIDIA數(shù)次升級的新核心都沒有工藝升級,依然堅持28nm工藝,雙方都跳過了20nm工藝、直接進入了性能更好的FinFET工藝節(jié)點,只不過AMD選擇了三星/GF的14nm FinFET LPP工藝,NVIDIA堅持了老朋友TSMC的16nm FinFET Plus工藝。

TSMC的16nm FinFET工藝優(yōu)勢

對半導(dǎo)體芯片來說,升級工藝通常意味著晶體管性能提升、功耗下降,同時晶體管密度大幅提升。具體到TSMC的16nm工藝,該公司此前表示其16nm工藝的晶體管密度是28nm HPM工藝的2倍左右,同樣的功耗下性能提升38%,同樣的速度下功耗降低54%,對比20nm工藝則是20%速度提升、35%功耗下降。

我們再來看下GP100核心的相關(guān)數(shù)據(jù):

GP100核心的晶體管密度、頻率及TDP功耗

我們簡單地把幾款GPU的晶體管密度換算了下(晶體管數(shù)量除以核心面積,由于GPU核心的電路復(fù)雜,這種算法不一定精確,僅供參考),16nm工藝的GP100核心晶體管密度大約是2510萬每平方毫米,算起來晶體管密度比之前28nm工藝的Maxwell、Kepler恰好多一倍。

至于每瓦性能比,這里使用的是FP32浮點性能與TDP功耗的比值,考慮到上述核心面向的市場不同,我們要知道側(cè)重高性能的GP100與游戲市場的GM204、GK104對比TDP是不公平的,不過最終的結(jié)果依然顯示出16nm工藝的GP100在每瓦性能比上有明顯優(yōu)勢。

從這一點也可以猜測,未來針對游戲市場的Pascal核心(比如GP104、GP106)問世之后,它們勢必要閹割掉GP100核心上很多不必要的功能,優(yōu)化功耗,所以其每瓦性能比無疑會更出色。

Pascal架構(gòu)看點之三:HBM 2顯存登場,16GB很好很強大

早在2年前的GTC大會上,NVIDIA就公布了Pascal顯卡的2大特色——一個是NVLink總線,一個就是3D Memory,號稱容量、帶寬是目前顯卡的2-4倍,帶寬可達1TB/s,這個顯存實際上就是HBM 2顯存。有意思的是,NVIDIA此舉也意味著盡管AMD Fury顯卡搶先使用HBM顯存,但NVIDIA還是在新一代HBM顯存上搶了先,不知道AMD面對這種情況又是如何看的呢?

對于HBM 2顯存,我們之前也多次做過介紹,HBM 2顯存現(xiàn)在已經(jīng)被JEDEC吸納為標準。相比第一代HBM顯存,HBM 2顯存IO位寬不變,但核心容量從2Gb提升到了8Gb,支持4Hi、8Hi堆棧,頻率從1Gbps提升到了2Gbps,帶寬從512GB/s提升到了1024GB/s,這也是TB/s帶寬的由來。

目前三星、SK Hynix已經(jīng)或者正在量產(chǎn)HBM 2顯存,單顆容量是4GB的,NVIDIA的GTC大會上展示了SK Hynix的HBM 2顯存,GP100核心使用的應(yīng)該也是Hynix的產(chǎn)品,每個GP100核心周圍堆棧了4顆HBM 2顯存,總?cè)萘渴?6GB,要比AMD的Fury顯卡的4GB HBM顯存容量高得多。

支持HBM顯存對NVIDIA來說還有個好處,那就是ECC校驗。此前的架構(gòu)中,NVIDIA Tesla顯卡的ECC校驗需要占用6.25%的顯存空間,這意味著有相當部分的顯存要被“浪費”,Tesla K40加速卡的12GB顯存中有750MB預(yù)留給ECC校驗,可用的內(nèi)存容量就剩下11.25GB,而且這還會影響內(nèi)存帶寬。

相比之下,HBM 2顯存原生支持ECC校驗,不需要額外的內(nèi)存占用,這不僅提高了顯存利用率,帶寬也不會受影響。

GTC大會展示的SK Hynix公司的4GB HBM2顯存

16GB HBM2顯存總量在Tesla及Quadro專業(yè)卡中不算第一,但HBM 2顯存超高的帶寬是GDDR5顯存望塵莫及的。不過值得注意的是,在GTC大會上展示的HBM 2顯存頻率標明是2Gbps的,但NVIDIA的GP100核心目前帶寬只有720GB/s,并沒有達到之前宣稱的TB/s帶寬,算下來頻率應(yīng)該只有1.4Gbps左右,這說明GP100核心的HBM 2顯存并沒有全速運行,不清楚NVIDIA為何留了一手。

Pascal架構(gòu)看點之四:NVLink可支持8路顯卡并行

如果說3D顯存是NVIDIA公布的Pascal的第一個關(guān)鍵特性,那么NV Link總線就是另外一個關(guān)鍵了,它同樣是NVIDIA針對高性能運算開發(fā)的技術(shù),號稱速度是PCI-E總線的5-12倍,前面提到的DGX-1深度計算超級計算機就使用了NV Link技術(shù)。

GP100顯卡背后的NV Link接口

NV Link的優(yōu)點就是帶寬超高,目前PCI-E 3.0 x16帶寬不過16GB/s,用在游戲顯卡上是足夠的,但在超算中就不夠看了,新一代的PCI-E 4.0規(guī)范又延期了,這就得靠NV Link總線了。NV Link實際上是NVIDIA與IBM合作開發(fā)的,每個通道的帶寬是40GB/s,GP100核心支持4個NV Link,雙向帶寬高達160GB/s,而且?guī)捫矢哌_94%,這些都要比PCI-E總線更有優(yōu)勢。

DGX-1的8路GP100顯卡并行就靠了NV Link技術(shù)

NV Link技術(shù)主要是為高性能運算而生的,IBM會在他們的Power 9處理器中使用該技術(shù),Intel就不太可能使用NVIDIA的技術(shù)了,他們有自己的并行總線技術(shù)。對于普通消費者來說,NV Link意義不大,不過超高的帶寬、更低的延遲使得NV Link技術(shù)可以支持8路顯卡并行,對高玩來說有一定吸引力,不過多卡互聯(lián)的關(guān)鍵在于目前恐怕沒有哪些應(yīng)用或者游戲能夠完美支持8卡運行。

Pascal顯卡最關(guān)鍵的問題:消費級顯卡如何“閹割”

以上四點只是NVIDIA Pascal顯卡的部分特色,由于官方公布的細節(jié)還不夠多,我們對Pascal顯卡的了解還需要進一步深入。毫無疑問的是GP100大核心在高性能計算市場大有用武之地,不論是超高的雙精度性能、超高的每瓦性能比還是超高的顯存帶寬、超高的NV Link總線,GP100大核心都擁有極強的競爭力,也無怪乎該卡剛發(fā)布,歐洲最強的超級計算機就準備使用Tesla P100專業(yè)卡升級了。

不過非專業(yè)用戶對GP100最大的擔心也來源于此,因為它身上集成了太多的專業(yè)技術(shù),雙精度運算對游戲應(yīng)用沒多少用處,16GB HBM 2顯存雖然夠YY,但成本讓人擔心,NV Link總線對游戲顯卡來說更是屠龍之技,只有16nm工藝的高能效對游戲玩家來說是有用的。

今年6月份的臺北電腦展上,NVIDIA發(fā)布針對游戲市場的GP104顯卡基本上是板上釘釘了,屆時我們才能看到NVIDIA在GP104核心上又做了哪些針對性改良和優(yōu)化。此外,AMD同期也會發(fā)布Polaris 11和Polaris 11顯卡,雙方新一代顯卡大戰(zhàn)很快也要揭幕了。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉