英偉達宣布Tesla T4 GPU新品,轉(zhuǎn)為AI推理工作而設(shè)計
英偉達剛剛發(fā)布了一款專為 AI 推理工作而設(shè)計的顯卡,它就是可以加速語音、視頻、搜索引擎、圖像神經(jīng)網(wǎng)絡(luò)的 Tesla T4 。在這之前,英偉達曾推出過類似的 Tesla P4 。但新品可在相同的功耗下,提供高達 12 倍的性能,設(shè)立了推理負載效能的新標(biāo)準(zhǔn)。Tesla T4 擁有 320 個圖靈張量(TURring Tensor)內(nèi)核 + 2560 個 CUDA 內(nèi)核。
它在 TU104 芯片的基礎(chǔ)上,啟用了 40 組著色器(SM),功率優(yōu)化到了 75W(從而無需 PCIe 外接供電)。顯存為 16GB GDDR6,帶寬 320GB/s 。
GPU 支持混合精度,例如 FP32、FP16、已 INT8 。此外 Tesla T4 還支持 INT4 和實驗性的 INT1 精度模式,較其前身有顯著的進步。
與前代產(chǎn)品一樣,Tesla T4 的功耗相當(dāng)?shù)驼{(diào),服務(wù)器?PCIe 插槽的標(biāo)準(zhǔn)供電(75W)已經(jīng)足夠,無需外接 6-pin 。散熱方面,它也無需加裝主動式的風(fēng)扇(服務(wù)器典型的內(nèi)風(fēng)道設(shè)計已經(jīng)足夠)。
英偉達透露,與桌面型號一樣,Tesla T4 也配備了 RT 核心,很適合光線追蹤或 VDI(虛擬桌面基礎(chǔ)架構(gòu))。但這也意味著,該卡并不會用于大多數(shù)的推理工作負載。
Tesla 還擁有針對 AI?視頻應(yīng)用的優(yōu)化特性,由硬件轉(zhuǎn)碼引擎提供動力,提供兩倍于 Tesla P4 的性能。Nvidia 表示,這些計算卡可以同時解碼多達 38 路全高清視頻流。
此外,英偉達提供了圍繞 T4 的一系列技術(shù),比如 TensorRT Hyperscale 平臺擴展。該卡支持所有主要的深度學(xué)習(xí)框架,比如 PyTorch、TensorFlow、MXNet、以及 Caffee2 。
另外,Nvidia 提供了 TensorFlow RT5,這是該公司深度學(xué)習(xí)推理優(yōu)化器和運行時(Runtime)引擎的新版本,支持圖靈張量核心與多精度工作負載。
Nvidia 還宣布了針對圖靈做出優(yōu)化的 CUDA 10,其中包含了優(yōu)化的庫、編程模型、以及圖形 API 的互操作性;以及基于 Xavier 的產(chǎn)品系列新名稱(AGX 陣容),其專為從機器人、到自動駕駛汽車的自動機器系統(tǒng)而設(shè)計。
產(chǎn)品陣容包括 Drive Xavier 和新推出的 Drive Pegasus,首批為兩款 Xavier?處理器、以及兩款 Tesla V100 GPU 。Nvidia 現(xiàn)已將 GPU 更新為基于圖靈架構(gòu)的型號,另外還提供了類似的、面向醫(yī)療應(yīng)用的 Clara 設(shè)計平臺(采用了單一的 Xavier 處理器 + 圖靈 GPU 的組合)。
Nvidia 專注于提升推理工作負載的性能,這也是該公司的一項戰(zhàn)略舉措。該公司預(yù)計,市場會在未來五年增長至 200 億美元。同時,英特爾聲稱世界上大多數(shù)的推理工作負載,仍運行在基于至強處理器的平臺上。
鑒于英特爾在全球服務(wù)器市場擁有決定壟斷的地位(約 96%),這種說法是相當(dāng)可信的。
在最近以數(shù)據(jù)為中心的創(chuàng)新峰會上,該公司宣布在 2017 年為 AI 工作負載銷售了 10 億美元的處理器。預(yù)計未來幾年,該數(shù)字還會迅速增長。
顯然,推理工作負載將成為英偉達、英特爾、AMD 多家爭奪的熱門市場。英特爾憑借的,是其在服務(wù)器市場的先發(fā)優(yōu)勢。而低成本、低功耗的推理加速器(比如 Tesla T4),將對其發(fā)起每瓦特性能的巨大挑戰(zhàn)。
據(jù)悉,AMD 即將推出用于深度學(xué)習(xí)的 7nm Radeon Instinct GPU,谷歌也在積極開發(fā)自研的定制芯片(比如 TPU)。未來幾年,我們或許能見證該領(lǐng)域的最終獲勝者。