英偉達(dá)推出下一代 GPU 架構(gòu)：Hopper

時間：2022-04-10 14:15:01

關(guān)鍵字：英偉達(dá) AI 人工智能

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]Nvidia 推出了其下一代 GPU 架構(gòu)——名為 Hopper，以及使用 Hopper 架構(gòu)的新旗艦 GPU H100。也許令人驚訝的是，英偉達(dá)并沒有選擇走英特爾和 AMD 為其龐大的 GPU 青睞的時尚小芯片路線。雖然 H100 是第一款使用 HBM3 的 GPU，但它的計算芯片是單片的，814mm 2中的 800 億個晶體管基于臺積電的 4N 工藝構(gòu)建。內(nèi)存和計算通過臺積電的 CoWoS 2.5D 封裝進(jìn)行封裝。

Nvidia 推出了其下一代 GPU 架構(gòu)——名為 Hopper，以及使用 Hopper 架構(gòu)的新旗艦 GPU H100。也許令人驚訝的是，英偉達(dá)并沒有選擇走英特爾和 AMD 為其龐大的 GPU 青睞的時尚小芯片路線。雖然 H100 是第一款使用 HBM3 的 GPU，但它的計算芯片是單片的，814mm ²中的 800 億個晶體管基于臺積電的 4N 工藝構(gòu)建。內(nèi)存和計算通過臺積電的 CoWoS 2.5D 封裝進(jìn)行封裝。

以美國計算機(jī)科學(xué)先驅(qū) Grace Hopper 命名的 Nvidia Hopper H100 將取代 Ampere A100，成為該公司用于人工智能和科學(xué)工作負(fù)載的旗艦 GPU。它將提供 3 到 6 倍的 A100 原始性能（FP8 性能的 4 PFLOPS，或 FP64 的 60 TFLOPS）。作為第一款采用 HBM3 技術(shù)的 GPU，其顯存帶寬達(dá)到了驚人的 3 TB/s，同時也是第一款支持 PCIe Gen5 的 GPU。該芯片具有近 5 TB/s 的外部連接速度。綜上所述，20 個 H100 GPU 可以維持相當(dāng)于當(dāng)今全球互聯(lián)網(wǎng)流量的全部。

新的 Nvidia Hopper H100 GPU – Nvidia 用于數(shù)據(jù)中心 AI 和科學(xué)工作負(fù)載的新旗艦 GPU

變壓器引擎

Hopper 架構(gòu)為 AI 處理和科學(xué)工作負(fù)載提供了一些技巧。

第一個是新的變壓器引擎。Transformer 網(wǎng)絡(luò)已經(jīng)是當(dāng)今自然語言處理的事實(shí)上的標(biāo)準(zhǔn)，在許多其他人工智能應(yīng)用中顯示出前景，包括蛋白質(zhì)折疊，甚至在計算機(jī)視覺中。如今，它們?yōu)樵S多對話式 AI 應(yīng)用程序提供支持。變壓器網(wǎng)絡(luò)的問題在于它們非常龐大——數(shù)十億或數(shù)萬億個參數(shù)——這使得它們的訓(xùn)練計算成本極高。今天訓(xùn)練一個體面大小的變壓器可能需要幾個月的時間，這取決于你可以使用的計算能力。

Nvidia 為其 Hopper 張量核心發(fā)明了一種新的低精度格式 FP8。新的 Hopper 張量引擎可以應(yīng)用混合的 FP16 和 FP8 格式，以在適當(dāng)?shù)那闆r下加速 Transformer 訓(xùn)練。挑戰(zhàn)在于知道何時切換到較低精度以加快吞吐量，同時保持最終結(jié)果的準(zhǔn)確性。Nvidia 提出了可以在訓(xùn)練期間動態(tài)執(zhí)行此操作的策略。

將張量引擎與 Hopper 帶來的其他改進(jìn)相結(jié)合，結(jié)果是訓(xùn)練變壓器網(wǎng)絡(luò)的時間減少了 9 倍——在 Nvidia 的示例中，對于 3950 億參數(shù)的混合，從使用 A100 的 7 天到使用 H100 的 20 小時專家網(wǎng)絡(luò)。對于擁有 5300 億個參數(shù)的 Megatron-530B，H100 的性能比 A100 高出 30 倍。

是時候為 H100 與 A100 訓(xùn)練混合專家變壓器網(wǎng)絡(luò)了（來源：Nvidia）

另一個巧妙的技巧是添加新指令來加速動態(tài)編程。動態(tài)編程是一種流行的科學(xué)算法使用的技術(shù)，包括 Floyd-Warshall（用于路線優(yōu)化）和 Smith-Waterman（用于 DNA 序列比對）等等。一般來說，動態(tài)規(guī)劃意味著算法被分解成更容易解決的更小的子問題。存儲子問題的答案以供重復(fù)使用，以避免重新計算它們。

Hopper 的 DPX 指令是為此類操作量身定制的。到目前為止，這些工作負(fù)載主要在 CPU 和 FPGA 上運(yùn)行。使用 H100，F(xiàn)loyd-Warshall 的運(yùn)行速度可以比 CPU 快 40 倍。

下一代 MIG

H100 還具有第二代多實(shí)例 GPU (mig) 技術(shù)。Mig 允許將大型數(shù)據(jù)中心 GPU 有效地分解為多個較小的 GPU。這些微型實(shí)例可用于在同一芯片上同時運(yùn)行多個工作負(fù)載。下一代 mig 在云環(huán)境中跨每個 GPU 實(shí)例提供安全的多租戶配置，以便可以在不同用戶或云租戶之間安全地分配計算能力。

在 H100 的又一個首創(chuàng)中，Nvidia 聲稱該芯片是第一款具有機(jī)密計算能力的 GPU。這個想法是保護(hù)敏感或私人數(shù)據(jù)，即使它正在使用（因此被解密）。當(dāng)今的機(jī)密計算方案是基于 CPU 的，因此不適用于大規(guī)模的 AI 或高性能計算 (HPC)。

英偉達(dá)的機(jī)密計算方案使用硬件和軟件，通過機(jī)密虛擬機(jī)創(chuàng)建可信的執(zhí)行環(huán)境。CPU 和 GPU 之間以及 GPU 之間的數(shù)據(jù)傳輸以全 PCI 線速進(jìn)行加密和解密。H100 還具有硬件防火墻，可保護(hù)其內(nèi)存和計算引擎中的工作負(fù)載，因此除了擁有密鑰的受信任執(zhí)行環(huán)境的所有者之外，沒有人可以看到數(shù)據(jù)或代碼。

H100 還率先使用了 Nvidia 的第四代 NVLink 通信技術(shù)。當(dāng)擴(kuò)展到多個 GPU 時，GPU 之間的通信通常是一個瓶頸。新的 NVLink 交換機(jī)可以創(chuàng)建多達(dá) 256 個 H100 GPU 的網(wǎng)絡(luò)，比以前大 32 倍，帶寬比 Quantum InfiniBand 技術(shù)高 11 倍。

超級芯片和超級計算機(jī)

英偉達(dá)還推出了幾款“超級芯片”。Grace CPU 超級芯片是一個帶有兩個Grace CPU裸片的模塊；該組合是一個具有 1 TB/s 內(nèi)存帶寬的 144 ARM 核單插槽 CPU 龐然大物，用于超大規(guī)模數(shù)據(jù)中心 AI 和科學(xué)計算。這是市場上當(dāng)前數(shù)據(jù)中心 CPU 之上的一類。該模塊消耗500W。

還有 Grace Hopper 超級芯片：一個 Grace CPU 和一個 Hopper GPU。

Nvidia 的“超級芯片”結(jié)合了兩個 Grace CPU 或一個 Grace CPU 和一個 Hopper GPU（來源：Nvidia）

這里的支持技術(shù)是一種全新的內(nèi)存一致性芯片到芯片接口 NVLink-C2C，它可以在裸片之間實(shí)現(xiàn) 900 GB/s 的鏈接。它可用于 PCB、MCM、Interposer 或晶圓級。

在他的 GTC 主題演講中，Nvidia 首席執(zhí)行官 Jensen Huang 提到 NVLink-C2C 將提供給希望實(shí)施連接到 Nvidia 平臺的定制芯片的其他客戶和合作伙伴。該公司單獨(dú)表示，它將支持英特爾、AMD、Arm 和其他公司支持的 UCIe 小芯片到小芯片標(biāo)準(zhǔn)，但沒有說明如何或何時支持。（UCIe 是一個開發(fā)中的開放平臺，用于支持現(xiàn)成的小芯片生態(tài)系統(tǒng)）。

Grace CPU 超級芯片和 Grace Hopper 超級芯片都將在明年上半年出貨。

當(dāng)然會有基于 H100 的擴(kuò)展系統(tǒng)，包括 DGX-H100（8 個 H100 芯片，0.5 PFLOPS 的 FP64 計算）和新的 DGX-Superpod，它是 32 個 DGX-H100 節(jié)點(diǎn)，可實(shí)現(xiàn) 1 ExaFLOPS 的 AI 性能（ FP8)。

作為基于 A100 的 AI 超級計算機(jī) Selene 的姐妹，Nvidia 將構(gòu)建一個名為 Eos 的新超級計算機(jī)，包括 18 個 DGX-Superpod。這個 18-ExaFLOPS 的野獸將擁有 4600 個 H100 GPU、360 個 NVlink 交換機(jī)和 500 個 Quantum InfiniBand 交換機(jī)。它將被英偉達(dá)的人工智能研究團(tuán)隊使用。

Eos 預(yù)計將在今年晚些時候上線，Nvidia 預(yù)計它將成為當(dāng)時排名第一的 AI 超級計算機(jī)。