在“AI復(fù)興”時代英偉達(dá)一直致力于成為“AI引擎”

時間：2020-05-12 15:39:02

關(guān)鍵字： AI 英偉達(dá) GPU NVIDIA

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] “在加速計算領(lǐng)域深耕 25 年，英偉達(dá)致力于在 GPU 加速計算領(lǐng)域勇當(dāng)先鋒，解決普通計算機無法解決的問題。我們?yōu)楫?dāng)代的愛因斯坦、達(dá)芬奇和米開朗琪羅們打造計算機，為在座的各位打造計算機”NVID

“在加速計算領(lǐng)域深耕 25 年，英偉達(dá)致力于在 GPU 加速計算領(lǐng)域勇當(dāng)先鋒，解決普通計算機無法解決的問題。我們?yōu)楫?dāng)代的愛因斯坦、達(dá)芬奇和米開朗琪羅們打造計算機，為在座的各位打造計算機”NVIDIA GTC CHINA 2019 大會開始，英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛為本次活動打下注腳。

2019 年 12 月 18 日，NVIDIA GTC CHINA 2019 主題大會在蘇州國際會議中心召開，本屆 GTC CHINA 也以有超過 6100 人參會的規(guī)模創(chuàng)有史以來之最。

當(dāng)前時代，隨著摩爾定律的終結(jié)，GPU 加速計算正在逐漸成為未來發(fā)展方向，英偉達(dá)在此深耕 25 年之久，通過軟件堆棧優(yōu)化，多 GPU 和多節(jié)點系統(tǒng)實現(xiàn)高效的計算加速。截止到現(xiàn)在，英偉達(dá)已經(jīng)售出 15 億塊 GPU，均采用和兼容 CUDA 架構(gòu)。

英偉達(dá)致力如此，旨在通過出色的芯片性能和全棧優(yōu)化實現(xiàn)摩爾定律加速。

黃仁勛表示，僅在去年，我們就發(fā)布了 500 多個 SDK 和庫，其中既有全新內(nèi)容，也有更新版本。為了提高 GPU 性能，深度學(xué)習(xí)訓(xùn)練在 3 年內(nèi)提高 4 倍，深度學(xué)習(xí)推理在 1 年內(nèi)提高 2 倍。

在后面的演講中，黃仁勛談到了 AI 變革新動向，以及英偉達(dá)在自動駕駛、游戲和醫(yī)療以及建筑等新領(lǐng)域多個行業(yè)的新進(jìn)展。英偉達(dá)將 GPU、深度專業(yè)知識、計算堆棧、算法和生態(tài)系統(tǒng)知識集于一身，立足 CUDA 架構(gòu)，布局多樣化市場。

自動駕駛領(lǐng)域：自主機器平臺 DRIVE AGX Orin

現(xiàn)場，英偉達(dá)發(fā)布用于自動駕駛和機器人的高度先進(jìn)的軟件定義平臺——DRIVE AGX Orin。

Orin 可處理在自動駕駛汽車和機器人中同時運行的大量應(yīng)用和深度神經(jīng)網(wǎng)絡(luò)，能夠支持從 L2 級到 L5 級完全自動駕駛汽車開發(fā)的兼容架構(gòu)平臺，助力 OEM 開發(fā)大型復(fù)雜的軟件產(chǎn)品系列。由于 Orin 和 Xavier 均可通過開放的 CUDA、TensorRT API 及各類庫進(jìn)行編程，因此開發(fā)者能夠在一次性投資后使用跨多代的產(chǎn)品。

Orin 平臺內(nèi)置全新 Orin 系統(tǒng)級芯片，晶體管數(shù)量達(dá)到 170 億個，集成 NVIDIA 新一代 GPU 架構(gòu)和 Arm Hercules CPU 內(nèi)核以及全新深度學(xué)習(xí)和計算機視覺加速器，每秒可運行 200 萬億次計算，幾乎是 NVIDIA 上一代 Xavier 系統(tǒng)級芯片性能的 7 倍。此外，Orin 可處理在自動駕駛汽車和機器人中同時運行的大量應(yīng)用和深度神經(jīng)網(wǎng)絡(luò)，并且達(dá)到了 ISO 26262 ASIL-D 等系統(tǒng)安全標(biāo)準(zhǔn)。NVIDIA DRIVE AGX Orin 計劃于 2022 年開始投產(chǎn)。

在汽車領(lǐng)域，黃仁勛還宣布，英偉達(dá)將在 NVIDIA GPU Cloud （NGC）容器注冊上，向交通運輸行業(yè)開源 NVIDIA DRIVE 自動駕駛汽車開發(fā)深度神經(jīng)網(wǎng)絡(luò)。如今，NVIDIA 向自動駕駛汽車開發(fā)者開源其預(yù)訓(xùn)練 AI 模型和訓(xùn)練代碼。通過一套 NVIDIA AI 工具，NVIDIA 生態(tài)系統(tǒng)內(nèi)的開發(fā)者們可以自由擴展和自定義模型，從而提高其自動駕駛系統(tǒng)的穩(wěn)健性與能力。

現(xiàn)場，英偉達(dá)宣布和滴滴合作，滴滴將在數(shù)據(jù)中心使用 NVIDIA GPU 訓(xùn)練機器學(xué)習(xí)算法，并采用 NVIDIA DRIVE 為其 L4 級自動駕駛汽車提供推理能力。為了訓(xùn)練這些深度神經(jīng)網(wǎng)絡(luò)，滴滴將采用 NVIDIA GPU 數(shù)據(jù)中心服務(wù)器。在云計算方面，滴滴還將構(gòu)建領(lǐng)先的 AI 基礎(chǔ)架構(gòu)，并推出計算型、渲染型和游戲型 vGPU 云服務(wù)器。（詳情見下方鏈接：英偉達(dá)與滴滴合作詳情）

計算圖優(yōu)化編譯器：重磅發(fā)布 TensorRT 7

TensorRT 是一種計算圖優(yōu)化編譯器，以深度學(xué)習(xí)為框架，以訓(xùn)練得到的模型為輸入，尋找計算圖中可以融合的節(jié)點和邊，從而減少計算和內(nèi)存訪問。TensorRT 7 是繼去年 GTC 大會發(fā)布 TensorRT 5 之后的升級版本，彌補了 TensorRT 5 僅支持 CNN 的不足。

TensorRT 7 支持各種類型的 RNN，Transformer 和 CNN。相比 TRT5 只支持 30 種模型，TRT 7 能夠支持多達(dá) 1000 種不同的計算變換和優(yōu)化。TRT 7 能夠融合水平和垂直方向的運算，可以為開發(fā)者設(shè)計的大量 RNN 配置自動生成代碼，逐點融合 LSTM 單元，甚至可跨多個時間步長進(jìn)行融合，并盡可能做自動低精度推理。此外，英偉達(dá)在 TensorRT 7 中引入一個內(nèi)核生成功能，用任何 RNN 可生成一個優(yōu)化的內(nèi)核。

同時，會話式 AI 是 TensorRT 7 強大功能的典型代表，一套端到端會話式 AI 的流程可能由二三十種模型組成，用到 CNN、RNN、Transformer、自編碼器、NLP 等多種模型結(jié)構(gòu)。推理會話式 AI，CPU 的推理延遲是 3 秒，現(xiàn)在使用 TensorRT 7 在 T4 GPU 上推理僅 0.3s 就完成，比 CPU 快 10 倍。

游戲領(lǐng)域新進(jìn)展

游戲業(yè)務(wù)撐起英偉達(dá)的半壁江山。這句話在英偉達(dá) 2020 財年 Q3 財報可以印證，英偉達(dá)第三季度收入達(dá) 30.1 億美元，其中游戲業(yè)務(wù)為 16.6 億美元。

現(xiàn)場，黃仁勛宣布了 6 款支持 RTX 的游戲，為《暗影火炬》《project X》《無限法則》《軒轅劍柒》《鈴蘭計劃》《邊境》，表明 RTX 技術(shù)的開發(fā)者數(shù)量飆升。

除此之外，英偉達(dá)還創(chuàng)造出了 Max-Q 設(shè)計，將超高的 GPU 能效和總體系統(tǒng)優(yōu)化集于一身，可以用于輕薄的高性能筆記本電腦。

同時，隨著云計算的普及，云游戲也將越來越普及。黃仁勛在 GTC China 2019 上也宣布，英偉達(dá)與騰訊游戲合作推出 START 云游戲服務(wù)，該服務(wù)已從今年初開始進(jìn)入測試階段。RTX GPU 是英偉達(dá)去年最重磅的發(fā)布，可以看到其在持續(xù)推動這項技術(shù)更多的應(yīng)用。（相關(guān)詳情請點擊鏈接查看：英偉達(dá)與騰訊合作詳情）

機器人領(lǐng)域：NVIDIA ISAAC 機器人 SDK

面向機器人領(lǐng)域，黃仁勛宣布推出全新 NVIDIA Isaac 機器人 SDK，大大加快開發(fā)和測試機器人的速度，使機器人能通過仿真獲得由 AI 驅(qū)動的感知和訓(xùn)練功能，從而可以在各種環(huán)境和情況下對機器人進(jìn)行測試和驗證，并節(jié)省成本。

Isaac SDK 包括 Isaac Robotics Engine（提供應(yīng)用程序框架），Isaac GEM（預(yù)先構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)模型、算法、庫、驅(qū)動程序和 API），用于室內(nèi)物流的參考應(yīng)用程序，并引入 Isaac Sim 訓(xùn)練機器人，可將所生成的軟件部署到在現(xiàn)實世界中運行的真實機器人中。其中，基于攝像頭的感知深度神經(jīng)網(wǎng)絡(luò)有對象檢測、自由空間分割、3D 姿態(tài)估計、2D 人體姿態(tài)估計等模型。（詳細(xì)內(nèi)容請點擊鏈接：ISAAC 機器人 SDK 詳情）

其他領(lǐng)域進(jìn)展

云渲染平臺：現(xiàn)場，黃仁勛宣布瑞云云渲染平臺將配備 NVIDIA RTX GPU，首批 5000 片 RTX GPU 將在 2020 年上線。其中超過 85%的中國電影工作室都是瑞云的客戶，《戰(zhàn)狼 2》、《哪吒》和《流浪地球》就是出自其手，堪稱全亞洲最大的云渲染平臺。

建筑行業(yè)（AEC）：黃仁勛還發(fā)布了面向 AEC 的 Omniverse 開放式 3D 設(shè)計協(xié)作平臺，本地和云端均支持在 AEC 工作流中增加實時協(xié)作功能，將支持 Autodest REVIT、Trimble SketchUP 和 McNeel Rhino 等主流 AEC 應(yīng)用。NVIDIA Omniverse 是一個面向 3D 制作流程的協(xié)作平臺，基于 Pixar 公司的 Universal Scene DescripTIon 技術(shù)，并由 NVIDIA RTX 提供支持。

推薦系統(tǒng) AI：AI 技術(shù)如今在數(shù)據(jù)分析和挖掘、高性能計算中發(fā)揮著更加重要的作用，英偉達(dá)已經(jīng)推出了面向訓(xùn)練、云端、終端、自動駕駛的 AI 平臺。AI 對于擁有大量數(shù)據(jù)的科技公司尤為重要，比如推薦系統(tǒng)，如果沒有推薦系統(tǒng)，人們無法從上萬億次網(wǎng)頁檢索、幾十億淘寶商品、幾十億抖音視頻、各種新聞中找到自己需要的內(nèi)容。因此，一個能夠深度理解每一個用戶，在正確時間給出正確的推薦的推薦系統(tǒng)極為關(guān)鍵。

百度和阿里巴巴的推薦系統(tǒng)都在使用英偉達(dá) AI 技術(shù)。

百度 AIBox 推薦系統(tǒng)采用英偉達(dá) AI，100 多個推薦模型被使用在百度的眾多應(yīng)用中。這個系統(tǒng)基于英偉達(dá) Telsa v100 GPU，利用這些 TB 級的數(shù)據(jù)集去創(chuàng)建一個模型、在 GPU 上訓(xùn)練這些數(shù)據(jù)，然后把它放到 GPU 的內(nèi)存當(dāng)中去訓(xùn)練這種 TB 級別的數(shù)據(jù)，GPU 訓(xùn)練成本只有 CPU 的十分之一，并且支持更大規(guī)模的模型訓(xùn)練。

阿里巴巴搭建的推薦系統(tǒng)采用了英偉達(dá)的 T4 GPU，推薦系統(tǒng)的吞吐量得到了大幅提升。面對每秒幾十億次的推薦請求，CPU 速度只有 3 QPS，英偉達(dá) GPU 則提升到了 780 QPS，提升百倍。（詳情請點擊下方鏈接：英偉達(dá)與阿里巴巴合作詳情）

NVIDIA Parabricks 基因組分析工具包：此外，英偉達(dá)還發(fā)布了基于 CUDA 加速的 NVIDIA Parabricks 基因組分析工具包，可與用于發(fā)現(xiàn)變異并能產(chǎn)生與行業(yè)標(biāo)準(zhǔn) GATK 最佳實踐流程一致的結(jié)果，實現(xiàn) 30-50 倍的加速。英偉達(dá)正在與華大基因合作，使用 CUDA 的生命科學(xué)超級計算機，以每天 60 個基因組的超大吞吐量改變著全基因組測序，同時還降低了成本。

會后媒體采訪環(huán)節(jié)，英偉達(dá)自主機器產(chǎn)品管理部門主管 Murali Gopalakrishna 及英偉達(dá)企業(yè)市場兼開發(fā)者計劃全球副總裁 Greg Estes 介紹了英偉達(dá)在自主機器和深度學(xué)習(xí)學(xué)院（DLI）方面的進(jìn)展。

針對英偉達(dá)自主機器平臺，Murali Gopalakrishna 介紹道：“英偉達(dá)自主機器平臺——NVIDIA Jetson 模塊可提供不同性能和價格水平的加速計算功能，以滿足多種自主應(yīng)用程序的需求。Jetson 系列包含 Jetson Nano 模塊、Jetson TX2 模塊、Jetson Xavier NX 模塊以及 Jetson AGX Xavier 模塊等產(chǎn)品。

從制造到建筑，從醫(yī)療到配送，NVIDIA Jetson 平臺均能提供無與倫比的性能、能效和易開發(fā)性。每個系統(tǒng)都是一個完備的模塊化系統(tǒng) （SOM），具備 CPU、GPU、PMIC、DRAM 和閃存，可節(jié)省開發(fā)時間和資金。Jetson 還具備可擴展性。只需選擇適合應(yīng)用場合的 SOM，即能夠以此為基礎(chǔ)構(gòu)建自定義系統(tǒng)，滿足特定的應(yīng)用需求?！?/p>

DLI 部分，Greg Estes 表示，DLI 提供 AI、加速計算和加速數(shù)據(jù)科學(xué)方面的應(yīng)用開發(fā)實踐培訓(xùn)，以期解決實際應(yīng)用方面的問題。基于云端 GPU 平臺，開發(fā)者、數(shù)據(jù)科學(xué)家、研究人員和院校師生可以獲取和豐富相關(guān)的實踐經(jīng)驗，并獲得全球開發(fā)者培訓(xùn)證書，為職業(yè)發(fā)展提供有力證明。所有課程可以長期、多次、反復(fù)學(xué)習(xí)和實驗。

個人學(xué)習(xí)可以從“在線自主培訓(xùn)”開始。團(tuán)體或企業(yè)培訓(xùn)可以從“講師指導(dǎo)的培訓(xùn)班”開始學(xué)習(xí)。DLI 同時為大學(xué)師生提供更多的培訓(xùn)資源和支持。

寫在最后

可以看到，英偉達(dá)在本屆活動上大秀 AI、汽車、游戲、HPC 能力，同時宣布多個領(lǐng)域的朋友圈等生態(tài)進(jìn)展。

作為迄今 AI 深度學(xué)習(xí)紅利的最大受益者，英偉達(dá)以高性能的軟硬件和系統(tǒng)為基礎(chǔ)，持續(xù)豐富其 AI 和自動駕駛生態(tài)，不斷尋找核心場景加速落地。

在“AI 復(fù)興”時代，英偉達(dá)在致力于成為“AI 引擎”的道路上馳騁著。