英偉達(dá)發(fā)布一款推理軟件助力實(shí)現(xiàn)會(huì)話式AI應(yīng)用

時(shí)間：2020-05-07 16:51:01

關(guān)鍵字： AI 英偉達(dá) 軟件 NVIDIA

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 英偉達(dá)發(fā)布了一款突破性的推理軟件，借助于這款軟件，全球各地的開發(fā)者都可以實(shí)現(xiàn)會(huì)話式AI應(yīng)用，大幅減少推理延遲。而此前，巨大的推理延遲一直都是實(shí)現(xiàn)真正交互式互動(dòng)的一大阻礙。 NV

英偉達(dá)發(fā)布了一款突破性的推理軟件，借助于這款軟件，全球各地的開發(fā)者都可以實(shí)現(xiàn)會(huì)話式AI應(yīng)用，大幅減少推理延遲。而此前，巨大的推理延遲一直都是實(shí)現(xiàn)真正交互式互動(dòng)的一大阻礙。

NVIDIA TensorRT 7作為NVIDIA第七代推理軟件開發(fā)套件，為實(shí)現(xiàn)更加智能的AI人機(jī)交互打開了新大門，從而能夠?qū)崿F(xiàn)與語音代理、聊天機(jī)器人和推薦引擎等應(yīng)用進(jìn)行實(shí)時(shí)互動(dòng)。

NVIDIA加速計(jì)算產(chǎn)品管理總監(jiān)Paresh Kharya、NVIDIA企業(yè)邊緣計(jì)算總經(jīng)理Justin Boitano、NVIDIA TensorRT產(chǎn)品市場負(fù)責(zé)人Siddarth Sharma接受媒體的采訪，對NVIDIA深度學(xué)習(xí)產(chǎn)品進(jìn)行了詳細(xì)解讀。

Paresh Kharya表示，會(huì)話式AI是一個(gè)非常復(fù)雜的任務(wù)，因?yàn)樗枰斫庹Z音、文本、語言并且還要把這些東西轉(zhuǎn)化為語言再次說回去。

“這里最關(guān)鍵的一個(gè)挑戰(zhàn)就是要想真正的實(shí)現(xiàn)會(huì)話式AI，我們需要在毫秒級(jí)的時(shí)間段來完成我剛剛提到的整個(gè)非常復(fù)雜的過程，因?yàn)橹挥羞@樣，會(huì)話式AI才會(huì)顯得比較自然。隨著TensorRT 7的發(fā)布，我們可以將這一系列的復(fù)雜模型進(jìn)行加速計(jì)算，這也是我們第一次真正的實(shí)現(xiàn)實(shí)時(shí)會(huì)話式AI，并且可以準(zhǔn)確的處理中間復(fù)雜的流程”。

對于如何看待深度學(xué)習(xí)當(dāng)中多種處理器的共存，Paresh Kharya提到，AI的變化速度是非?？斓?，甚至更新是以分鐘來計(jì)的，所以必須要在軟件端實(shí)現(xiàn)高度靈活的可編程。GPU是AI領(lǐng)域的專用芯片，它的指令集是非常有優(yōu)勢的，是全可編程，并且是軟件定義的。

另外，GPU架構(gòu)向前兼容，硬件更迭隨著軟件不斷更新適應(yīng)，且軟件庫內(nèi)就能進(jìn)行直接更新。無論是臺(tái)式機(jī)、筆記本、服務(wù)器，還是很大型的外設(shè)，在數(shù)據(jù)中心、邊緣或者是物聯(lián)網(wǎng)上，均可使用NVIDIA的平臺(tái)。

有些公司通過去掉GPU的圖形處理部分來提升AI算力和減少成本，Paresh Kharya認(rèn)為，NVIDIA在圖象處理方面本身基礎(chǔ)就比較好，比如說其RT Core能夠加速圖象處理，Tensor Core做AI加速計(jì)算。

以下為采訪實(shí)錄：

問：在推薦系統(tǒng)這一塊，一方面是面臨海量的數(shù)據(jù)，還有AI模型也在每天不完善更新，這個(gè)挑戰(zhàn)對于NVIDIA來說，算力和軟件哪一個(gè)是當(dāng)前更為重要的難題?

Paresh Kharya：這兩個(gè)其實(shí)也是相關(guān)聯(lián)的，您說的沒錯(cuò)，AI模型確實(shí)每天都在發(fā)生變化，甚至百度的模型可能隔幾分鐘就要發(fā)生變化。如果要是模型行之有效，必須要不斷訓(xùn)練模型并對模型進(jìn)行更新。

因?yàn)闊o論是你在網(wǎng)上的信息包括產(chǎn)品信息、視頻信息等等都在不斷發(fā)生變化，整個(gè)推理過程也在不斷變化，只有不斷對這些模型進(jìn)行訓(xùn)練，才可以進(jìn)行有效的推薦。

所以訓(xùn)練模型確實(shí)需要大量算力，這也是NVIDIA解決方案能夠解決的問題，現(xiàn)在已經(jīng)不是跑在一個(gè)服務(wù)器上了，而是需要多個(gè)服務(wù)器來同時(shí)解決同一個(gè)問題，去訓(xùn)練這些大量的模型。

因?yàn)檫@些模型其實(shí)越來越復(fù)雜，所以當(dāng)你部署這些模型的時(shí)候，在某些APP當(dāng)中做推理的話，這些模型的規(guī)模是非常大的，它也確實(shí)需要大量的算力才能讓這些模型真正的跑起來。

所以，我們也是提供了不斷更新的各種各樣工具和軟件，比如說用我們最新的軟件Tensor RT來支持各種各樣的模型在各種情景下的部署，并且支持上百萬的用戶在每秒內(nèi)做數(shù)十億的搜索。

如果說想大規(guī)模的讓這些模型跑起來，沒有我們的GPU是非常困難的。比如說還是以阿里為例，他們的邊緣系統(tǒng)如果說在GPU上跑，每秒可以做780次查詢，但是如果說用CPU，每秒只能做3次查詢。

問：您如何看待深度學(xué)習(xí)當(dāng)中多種處理器的共存，因?yàn)樵诩铀龠@一塊有FPGA，但是FPGA開發(fā)周期也在不斷縮短，它也是可編程的，另外還有其他的一些處理器，比如說TPU、NPU等等，GPU在未來場景的下其優(yōu)勢是什么?

Paresh Kharya：FPGA從設(shè)計(jì)的時(shí)候就是為模擬而用的，但是如果說這個(gè)東西是專門為模擬而用的，你反過來想，在真正實(shí)際應(yīng)用過程當(dāng)中，它的表現(xiàn)反而可能沒有那么好。

實(shí)際上首先做好一個(gè)FPGA，整個(gè)編程的時(shí)間就要幾個(gè)月，然后還要做再編程，而且還在硬件層面對它進(jìn)行編程。現(xiàn)在AI就是我們之前討論過的，變化速度是非常快的，甚至更新是以分鐘來計(jì)的，所以必須要在軟件端實(shí)現(xiàn)高度靈活的可編程。

GPU是AI領(lǐng)域的專用芯片，他的指令集是非常有優(yōu)勢的，是全可編程，并且是軟件定義的。

另外一個(gè)優(yōu)勢，我們的架構(gòu)是向前兼容的，當(dāng)你使用了一個(gè)編程框架之后，在未來如果說你使用新的硬件，可以幫助你縮短整個(gè)開發(fā)周期，也就是說整個(gè)硬件是可以隨著軟件不斷更新適應(yīng)的，而且在軟件庫里就可以進(jìn)行直接更新。

而且我們的平臺(tái)在使用上是幾乎可以在任何設(shè)備上使用的，無論是臺(tái)式機(jī)、筆記本、服務(wù)器，還是很大型的外設(shè)，在數(shù)據(jù)中心、邊緣或者是物聯(lián)網(wǎng)上都可以使用。

問：我們看到今天宣布了對ARM架構(gòu)的支持，NVIDIA這方面的考慮是什么?今天上午的演講當(dāng)中，更多強(qiáng)調(diào)軟件的作用，NVIDIA在提升加速計(jì)算性能表現(xiàn)方面做了哪些工作?

Paresh Kharya：首先ARM本身就是一個(gè)非常重要的，并且被廣為使用的架構(gòu)。在全球范圍內(nèi)，共有1500億臺(tái)設(shè)備是基于ARM架構(gòu)的。之所以ARM架構(gòu)如此成功，就是因?yàn)樗且粋€(gè)開放平臺(tái)，各種各樣的公司都可以在ARM架構(gòu)上進(jìn)行他們想要的創(chuàng)新。

所以ARM所提供的各種各樣的功能，包括互聯(lián)、內(nèi)存、CPU內(nèi)核、計(jì)算能力，包括多元化的支持，都使得ARM成為了現(xiàn)如今世界上非常重要的架構(gòu)之一的重要原因。

這也給了客戶更多選擇，無論在數(shù)據(jù)中心還是在邊緣設(shè)備上都可以選擇ARM架構(gòu)，這也是我們?yōu)槭裁催x擇兼容ARM做加速計(jì)算。我們通過將CUDA平臺(tái)和ARM架構(gòu)進(jìn)行兼容，在整個(gè)加速計(jì)算領(lǐng)域，無論是AI、高性能計(jì)算還是我們進(jìn)入的所有的領(lǐng)域都可以給到客戶更多選擇。

因?yàn)榧铀儆?jì)算和過去以CPU為基礎(chǔ)的計(jì)算是非常不一樣的，它使得高性能計(jì)算達(dá)到更高的提升，這種性能提升是20、30甚至是100倍的，之所以有這么大的性能提升，不僅是在架構(gòu)上進(jìn)行了設(shè)計(jì)，更重要的是我們通過軟件的方式使得性能進(jìn)一步提升。

比如說我們有各種各樣的平臺(tái)，像應(yīng)用在醫(yī)療領(lǐng)域的Clara平臺(tái)，應(yīng)用在自動(dòng)駕駛領(lǐng)域的Drive以及Isaac，所以是硬件和軟件的相互結(jié)合讓計(jì)算性能得以大幅度提升。

包括黃仁勛在演講當(dāng)中也提到，我們僅僅通過軟件就使我們AI計(jì)算性能在兩年之間提升了4倍，所以軟件對加速計(jì)算的性能提升是非常重要的，未來我們會(huì)繼續(xù)在我們各個(gè)平臺(tái)上對軟件進(jìn)行完善以提升性能。

Justin Boitano：我補(bǔ)充一下關(guān)于軟件定義的事情，我們在全世界范圍內(nèi)和很多電信公司合作，電信公司正在建設(shè)5G，在邊緣計(jì)算方面投入了很多資源，然首先要加速5G信號(hào)處理，除了5G信號(hào)處理他們也希望利用同樣的技術(shù)架構(gòu)加速他們自己的AI、游戲或者是VR應(yīng)用，所以整個(gè)工作負(fù)載都是發(fā)生了一些變化的，取決于接入網(wǎng)絡(luò)的設(shè)備和用戶發(fā)生了很多變化。

Paresh Kharya：因?yàn)樽罱K客戶最在乎的，是他們能不能用各種各樣的計(jì)算平臺(tái)來幫助他們降低成本，處理各種各樣的工作負(fù)載。

而且，非常重要的一點(diǎn)就是，不僅可以在今天利用這些硬件處理這些工作負(fù)載，并且在未來也能夠持續(xù)，要實(shí)現(xiàn)這一點(diǎn)，軟件定義平臺(tái)就非常重要了。

問：我想問一個(gè)有關(guān)TensorRT的問題，上一個(gè)版本的TensorRT 6是在3個(gè)月前發(fā)布的，在這么短的時(shí)間內(nèi)就發(fā)布TensorRT 7是出于什么樣的考慮?Tensor RT整個(gè)研發(fā)升級(jí)的路線是怎么樣的?

Siddarth Sharma：實(shí)際上這一點(diǎn)涉及到會(huì)話式AI的問題，我們做會(huì)話式AI的加速方面已經(jīng)有好幾個(gè)月的時(shí)間了，其實(shí)最開始的第一個(gè)版本只涵蓋了會(huì)話式AI當(dāng)中的一部分，也就是語言理解的部分。

整個(gè)過程是需要三個(gè)部分的，第一個(gè)是語音識(shí)別的部分，識(shí)別你所說的，你要識(shí)別所說的話轉(zhuǎn)化為文字，然后要理解這些文字，然后再轉(zhuǎn)化成的文字轉(zhuǎn)化成語言再說出來。

隨著我們不斷發(fā)布新的版本，TensorRT 7基本上可以完成整個(gè)三個(gè)流程計(jì)算。從語音識(shí)別到語義理解再到語音輸出。會(huì)話式AI是非常難的領(lǐng)域，要想把會(huì)話式AI做得比較有用，你要符合兩個(gè)條件，首先是要在300毫秒內(nèi)將整個(gè)三個(gè)部分完成，而且要完成的非常智能。

在這個(gè)過程當(dāng)中，有非常多復(fù)雜的模型需要計(jì)算，所以我們Tensor RT也是在不完善，現(xiàn)在可以覆蓋整個(gè)流程。

問：第一個(gè)問題，我聽到有一種說法，硬件每提升一倍性能，軟件可以帶來幾倍甚至是幾十倍的提升，NVIDIA的GPU是否也有這樣的提升，有沒有相關(guān)的數(shù)據(jù)?

Paresh Kharya：其實(shí)在加速計(jì)算平臺(tái)當(dāng)中，首先要做好硬件架構(gòu)，在硬件架構(gòu)基礎(chǔ)之上開發(fā)相應(yīng)的現(xiàn)在軟件來利用這個(gè)硬件平臺(tái)，有了軟件再去開發(fā)各種各樣的應(yīng)用。

舉一個(gè)例子，現(xiàn)在我們的GPU光線追蹤的技術(shù)，在最新的GPU平臺(tái)上，它可以帶來50倍以上的性能提升。在硬件性能提升基礎(chǔ)上，我們開發(fā)軟件去利用硬件帶來的更優(yōu)越的性能，讓做渲染的開發(fā)者可以更好利用硬件加上軟件的性能提升。

問：今天還提到推薦的案例，相比CPU來說提升的性能非常多，在新的應(yīng)用領(lǐng)域是否依賴于我們的軟件平臺(tái)優(yōu)化才可以實(shí)現(xiàn)相對CPU性能更大的提升?

Paresh Kharya：這么來說，站在開發(fā)者的角度來說，如果說是那些做AI開發(fā)的開發(fā)者，他們會(huì)用各種各樣的AI開發(fā)框架，比如TensorFlow，我們其實(shí)主要做的是盡可能的做更多的軟件庫整合到TensorFlow當(dāng)中。

這樣，這些開發(fā)者在做開發(fā)的時(shí)候就可以充分利用這些庫來基于各種各樣的平臺(tái)，包括GPU去做開發(fā)，這樣開發(fā)者就不用再去擔(dān)心自己要去寫很多底層的東西，這樣他們會(huì)直接利用我們寫出來的庫或者是新的功能直接去開發(fā)他們想要的東西，并且之后可以在任何的硬件平臺(tái)上進(jìn)行使用。

問：NVIDIA能滿足多用戶函數(shù)做深度學(xué)習(xí)的條件，所以它在深度學(xué)習(xí)的硬件平臺(tái)選擇上還是很占優(yōu)勢的，我們注意到Tesla V100升級(jí)的時(shí)候，有很多深度學(xué)習(xí)的模型主動(dòng)做出了一些調(diào)整來發(fā)揮NVIDIA硬件的優(yōu)勢。

但是我隨便列了一下深度學(xué)習(xí)模型的主要類型，我們可以列出20個(gè)以上，對它的支持其實(shí)是很復(fù)雜的工程，我們想了解一下，對于主流深度學(xué)習(xí)模型的支持，我們是被動(dòng)的，還是說我們在硬件進(jìn)入更新之前和他們就做溝通然后共同做出調(diào)整?

Paresh Kharya：實(shí)際上現(xiàn)在在市面上你如果去看的話可能有成百上千各種各樣的深度學(xué)習(xí)模型，基本上每一個(gè)用戶用例，包括每個(gè)客戶旗下都有自己的模型，他們用自己的數(shù)據(jù)來做訓(xùn)練，所以整個(gè)深度學(xué)習(xí)模型是高度多元化的，這也是為什么我們在做硬件的時(shí)候要做成可編程程度非常高的，這樣才可以促進(jìn)加速計(jì)算在這個(gè)領(lǐng)域的應(yīng)用。

我們在做硬件設(shè)計(jì)的時(shí)候，也考慮了深度學(xué)習(xí)過程當(dāng)中可能會(huì)出現(xiàn)一些共性的東西來做改善，包括從Tensor Core支持多元化的深度學(xué)習(xí)模型。

今天上午講了很多軟件，我們一直在不斷更新完善我們的軟件堆棧，比如說我們也是很快推出了Tensor RT新的版本，能夠進(jìn)一步提升推理的速度。

當(dāng)然有一些客戶他們也希望提供一些現(xiàn)成的深度學(xué)習(xí)模型供他們使用，我們也有一些預(yù)訓(xùn)練好的模型供客戶直接部署，或者他們通過轉(zhuǎn)移學(xué)習(xí)的方式定制化自己想要的模型。我們也在不斷更新和提供各種各樣的堆棧讓用戶去創(chuàng)建訓(xùn)練和優(yōu)化自己的模型。

Siddarth Sharma：補(bǔ)充一點(diǎn)，我們其實(shí)也是和開發(fā)者保持非常緊密的溝通和合作，比如說TensorFlow等，以保證這些開發(fā)框架和我們硬件緊密兼容，與此同時(shí)我們在各種軟件功能和庫上做溝通，以保證一些外部開發(fā)者可以充分利用這些東西。所以我們在內(nèi)部也有一個(gè)很大的團(tuán)隊(duì)去做主動(dòng)溝通。

問：剛剛提到與ARM的合作，在數(shù)據(jù)中心、邊緣計(jì)算給客戶以更多選擇，我們知道ARM架構(gòu)在邊緣計(jì)算方面更有優(yōu)勢，市占率更高，未來在邊緣計(jì)算會(huì)有更多設(shè)備，甚至是AI服務(wù)器，是不是我們也看到了前景很大的市場是合作的主因?

Justin Boitano：有關(guān)邊緣計(jì)算，因?yàn)镹VIDIA是有ARM架構(gòu)許可的，所以我們開發(fā)很多產(chǎn)品都是基于ARM架構(gòu)的，包括今天介紹的用于汽車平臺(tái)的產(chǎn)品，所以我們有很ARM架構(gòu)的硬件。關(guān)于邊緣計(jì)算的需求，我們看到很多客戶想用ARM的架構(gòu)，最主要的是因?yàn)樗幸恍┑凸牡膽?yīng)用，并且應(yīng)用起來也比較靈活，包括應(yīng)用在倉庫里或者是路邊的一些設(shè)備應(yīng)用ARM架構(gòu)會(huì)比較好。

問：怎么看待現(xiàn)在一些企業(yè)去砍掉GPU當(dāng)中的圖形處理部分，去做純AI加速的通用GPU，以這樣的一種方式去達(dá)到更快的AI加速能力更低的成本?

Paresh Kharya：NVIDIA在圖象處理方面本身基礎(chǔ)就比較好，比如說我們的RT Core能夠加速圖象處理，Tensor Core做AI加速計(jì)算。我們業(yè)提供了各種各樣的產(chǎn)品來滿足客戶各種各樣的需求，比如說應(yīng)用于數(shù)據(jù)中心的GPU沒有圖像處理的部分，但是它有Tensor Core能夠做AI加速計(jì)算。

像我們一些新的產(chǎn)品比如說RTX6000、RTX8000，圖像加速和AI加速的功能都是有的。我們比較大的優(yōu)勢是我們有統(tǒng)一的架構(gòu)可以應(yīng)用于各種工作負(fù)載當(dāng)中來實(shí)現(xiàn)加速計(jì)算。這對我們來說都是各種各樣的商業(yè)機(jī)會(huì)，可以應(yīng)用在不同市場和行業(yè)當(dāng)中。

像游戲、圖像是一個(gè)很大的業(yè)務(wù)，高性能計(jì)算和AI對我們來說都是比較大的業(yè)務(wù)板塊。所以各個(gè)業(yè)務(wù)板塊我們都可以有很好的營收，這樣我們可以進(jìn)一步投入到我們的統(tǒng)一架構(gòu)平臺(tái)的研發(fā)當(dāng)中。

問：今天上午談到了NVIDIA AI和云計(jì)算廠商的合作，能不能詳細(xì)介紹一下NVIDIA和國外的云計(jì)算公司以及國內(nèi)的云廠商合作的情況和進(jìn)展?

Paresh Kharya：云計(jì)算是一個(gè)非常重要的計(jì)算方式，并且增長勢頭也是非常迅猛的。

我們的計(jì)算平臺(tái)幾乎和全球所有的云服務(wù)提供者都有合作，比如說AWS、Azure、谷歌云，包括中國的百度、滴滴、阿里的云平臺(tái)，我們和各個(gè)云供應(yīng)商都保持了非常緊密的合作，我們在開發(fā)下一代產(chǎn)品時(shí)都會(huì)保證到無論是開發(fā)者還是客戶都用到我們的產(chǎn)品。