英偉達(dá)發(fā)布一款推理軟件 助力實(shí)現(xiàn)會(huì)話(huà)式AI應(yīng)用
英偉達(dá)發(fā)布了一款突破性的推理軟件,借助于這款軟件,全球各地的開(kāi)發(fā)者都可以實(shí)現(xiàn)會(huì)話(huà)式AI應(yīng)用,大幅減少推理延遲。而此前,巨大的推理延遲一直都是實(shí)現(xiàn)真正交互式互動(dòng)的一大阻礙。
NVIDIA TensorRT 7作為NVIDIA第七代推理軟件開(kāi)發(fā)套件,為實(shí)現(xiàn)更加智能的AI人機(jī)交互打開(kāi)了新大門(mén),從而能夠?qū)崿F(xiàn)與語(yǔ)音代理、聊天機(jī)器人和推薦引擎等應(yīng)用進(jìn)行實(shí)時(shí)互動(dòng)。
NVIDIA加速計(jì)算產(chǎn)品管理總監(jiān)Paresh Kharya、NVIDIA企業(yè)邊緣計(jì)算總經(jīng)理Justin Boitano、NVIDIA TensorRT產(chǎn)品市場(chǎng)負(fù)責(zé)人Siddarth Sharma接受媒體的采訪,對(duì)NVIDIA深度學(xué)習(xí)產(chǎn)品進(jìn)行了詳細(xì)解讀。
Paresh Kharya表示,會(huì)話(huà)式AI是一個(gè)非常復(fù)雜的任務(wù),因?yàn)樗枰斫庹Z(yǔ)音、文本、語(yǔ)言并且還要把這些東西轉(zhuǎn)化為語(yǔ)言再次說(shuō)回去。
“這里最關(guān)鍵的一個(gè)挑戰(zhàn)就是要想真正的實(shí)現(xiàn)會(huì)話(huà)式AI,我們需要在毫秒級(jí)的時(shí)間段來(lái)完成我剛剛提到的整個(gè)非常復(fù)雜的過(guò)程,因?yàn)橹挥羞@樣,會(huì)話(huà)式AI才會(huì)顯得比較自然。隨著TensorRT 7的發(fā)布,我們可以將這一系列的復(fù)雜模型進(jìn)行加速計(jì)算,這也是我們第一次真正的實(shí)現(xiàn)實(shí)時(shí)會(huì)話(huà)式AI,并且可以準(zhǔn)確的處理中間復(fù)雜的流程”。
對(duì)于如何看待深度學(xué)習(xí)當(dāng)中多種處理器的共存,Paresh Kharya提到,AI的變化速度是非??斓模踔粮率且苑昼妬?lái)計(jì)的,所以必須要在軟件端實(shí)現(xiàn)高度靈活的可編程。GPU是AI領(lǐng)域的專(zhuān)用芯片,它的指令集是非常有優(yōu)勢(shì)的,是全可編程,并且是軟件定義的。
另外,GPU架構(gòu)向前兼容,硬件更迭隨著軟件不斷更新適應(yīng),且軟件庫(kù)內(nèi)就能進(jìn)行直接更新。無(wú)論是臺(tái)式機(jī)、筆記本、服務(wù)器,還是很大型的外設(shè),在數(shù)據(jù)中心、邊緣或者是物聯(lián)網(wǎng)上,均可使用NVIDIA的平臺(tái)。
有些公司通過(guò)去掉GPU的圖形處理部分來(lái)提升AI算力和減少成本,Paresh Kharya認(rèn)為,NVIDIA在圖象處理方面本身基礎(chǔ)就比較好,比如說(shuō)其RT Core能夠加速圖象處理,Tensor Core做AI加速計(jì)算。
以下為采訪實(shí)錄:
問(wèn):在推薦系統(tǒng)這一塊,一方面是面臨海量的數(shù)據(jù),還有AI模型也在每天不完善更新,這個(gè)挑戰(zhàn)對(duì)于NVIDIA來(lái)說(shuō),算力和軟件哪一個(gè)是當(dāng)前更為重要的難題?
Paresh Kharya:這兩個(gè)其實(shí)也是相關(guān)聯(lián)的,您說(shuō)的沒(méi)錯(cuò),AI模型確實(shí)每天都在發(fā)生變化,甚至百度的模型可能隔幾分鐘就要發(fā)生變化。如果要是模型行之有效,必須要不斷訓(xùn)練模型并對(duì)模型進(jìn)行更新。
因?yàn)闊o(wú)論是你在網(wǎng)上的信息包括產(chǎn)品信息、視頻信息等等都在不斷發(fā)生變化,整個(gè)推理過(guò)程也在不斷變化,只有不斷對(duì)這些模型進(jìn)行訓(xùn)練,才可以進(jìn)行有效的推薦。
所以訓(xùn)練模型確實(shí)需要大量算力,這也是NVIDIA解決方案能夠解決的問(wèn)題,現(xiàn)在已經(jīng)不是跑在一個(gè)服務(wù)器上了,而是需要多個(gè)服務(wù)器來(lái)同時(shí)解決同一個(gè)問(wèn)題,去訓(xùn)練這些大量的模型。
因?yàn)檫@些模型其實(shí)越來(lái)越復(fù)雜,所以當(dāng)你部署這些模型的時(shí)候,在某些APP當(dāng)中做推理的話(huà),這些模型的規(guī)模是非常大的,它也確實(shí)需要大量的算力才能讓這些模型真正的跑起來(lái)。
所以,我們也是提供了不斷更新的各種各樣工具和軟件,比如說(shuō)用我們最新的軟件Tensor RT來(lái)支持各種各樣的模型在各種情景下的部署,并且支持上百萬(wàn)的用戶(hù)在每秒內(nèi)做數(shù)十億的搜索。
如果說(shuō)想大規(guī)模的讓這些模型跑起來(lái),沒(méi)有我們的GPU是非常困難的。比如說(shuō)還是以阿里為例,他們的邊緣系統(tǒng)如果說(shuō)在GPU上跑,每秒可以做780次查詢(xún),但是如果說(shuō)用CPU,每秒只能做3次查詢(xún)。
問(wèn):您如何看待深度學(xué)習(xí)當(dāng)中多種處理器的共存,因?yàn)樵诩铀龠@一塊有FPGA,但是FPGA開(kāi)發(fā)周期也在不斷縮短,它也是可編程的,另外還有其他的一些處理器,比如說(shuō)TPU、NPU等等,GPU在未來(lái)場(chǎng)景的下其優(yōu)勢(shì)是什么?
Paresh Kharya:FPGA從設(shè)計(jì)的時(shí)候就是為模擬而用的,但是如果說(shuō)這個(gè)東西是專(zhuān)門(mén)為模擬而用的,你反過(guò)來(lái)想,在真正實(shí)際應(yīng)用過(guò)程當(dāng)中,它的表現(xiàn)反而可能沒(méi)有那么好。
實(shí)際上首先做好一個(gè)FPGA,整個(gè)編程的時(shí)間就要幾個(gè)月,然后還要做再編程,而且還在硬件層面對(duì)它進(jìn)行編程?,F(xiàn)在AI就是我們之前討論過(guò)的,變化速度是非??斓模踔粮率且苑昼妬?lái)計(jì)的,所以必須要在軟件端實(shí)現(xiàn)高度靈活的可編程。
GPU是AI領(lǐng)域的專(zhuān)用芯片,他的指令集是非常有優(yōu)勢(shì)的,是全可編程,并且是軟件定義的。
另外一個(gè)優(yōu)勢(shì),我們的架構(gòu)是向前兼容的,當(dāng)你使用了一個(gè)編程框架之后,在未來(lái)如果說(shuō)你使用新的硬件,可以幫助你縮短整個(gè)開(kāi)發(fā)周期,也就是說(shuō)整個(gè)硬件是可以隨著軟件不斷更新適應(yīng)的,而且在軟件庫(kù)里就可以進(jìn)行直接更新。
而且我們的平臺(tái)在使用上是幾乎可以在任何設(shè)備上使用的,無(wú)論是臺(tái)式機(jī)、筆記本、服務(wù)器,還是很大型的外設(shè),在數(shù)據(jù)中心、邊緣或者是物聯(lián)網(wǎng)上都可以使用。
問(wèn):我們看到今天宣布了對(duì)ARM架構(gòu)的支持,NVIDIA這方面的考慮是什么?今天上午的演講當(dāng)中,更多強(qiáng)調(diào)軟件的作用,NVIDIA在提升加速計(jì)算性能表現(xiàn)方面做了哪些工作?
Paresh Kharya:首先ARM本身就是一個(gè)非常重要的,并且被廣為使用的架構(gòu)。在全球范圍內(nèi),共有1500億臺(tái)設(shè)備是基于ARM架構(gòu)的。之所以ARM架構(gòu)如此成功,就是因?yàn)樗且粋€(gè)開(kāi)放平臺(tái),各種各樣的公司都可以在ARM架構(gòu)上進(jìn)行他們想要的創(chuàng)新。
所以ARM所提供的各種各樣的功能,包括互聯(lián)、內(nèi)存、CPU內(nèi)核、計(jì)算能力,包括多元化的支持,都使得ARM成為了現(xiàn)如今世界上非常重要的架構(gòu)之一的重要原因。
這也給了客戶(hù)更多選擇,無(wú)論在數(shù)據(jù)中心還是在邊緣設(shè)備上都可以選擇ARM架構(gòu),這也是我們?yōu)槭裁催x擇兼容ARM做加速計(jì)算。我們通過(guò)將CUDA平臺(tái)和ARM架構(gòu)進(jìn)行兼容,在整個(gè)加速計(jì)算領(lǐng)域,無(wú)論是AI、高性能計(jì)算還是我們進(jìn)入的所有的領(lǐng)域都可以給到客戶(hù)更多選擇。
因?yàn)榧铀儆?jì)算和過(guò)去以CPU為基礎(chǔ)的計(jì)算是非常不一樣的,它使得高性能計(jì)算達(dá)到更高的提升,這種性能提升是20、30甚至是100倍的,之所以有這么大的性能提升,不僅是在架構(gòu)上進(jìn)行了設(shè)計(jì),更重要的是我們通過(guò)軟件的方式使得性能進(jìn)一步提升。
比如說(shuō)我們有各種各樣的平臺(tái),像應(yīng)用在醫(yī)療領(lǐng)域的Clara平臺(tái),應(yīng)用在自動(dòng)駕駛領(lǐng)域的Drive以及Isaac,所以是硬件和軟件的相互結(jié)合讓計(jì)算性能得以大幅度提升。
包括黃仁勛在演講當(dāng)中也提到,我們僅僅通過(guò)軟件就使我們AI計(jì)算性能在兩年之間提升了4倍,所以軟件對(duì)加速計(jì)算的性能提升是非常重要的,未來(lái)我們會(huì)繼續(xù)在我們各個(gè)平臺(tái)上對(duì)軟件進(jìn)行完善以提升性能。
Justin Boitano:我補(bǔ)充一下關(guān)于軟件定義的事情,我們?cè)谌澜绶秶鷥?nèi)和很多電信公司合作,電信公司正在建設(shè)5G,在邊緣計(jì)算方面投入了很多資源,然首先要加速5G信號(hào)處理,除了5G信號(hào)處理他們也希望利用同樣的技術(shù)架構(gòu)加速他們自己的AI、游戲或者是VR應(yīng)用,所以整個(gè)工作負(fù)載都是發(fā)生了一些變化的,取決于接入網(wǎng)絡(luò)的設(shè)備和用戶(hù)發(fā)生了很多變化。
Paresh Kharya:因?yàn)樽罱K客戶(hù)最在乎的,是他們能不能用各種各樣的計(jì)算平臺(tái)來(lái)幫助他們降低成本,處理各種各樣的工作負(fù)載。
而且,非常重要的一點(diǎn)就是,不僅可以在今天利用這些硬件處理這些工作負(fù)載,并且在未來(lái)也能夠持續(xù),要實(shí)現(xiàn)這一點(diǎn),軟件定義平臺(tái)就非常重要了。
問(wèn):我想問(wèn)一個(gè)有關(guān)TensorRT的問(wèn)題,上一個(gè)版本的TensorRT 6是在3個(gè)月前發(fā)布的,在這么短的時(shí)間內(nèi)就發(fā)布TensorRT 7是出于什么樣的考慮?Tensor RT整個(gè)研發(fā)升級(jí)的路線(xiàn)是怎么樣的?
Siddarth Sharma:實(shí)際上這一點(diǎn)涉及到會(huì)話(huà)式AI的問(wèn)題,我們做會(huì)話(huà)式AI的加速方面已經(jīng)有好幾個(gè)月的時(shí)間了,其實(shí)最開(kāi)始的第一個(gè)版本只涵蓋了會(huì)話(huà)式AI當(dāng)中的一部分,也就是語(yǔ)言理解的部分。
整個(gè)過(guò)程是需要三個(gè)部分的,第一個(gè)是語(yǔ)音識(shí)別的部分,識(shí)別你所說(shuō)的,你要識(shí)別所說(shuō)的話(huà)轉(zhuǎn)化為文字,然后要理解這些文字,然后再轉(zhuǎn)化成的文字轉(zhuǎn)化成語(yǔ)言再說(shuō)出來(lái)。
隨著我們不斷發(fā)布新的版本,TensorRT 7基本上可以完成整個(gè)三個(gè)流程計(jì)算。從語(yǔ)音識(shí)別到語(yǔ)義理解再到語(yǔ)音輸出。會(huì)話(huà)式AI是非常難的領(lǐng)域,要想把會(huì)話(huà)式AI做得比較有用,你要符合兩個(gè)條件,首先是要在300毫秒內(nèi)將整個(gè)三個(gè)部分完成,而且要完成的非常智能。
在這個(gè)過(guò)程當(dāng)中,有非常多復(fù)雜的模型需要計(jì)算,所以我們Tensor RT也是在不完善,現(xiàn)在可以覆蓋整個(gè)流程。
問(wèn):第一個(gè)問(wèn)題,我聽(tīng)到有一種說(shuō)法,硬件每提升一倍性能,軟件可以帶來(lái)幾倍甚至是幾十倍的提升,NVIDIA的GPU是否也有這樣的提升,有沒(méi)有相關(guān)的數(shù)據(jù)?
Paresh Kharya:其實(shí)在加速計(jì)算平臺(tái)當(dāng)中,首先要做好硬件架構(gòu),在硬件架構(gòu)基礎(chǔ)之上開(kāi)發(fā)相應(yīng)的現(xiàn)在軟件來(lái)利用這個(gè)硬件平臺(tái),有了軟件再去開(kāi)發(fā)各種各樣的應(yīng)用。
舉一個(gè)例子,現(xiàn)在我們的GPU光線(xiàn)追蹤的技術(shù),在最新的GPU平臺(tái)上,它可以帶來(lái)50倍以上的性能提升。在硬件性能提升基礎(chǔ)上,我們開(kāi)發(fā)軟件去利用硬件帶來(lái)的更優(yōu)越的性能,讓做渲染的開(kāi)發(fā)者可以更好利用硬件加上軟件的性能提升。
問(wèn):今天還提到推薦的案例,相比CPU來(lái)說(shuō)提升的性能非常多,在新的應(yīng)用領(lǐng)域是否依賴(lài)于我們的軟件平臺(tái)優(yōu)化才可以實(shí)現(xiàn)相對(duì)CPU性能更大的提升?
Paresh Kharya:這么來(lái)說(shuō),站在開(kāi)發(fā)者的角度來(lái)說(shuō),如果說(shuō)是那些做AI開(kāi)發(fā)的開(kāi)發(fā)者,他們會(huì)用各種各樣的AI開(kāi)發(fā)框架,比如TensorFlow,我們其實(shí)主要做的是盡可能的做更多的軟件庫(kù)整合到TensorFlow當(dāng)中。
這樣,這些開(kāi)發(fā)者在做開(kāi)發(fā)的時(shí)候就可以充分利用這些庫(kù)來(lái)基于各種各樣的平臺(tái),包括GPU去做開(kāi)發(fā),這樣開(kāi)發(fā)者就不用再去擔(dān)心自己要去寫(xiě)很多底層的東西,這樣他們會(huì)直接利用我們寫(xiě)出來(lái)的庫(kù)或者是新的功能直接去開(kāi)發(fā)他們想要的東西,并且之后可以在任何的硬件平臺(tái)上進(jìn)行使用。
問(wèn):NVIDIA能滿(mǎn)足多用戶(hù)函數(shù)做深度學(xué)習(xí)的條件,所以它在深度學(xué)習(xí)的硬件平臺(tái)選擇上還是很占優(yōu)勢(shì)的,我們注意到Tesla V100升級(jí)的時(shí)候,有很多深度學(xué)習(xí)的模型主動(dòng)做出了一些調(diào)整來(lái)發(fā)揮NVIDIA硬件的優(yōu)勢(shì)。
但是我隨便列了一下深度學(xué)習(xí)模型的主要類(lèi)型,我們可以列出20個(gè)以上,對(duì)它的支持其實(shí)是很復(fù)雜的工程,我們想了解一下,對(duì)于主流深度學(xué)習(xí)模型的支持,我們是被動(dòng)的,還是說(shuō)我們?cè)谟布M(jìn)入更新之前和他們就做溝通然后共同做出調(diào)整?
Paresh Kharya:實(shí)際上現(xiàn)在在市面上你如果去看的話(huà)可能有成百上千各種各樣的深度學(xué)習(xí)模型,基本上每一個(gè)用戶(hù)用例,包括每個(gè)客戶(hù)旗下都有自己的模型,他們用自己的數(shù)據(jù)來(lái)做訓(xùn)練,所以整個(gè)深度學(xué)習(xí)模型是高度多元化的,這也是為什么我們?cè)谧鲇布臅r(shí)候要做成可編程程度非常高的,這樣才可以促進(jìn)加速計(jì)算在這個(gè)領(lǐng)域的應(yīng)用。
我們?cè)谧鲇布O(shè)計(jì)的時(shí)候,也考慮了深度學(xué)習(xí)過(guò)程當(dāng)中可能會(huì)出現(xiàn)一些共性的東西來(lái)做改善,包括從Tensor Core支持多元化的深度學(xué)習(xí)模型。
今天上午講了很多軟件,我們一直在不斷更新完善我們的軟件堆棧,比如說(shuō)我們也是很快推出了Tensor RT新的版本,能夠進(jìn)一步提升推理的速度。
當(dāng)然有一些客戶(hù)他們也希望提供一些現(xiàn)成的深度學(xué)習(xí)模型供他們使用,我們也有一些預(yù)訓(xùn)練好的模型供客戶(hù)直接部署,或者他們通過(guò)轉(zhuǎn)移學(xué)習(xí)的方式定制化自己想要的模型。我們也在不斷更新和提供各種各樣的堆棧讓用戶(hù)去創(chuàng)建訓(xùn)練和優(yōu)化自己的模型。
Siddarth Sharma:補(bǔ)充一點(diǎn),我們其實(shí)也是和開(kāi)發(fā)者保持非常緊密的溝通和合作,比如說(shuō)TensorFlow等,以保證這些開(kāi)發(fā)框架和我們硬件緊密兼容,與此同時(shí)我們?cè)诟鞣N軟件功能和庫(kù)上做溝通,以保證一些外部開(kāi)發(fā)者可以充分利用這些東西。所以我們?cè)趦?nèi)部也有一個(gè)很大的團(tuán)隊(duì)去做主動(dòng)溝通。
問(wèn):剛剛提到與ARM的合作,在數(shù)據(jù)中心、邊緣計(jì)算給客戶(hù)以更多選擇,我們知道ARM架構(gòu)在邊緣計(jì)算方面更有優(yōu)勢(shì),市占率更高,未來(lái)在邊緣計(jì)算會(huì)有更多設(shè)備,甚至是AI服務(wù)器,是不是我們也看到了前景很大的市場(chǎng)是合作的主因?
Justin Boitano:有關(guān)邊緣計(jì)算,因?yàn)镹VIDIA是有ARM架構(gòu)許可的,所以我們開(kāi)發(fā)很多產(chǎn)品都是基于ARM架構(gòu)的,包括今天介紹的用于汽車(chē)平臺(tái)的產(chǎn)品,所以我們有很ARM架構(gòu)的硬件。關(guān)于邊緣計(jì)算的需求,我們看到很多客戶(hù)想用ARM的架構(gòu),最主要的是因?yàn)樗幸恍┑凸牡膽?yīng)用,并且應(yīng)用起來(lái)也比較靈活,包括應(yīng)用在倉(cāng)庫(kù)里或者是路邊的一些設(shè)備應(yīng)用ARM架構(gòu)會(huì)比較好。
問(wèn):怎么看待現(xiàn)在一些企業(yè)去砍掉GPU當(dāng)中的圖形處理部分,去做純AI加速的通用GPU,以這樣的一種方式去達(dá)到更快的AI加速能力更低的成本?
Paresh Kharya:NVIDIA在圖象處理方面本身基礎(chǔ)就比較好,比如說(shuō)我們的RT Core能夠加速圖象處理,Tensor Core做AI加速計(jì)算。我們業(yè)提供了各種各樣的產(chǎn)品來(lái)滿(mǎn)足客戶(hù)各種各樣的需求,比如說(shuō)應(yīng)用于數(shù)據(jù)中心的GPU沒(méi)有圖像處理的部分,但是它有Tensor Core能夠做AI加速計(jì)算。
像我們一些新的產(chǎn)品比如說(shuō)RTX6000、RTX8000,圖像加速和AI加速的功能都是有的。我們比較大的優(yōu)勢(shì)是我們有統(tǒng)一的架構(gòu)可以應(yīng)用于各種工作負(fù)載當(dāng)中來(lái)實(shí)現(xiàn)加速計(jì)算。這對(duì)我們來(lái)說(shuō)都是各種各樣的商業(yè)機(jī)會(huì),可以應(yīng)用在不同市場(chǎng)和行業(yè)當(dāng)中。
像游戲、圖像是一個(gè)很大的業(yè)務(wù),高性能計(jì)算和AI對(duì)我們來(lái)說(shuō)都是比較大的業(yè)務(wù)板塊。所以各個(gè)業(yè)務(wù)板塊我們都可以有很好的營(yíng)收,這樣我們可以進(jìn)一步投入到我們的統(tǒng)一架構(gòu)平臺(tái)的研發(fā)當(dāng)中。
問(wèn):今天上午談到了NVIDIA AI和云計(jì)算廠商的合作,能不能詳細(xì)介紹一下NVIDIA和國(guó)外的云計(jì)算公司以及國(guó)內(nèi)的云廠商合作的情況和進(jìn)展?
Paresh Kharya:云計(jì)算是一個(gè)非常重要的計(jì)算方式,并且增長(zhǎng)勢(shì)頭也是非常迅猛的。
我們的計(jì)算平臺(tái)幾乎和全球所有的云服務(wù)提供者都有合作,比如說(shuō)AWS、Azure、谷歌云,包括中國(guó)的百度、滴滴、阿里的云平臺(tái),我們和各個(gè)云供應(yīng)商都保持了非常緊密的合作,我們?cè)陂_(kāi)發(fā)下一代產(chǎn)品時(shí)都會(huì)保證到無(wú)論是開(kāi)發(fā)者還是客戶(hù)都用到我們的產(chǎn)品。