從AI熱潮中率先獲益的英偉達,其GPU參數(shù)和性能頻繁出現(xiàn)在不少AI芯片發(fā)布會的對比圖中。這是在缺乏AI芯片衡量的標準時,新的AI芯片證明自己實力的不錯方式。不過,聲稱性能超越英偉達GPU的創(chuàng)新AI芯片不少,但想要超越英偉達非常困難。
因為,超越英偉達最核心的并不是更高的硬件參數(shù)和更低的價格,13年和160萬這兩個數(shù)字才是關(guān)鍵。
13年前就“注定”成為AI明星
1993年成立不久后,英偉達就面臨激烈的顯卡市場競爭,幸運的是,它從47家顯卡生產(chǎn)商的競爭中勝出,并于1999年在美國上市。帶領(lǐng)英偉達走向成功的關(guān)鍵人物之一就是其創(chuàng)始人兼CEO黃仁勛,人稱黃教主。
為了讓英偉達拓展新的市場領(lǐng)域,多年來黃仁勛一直都會事先做好風險預估工作。十多年前,黃仁勛下了一次關(guān)鍵性的賭注,押注一系列的改動和軟件開發(fā),讓GPU能夠處理圖像以外更為復雜的任務(wù)。
此舉給英偉達帶來了不小的成本壓力。黃仁勛估計,名為CUDA(Compute Unified Device Architecture,統(tǒng)一計算架構(gòu))的項目每年需要花費5億美元,當時英偉達的總營收約為30億美元。
這個重大的決策和CUDA成功背后,還有一個關(guān)鍵人物—;—;現(xiàn)英偉達GPU 計算軟件總經(jīng)理的Ian Buck。他在加入英偉達之前就通過實驗證實GPU用于通用計算的潛力巨大,2004年進入英偉達實習后,Ian Buck開始聚集相關(guān)的硬件和軟件工程師創(chuàng)建GPGPU模型。
不久后,英偉達對其芯片作出改動,開發(fā)出軟件輔助工具,包括支持標準的編程語言,而非用于向圖形芯片發(fā)出指令的神秘工具。在Ian Buck的率領(lǐng)下,2006年CUDA正式推出,這是全球首款GPU的通用計算解決方案。
CUDA工具包包括了GPU加速庫、編譯器、開發(fā)工具。為了便于使用,英偉達讓使用CUDA的開發(fā)人員可以使用熟悉的C、C ++、Fortran、Python、MATLAB等流行語言設(shè)計程序,以幾個基本關(guān)鍵字的形式通過擴展表達并行性,就能用GPU實現(xiàn)加速計算。
隨著CUDA的迭代,CUDA團隊開發(fā)了石油、天然氣和國防等相關(guān)產(chǎn)業(yè)所使用的科學計算方面的庫。開發(fā)者們也逐漸把GPU應(yīng)用于氣候建模、勘探石油和天然氣等很多領(lǐng)域。
同樣關(guān)鍵的是,CUDA發(fā)布之后,英偉達所有新推出的GPU都支持CUDA。這就意味著只要研究人員、學生擁有搭載英偉達GPU的筆記本電腦或者臺式機,就能在學校實驗室和宿舍開發(fā)軟件。再加上英偉達說服了許多大學開設(shè)課程,教學生用其最新的技術(shù)。
這才有了大家都熟悉的2012年Alex Krizhevsky用英偉達GPU運行AlexNet卷積神經(jīng)網(wǎng)絡(luò)算法在2012年ImageNet競賽中獲得第一,圖像識別的錯誤率大大降低。
由此,深度神經(jīng)網(wǎng)絡(luò)引發(fā)了第三次AI浪潮,英偉達也一步步成為了“AI明星”。
2016年,英偉達投入數(shù)十億美元動用數(shù)千工程師打造的第一個專為深度學習優(yōu)化的Pascal GPU推出。2017年,又推出了性能比Pascal提升5倍的Volta架構(gòu),神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT 3也同時亮相。
2018年,黃仁勛口中自2006年CUDA GPU發(fā)明以來最大的飛躍圖靈(Turing)架構(gòu)發(fā)布,這一新架構(gòu)承載了RT核心(RT Core)以及全新張量核心(Tensor Core),RT Core使全球首款光線追蹤GPU成為可能,Tensor Core能實現(xiàn)高性能的深度學習訓練和推理。
英偉達承諾第8代圖靈架構(gòu)GPU模擬物理世界的能力將比Pascal架構(gòu)提升6倍,實時光線追蹤能力比Pascal架構(gòu)提升25倍。
AI的光環(huán)下,英偉達的股價比GPU性能的提升更加迅速,2016年每股30美元左右, 到2018年最高漲至每股280美元,創(chuàng)下歷史新高。
不過,相比硬件的加速,軟件帶來的提升更加顯著。黃仁勛稱,在不改變硬件的前提下,通過軟件和庫的完善,過去2年英偉達將計算性能提升4倍,AI推理性能可以提升2倍,所需的開發(fā)時間也可以幾周縮短為幾天,從幾天縮短為幾小時。
即便是新推出的硬件平臺Orin,也十分強調(diào)其軟件定義特性,盡可能延長硬件的生命周期以及發(fā)揮軟件的優(yōu)勢。
160萬開發(fā)者生態(tài)
英偉達開發(fā)者計劃副總裁Greg Estes說,“之所以英偉達在AI時代比其它公司跑的更快一些,主要的原因是十多年前做出的戰(zhàn)略性決定—;—;將CUDA開放給各個行業(yè)。任何一個英偉達GPU都可以使用相同的軟件堆棧?!?/p>
這意味著,英偉達生態(tài)系統(tǒng)中的合作伙伴都能接觸到一個巨大的市場,無論是做AI、游戲還是數(shù)據(jù)中心、邊緣計算。
在這種吸引力下,特別是伴隨深度學習的火熱,英偉達的開發(fā)者生態(tài)日漸壯大,過去三、四年開發(fā)者數(shù)量增長尤為快速。2019年,全球已經(jīng)有超過160萬CUDA開發(fā)者。中國CUDA開發(fā)者數(shù)量最為眾多,數(shù)量也增長最快,數(shù)量已經(jīng)超過了30萬,并且還在以每個月新增1萬人的數(shù)量增長。僅今年,CUDA的下載次數(shù)就超過了500萬次。
與之相伴的是CUDA的不斷更新,今年初,全新的AI加速庫CUDA X AI SDK正式發(fā)布,可以用于數(shù)據(jù)分析、機器學習、深度學習等多個領(lǐng)域的加速,更好地釋放 Tensor Core GPU 的靈活性。如今,CUDA已經(jīng)發(fā)布了500多個庫。
本周三的GTC China 2019上,黃仁勛又宣布推出TensorRT 7,它支持各種類型的RNN、Transformer和CNN,能支持1000多種不同的計算變換和優(yōu)化。之所以選擇在TensorRT6推出后的三個月就推出TensorRT7,英偉達負責TensorRT產(chǎn)品市場Siddarth Sharma接受采訪時稱主要是為了會話式AI。
會話式AI涉及語音識別和轉(zhuǎn)化為文字、理解文字、再轉(zhuǎn)化為文字用語音反饋三個部分,此前的TensorRT版本能完成理解的部分,TensorRT7可以完成三個流程,并且是在300毫秒內(nèi)。
另外,英偉達還用遷移學習、聯(lián)邦學習等方式幫助開發(fā)者更快地將AI技術(shù)應(yīng)用于自動駕駛、醫(yī)療等行業(yè)。
當然,為了讓新注冊的開發(fā)者更快上手CUDA,除了提供文檔,英偉達深度學習學院(DLI)也提供實戰(zhàn)培訓,幫助開發(fā)者了解如何開發(fā)、應(yīng)用甚至部署。還有英偉達的校園大使項目,目前以及與國內(nèi)23個高校合作,讓高校老師能開設(shè)DLI課程,補充理論課程。
為了中國開發(fā)者,DLI將很多課程轉(zhuǎn)換為中文,還在中國新開了10個基礎(chǔ)的DLI課程。
更多的開發(fā)者讓CUDA軟件堆棧不斷完善,也讓英偉達可開發(fā)不同的全套解決方案應(yīng)用到各個垂直行業(yè),這也是英偉達成功的關(guān)鍵。要探索更多的領(lǐng)域,英偉達需要進一步開放CUDA,在支持x86的基礎(chǔ)上,英偉達今年6月宣布將在年底前向Arm生態(tài)系統(tǒng)提供全堆棧的AI和HPC軟件。
至于未來是否會進一步開放甚至開源CUDA,Greg Estes告訴雷鋒網(wǎng),現(xiàn)在整個開發(fā)者社區(qū)做出了各種貢獻,CUDA周邊也有很多開源軟件和代碼,對于CUDA的進一步開放英偉達并不反對。
“我們也將不斷探索,開拓一些現(xiàn)在還沒人愿意關(guān)注的市場。這需要勇氣,也非常困難,但英偉達的基因讓我們非常享受各種挑戰(zhàn)?!?Greg Estes如此解釋構(gòu)建更強大開發(fā)者生態(tài)的挑戰(zhàn)。
他同時指出,進入到新的領(lǐng)域,營銷可能需要更多的支出。但英偉達使用的是統(tǒng)一的平臺,進入新領(lǐng)域的時候并不需要像其它公司一樣開發(fā)新的架構(gòu)和軟件,不會大幅增加研發(fā)成本。比如開發(fā)自動駕駛的軟件和開發(fā)機器人的軟件差別沒那么大,它們都有感知環(huán)境、設(shè)定路徑、模擬周圍物體移動的相同之處。
如何超越?
所有GPU,從云端到終端不同的硬件平臺,都支持統(tǒng)一的CUDA軟件平臺,讓英偉上百萬的開發(fā)者可以基于GPU在各個領(lǐng)域進行計算加速。這促進了CUDA軟件堆棧的完善,也讓英偉達能夠針對不同的領(lǐng)域推出完整的解決方案。
這是英偉達在AI時代率先被廣泛應(yīng)用的重要原因,也是其在未來競爭中核心競爭力。26年的硬件能力積累,13年前開始的統(tǒng)一平臺軟件布局,160萬的開發(fā)者生態(tài),不斷探索新領(lǐng)域的商業(yè)模式,這樣的一個系統(tǒng)公司怎么看都難以超越。
但也并非沒有可能,有一家初創(chuàng)公司的思路是在軟件層面完美兼容CUDA,通過提供性價比更高的硬件,能夠替代英偉達GPU。但由于CUDA并非完全開放,且在持續(xù)迭代,要完美兼容CUDA面臨挑戰(zhàn),能否在兼容的同時完成新生態(tài)的建設(shè)影響成敗。
還有一家公司走的是定制化和本地服務(wù)的路線,通過與有強AI需求的公司合作,提供性價比更高的定制化解決方案,同時提供更加本地化的服務(wù),以期獲得一些市場份額。
這兩種方法都有成功的機會,但實際應(yīng)用和發(fā)展的過程中每一步都充滿挑戰(zhàn)且非常關(guān)鍵。
還有一點不容忽視的是,GTC China 2019上英偉達展示了GPU相比CPU在云端AI推理中的成本以及性能優(yōu)勢,即便黃仁勛表示這并不是要用GPU替代CPU,但在云端訓練市場需求放緩,推理市場迅速增長的背景下,英偉達和英特爾將在云端AI推理市場激烈的競爭難以避免。
這是否會改變市場格局?