如何超越英偉達？

時間：2020-01-07 12:38:01

關(guān)鍵字： NVIDIA 英偉達超越

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]從AI熱潮中率先獲益的英偉達，其GPU參數(shù)和性能頻繁出現(xiàn)在不少AI芯片發(fā)布會的對比圖中。這是在缺乏AI芯片衡量的標準時，新的AI芯片證明自己實力的不錯方式。不過，聲稱性能超越英偉達GPU的創(chuàng)新AI芯片

從AI熱潮中率先獲益的英偉達，其GPU參數(shù)和性能頻繁出現(xiàn)在不少AI芯片發(fā)布會的對比圖中。這是在缺乏AI芯片衡量的標準時，新的AI芯片證明自己實力的不錯方式。不過，聲稱性能超越英偉達GPU的創(chuàng)新AI芯片不少，但想要超越英偉達非常困難。

因為，超越英偉達最核心的并不是更高的硬件參數(shù)和更低的價格，13年和160萬這兩個數(shù)字才是關(guān)鍵。

13年前就“注定”成為AI明星

1993年成立不久后，英偉達就面臨激烈的顯卡市場競爭，幸運的是，它從47家顯卡生產(chǎn)商的競爭中勝出，并于1999年在美國上市。帶領(lǐng)英偉達走向成功的關(guān)鍵人物之一就是其創(chuàng)始人兼CEO黃仁勛，人稱黃教主。

為了讓英偉達拓展新的市場領(lǐng)域，多年來黃仁勛一直都會事先做好風險預估工作。十多年前，黃仁勛下了一次關(guān)鍵性的賭注，押注一系列的改動和軟件開發(fā)，讓GPU能夠處理圖像以外更為復雜的任務(wù)。

此舉給英偉達帶來了不小的成本壓力。黃仁勛估計，名為CUDA（Compute Unified Device Architecture，統(tǒng)一計算架構(gòu)）的項目每年需要花費5億美元，當時英偉達的總營收約為30億美元。

這個重大的決策和CUDA成功背后，還有一個關(guān)鍵人物—;—;現(xiàn)英偉達GPU 計算軟件總經(jīng)理的Ian Buck。他在加入英偉達之前就通過實驗證實GPU用于通用計算的潛力巨大，2004年進入英偉達實習后，Ian Buck開始聚集相關(guān)的硬件和軟件工程師創(chuàng)建GPGPU模型。

不久后，英偉達對其芯片作出改動，開發(fā)出軟件輔助工具，包括支持標準的編程語言，而非用于向圖形芯片發(fā)出指令的神秘工具。在Ian Buck的率領(lǐng)下，2006年CUDA正式推出，這是全球首款GPU的通用計算解決方案。

CUDA工具包包括了GPU加速庫、編譯器、開發(fā)工具。為了便于使用，英偉達讓使用CUDA的開發(fā)人員可以使用熟悉的C、C ++、Fortran、Python、MATLAB等流行語言設(shè)計程序，以幾個基本關(guān)鍵字的形式通過擴展表達并行性，就能用GPU實現(xiàn)加速計算。

隨著CUDA的迭代，CUDA團隊開發(fā)了石油、天然氣和國防等相關(guān)產(chǎn)業(yè)所使用的科學計算方面的庫。開發(fā)者們也逐漸把GPU應(yīng)用于氣候建模、勘探石油和天然氣等很多領(lǐng)域。

同樣關(guān)鍵的是，CUDA發(fā)布之后，英偉達所有新推出的GPU都支持CUDA。這就意味著只要研究人員、學生擁有搭載英偉達GPU的筆記本電腦或者臺式機，就能在學校實驗室和宿舍開發(fā)軟件。再加上英偉達說服了許多大學開設(shè)課程，教學生用其最新的技術(shù)。

這才有了大家都熟悉的2012年Alex Krizhevsky用英偉達GPU運行AlexNet卷積神經(jīng)網(wǎng)絡(luò)算法在2012年ImageNet競賽中獲得第一，圖像識別的錯誤率大大降低。

由此，深度神經(jīng)網(wǎng)絡(luò)引發(fā)了第三次AI浪潮，英偉達也一步步成為了“AI明星”。

2016年，英偉達投入數(shù)十億美元動用數(shù)千工程師打造的第一個專為深度學習優(yōu)化的Pascal GPU推出。2017年，又推出了性能比Pascal提升5倍的Volta架構(gòu)，神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT 3也同時亮相。

2018年，黃仁勛口中自2006年CUDA GPU發(fā)明以來最大的飛躍圖靈（Turing）架構(gòu)發(fā)布，這一新架構(gòu)承載了RT核心（RT Core）以及全新張量核心（Tensor Core），RT Core使全球首款光線追蹤GPU成為可能，Tensor Core能實現(xiàn)高性能的深度學習訓練和推理。

英偉達承諾第8代圖靈架構(gòu)GPU模擬物理世界的能力將比Pascal架構(gòu)提升6倍，實時光線追蹤能力比Pascal架構(gòu)提升25倍。

AI的光環(huán)下，英偉達的股價比GPU性能的提升更加迅速，2016年每股30美元左右，到2018年最高漲至每股280美元，創(chuàng)下歷史新高。

不過，相比硬件的加速，軟件帶來的提升更加顯著。黃仁勛稱，在不改變硬件的前提下，通過軟件和庫的完善，過去2年英偉達將計算性能提升4倍，AI推理性能可以提升2倍，所需的開發(fā)時間也可以幾周縮短為幾天，從幾天縮短為幾小時。

即便是新推出的硬件平臺Orin，也十分強調(diào)其軟件定義特性，盡可能延長硬件的生命周期以及發(fā)揮軟件的優(yōu)勢。

160萬開發(fā)者生態(tài)

英偉達開發(fā)者計劃副總裁Greg Estes說，“之所以英偉達在AI時代比其它公司跑的更快一些，主要的原因是十多年前做出的戰(zhàn)略性決定—;—;將CUDA開放給各個行業(yè)。任何一個英偉達GPU都可以使用相同的軟件堆棧?！?/p>

這意味著，英偉達生態(tài)系統(tǒng)中的合作伙伴都能接觸到一個巨大的市場，無論是做AI、游戲還是數(shù)據(jù)中心、邊緣計算。

在這種吸引力下，特別是伴隨深度學習的火熱，英偉達的開發(fā)者生態(tài)日漸壯大，過去三、四年開發(fā)者數(shù)量增長尤為快速。2019年，全球已經(jīng)有超過160萬CUDA開發(fā)者。中國CUDA開發(fā)者數(shù)量最為眾多，數(shù)量也增長最快，數(shù)量已經(jīng)超過了30萬，并且還在以每個月新增1萬人的數(shù)量增長。僅今年，CUDA的下載次數(shù)就超過了500萬次。

與之相伴的是CUDA的不斷更新，今年初，全新的AI加速庫CUDA X AI SDK正式發(fā)布，可以用于數(shù)據(jù)分析、機器學習、深度學習等多個領(lǐng)域的加速，更好地釋放 Tensor Core GPU 的靈活性。如今，CUDA已經(jīng)發(fā)布了500多個庫。

本周三的GTC China 2019上，黃仁勛又宣布推出TensorRT 7，它支持各種類型的RNN、Transformer和CNN，能支持1000多種不同的計算變換和優(yōu)化。之所以選擇在TensorRT6推出后的三個月就推出TensorRT7，英偉達負責TensorRT產(chǎn)品市場Siddarth Sharma接受采訪時稱主要是為了會話式AI。

會話式AI涉及語音識別和轉(zhuǎn)化為文字、理解文字、再轉(zhuǎn)化為文字用語音反饋三個部分，此前的TensorRT版本能完成理解的部分，TensorRT7可以完成三個流程，并且是在300毫秒內(nèi)。

另外，英偉達還用遷移學習、聯(lián)邦學習等方式幫助開發(fā)者更快地將AI技術(shù)應(yīng)用于自動駕駛、醫(yī)療等行業(yè)。

當然，為了讓新注冊的開發(fā)者更快上手CUDA，除了提供文檔，英偉達深度學習學院（DLI）也提供實戰(zhàn)培訓，幫助開發(fā)者了解如何開發(fā)、應(yīng)用甚至部署。還有英偉達的校園大使項目，目前以及與國內(nèi)23個高校合作，讓高校老師能開設(shè)DLI課程，補充理論課程。

為了中國開發(fā)者，DLI將很多課程轉(zhuǎn)換為中文，還在中國新開了10個基礎(chǔ)的DLI課程。

更多的開發(fā)者讓CUDA軟件堆棧不斷完善，也讓英偉達可開發(fā)不同的全套解決方案應(yīng)用到各個垂直行業(yè)，這也是英偉達成功的關(guān)鍵。要探索更多的領(lǐng)域，英偉達需要進一步開放CUDA，在支持x86的基礎(chǔ)上，英偉達今年6月宣布將在年底前向Arm生態(tài)系統(tǒng)提供全堆棧的AI和HPC軟件。

至于未來是否會進一步開放甚至開源CUDA，Greg Estes告訴雷鋒網(wǎng)，現(xiàn)在整個開發(fā)者社區(qū)做出了各種貢獻，CUDA周邊也有很多開源軟件和代碼，對于CUDA的進一步開放英偉達并不反對。

“我們也將不斷探索，開拓一些現(xiàn)在還沒人愿意關(guān)注的市場。這需要勇氣，也非常困難，但英偉達的基因讓我們非常享受各種挑戰(zhàn)?！?Greg Estes如此解釋構(gòu)建更強大開發(fā)者生態(tài)的挑戰(zhàn)。

他同時指出，進入到新的領(lǐng)域，營銷可能需要更多的支出。但英偉達使用的是統(tǒng)一的平臺，進入新領(lǐng)域的時候并不需要像其它公司一樣開發(fā)新的架構(gòu)和軟件，不會大幅增加研發(fā)成本。比如開發(fā)自動駕駛的軟件和開發(fā)機器人的軟件差別沒那么大，它們都有感知環(huán)境、設(shè)定路徑、模擬周圍物體移動的相同之處。

如何超越？

所有GPU，從云端到終端不同的硬件平臺，都支持統(tǒng)一的CUDA軟件平臺，讓英偉上百萬的開發(fā)者可以基于GPU在各個領(lǐng)域進行計算加速。這促進了CUDA軟件堆棧的完善，也讓英偉達能夠針對不同的領(lǐng)域推出完整的解決方案。

這是英偉達在AI時代率先被廣泛應(yīng)用的重要原因，也是其在未來競爭中核心競爭力。26年的硬件能力積累，13年前開始的統(tǒng)一平臺軟件布局，160萬的開發(fā)者生態(tài)，不斷探索新領(lǐng)域的商業(yè)模式，這樣的一個系統(tǒng)公司怎么看都難以超越。

但也并非沒有可能，有一家初創(chuàng)公司的思路是在軟件層面完美兼容CUDA，通過提供性價比更高的硬件，能夠替代英偉達GPU。但由于CUDA并非完全開放，且在持續(xù)迭代，要完美兼容CUDA面臨挑戰(zhàn)，能否在兼容的同時完成新生態(tài)的建設(shè)影響成敗。

還有一家公司走的是定制化和本地服務(wù)的路線，通過與有強AI需求的公司合作，提供性價比更高的定制化解決方案，同時提供更加本地化的服務(wù)，以期獲得一些市場份額。

這兩種方法都有成功的機會，但實際應(yīng)用和發(fā)展的過程中每一步都充滿挑戰(zhàn)且非常關(guān)鍵。

還有一點不容忽視的是，GTC China 2019上英偉達展示了GPU相比CPU在云端AI推理中的成本以及性能優(yōu)勢，即便黃仁勛表示這并不是要用GPU替代CPU，但在云端訓練市場需求放緩，推理市場迅速增長的背景下，英偉達和英特爾將在云端AI推理市場激烈的競爭難以避免。

這是否會改變市場格局？