如何超越英偉達(dá)?
從AI熱潮中率先獲益的英偉達(dá),其GPU參數(shù)和性能頻繁出現(xiàn)在不少AI芯片發(fā)布會(huì)的對(duì)比圖中。這是在缺乏AI芯片衡量的標(biāo)準(zhǔn)時(shí),新的AI芯片證明自己實(shí)力的不錯(cuò)方式。不過(guò),聲稱(chēng)性能超越英偉達(dá)GPU的創(chuàng)新AI芯片不少,但想要超越英偉達(dá)非常困難。
因?yàn)?,超越英偉達(dá)最核心的并不是更高的硬件參數(shù)和更低的價(jià)格,13年和160萬(wàn)這兩個(gè)數(shù)字才是關(guān)鍵。
13年前就“注定”成為AI明星
1993年成立不久后,英偉達(dá)就面臨激烈的顯卡市場(chǎng)競(jìng)爭(zhēng),幸運(yùn)的是,它從47家顯卡生產(chǎn)商的競(jìng)爭(zhēng)中勝出,并于1999年在美國(guó)上市。帶領(lǐng)英偉達(dá)走向成功的關(guān)鍵人物之一就是其創(chuàng)始人兼CEO黃仁勛,人稱(chēng)黃教主。
為了讓英偉達(dá)拓展新的市場(chǎng)領(lǐng)域,多年來(lái)黃仁勛一直都會(huì)事先做好風(fēng)險(xiǎn)預(yù)估工作。十多年前,黃仁勛下了一次關(guān)鍵性的賭注,押注一系列的改動(dòng)和軟件開(kāi)發(fā),讓GPU能夠處理圖像以外更為復(fù)雜的任務(wù)。
此舉給英偉達(dá)帶來(lái)了不小的成本壓力。黃仁勛估計(jì),名為CUDA(Compute Unified Device Architecture,統(tǒng)一計(jì)算架構(gòu))的項(xiàng)目每年需要花費(fèi)5億美元,當(dāng)時(shí)英偉達(dá)的總營(yíng)收約為30億美元。
這個(gè)重大的決策和CUDA成功背后,還有一個(gè)關(guān)鍵人物—;—;現(xiàn)英偉達(dá)GPU 計(jì)算軟件總經(jīng)理的Ian Buck。他在加入英偉達(dá)之前就通過(guò)實(shí)驗(yàn)證實(shí)GPU用于通用計(jì)算的潛力巨大,2004年進(jìn)入英偉達(dá)實(shí)習(xí)后,Ian Buck開(kāi)始聚集相關(guān)的硬件和軟件工程師創(chuàng)建GPGPU模型。
不久后,英偉達(dá)對(duì)其芯片作出改動(dòng),開(kāi)發(fā)出軟件輔助工具,包括支持標(biāo)準(zhǔn)的編程語(yǔ)言,而非用于向圖形芯片發(fā)出指令的神秘工具。在Ian Buck的率領(lǐng)下,2006年CUDA正式推出,這是全球首款GPU的通用計(jì)算解決方案。
CUDA工具包包括了GPU加速庫(kù)、編譯器、開(kāi)發(fā)工具。為了便于使用,英偉達(dá)讓使用CUDA的開(kāi)發(fā)人員可以使用熟悉的C、C ++、Fortran、Python、MATLAB等流行語(yǔ)言設(shè)計(jì)程序,以幾個(gè)基本關(guān)鍵字的形式通過(guò)擴(kuò)展表達(dá)并行性,就能用GPU實(shí)現(xiàn)加速計(jì)算。
隨著CUDA的迭代,CUDA團(tuán)隊(duì)開(kāi)發(fā)了石油、天然氣和國(guó)防等相關(guān)產(chǎn)業(yè)所使用的科學(xué)計(jì)算方面的庫(kù)。開(kāi)發(fā)者們也逐漸把GPU應(yīng)用于氣候建模、勘探石油和天然氣等很多領(lǐng)域。
同樣關(guān)鍵的是,CUDA發(fā)布之后,英偉達(dá)所有新推出的GPU都支持CUDA。這就意味著只要研究人員、學(xué)生擁有搭載英偉達(dá)GPU的筆記本電腦或者臺(tái)式機(jī),就能在學(xué)校實(shí)驗(yàn)室和宿舍開(kāi)發(fā)軟件。再加上英偉達(dá)說(shuō)服了許多大學(xué)開(kāi)設(shè)課程,教學(xué)生用其最新的技術(shù)。
這才有了大家都熟悉的2012年Alex Krizhevsky用英偉達(dá)GPU運(yùn)行AlexNet卷積神經(jīng)網(wǎng)絡(luò)算法在2012年ImageNet競(jìng)賽中獲得第一,圖像識(shí)別的錯(cuò)誤率大大降低。
由此,深度神經(jīng)網(wǎng)絡(luò)引發(fā)了第三次AI浪潮,英偉達(dá)也一步步成為了“AI明星”。
2016年,英偉達(dá)投入數(shù)十億美元?jiǎng)佑脭?shù)千工程師打造的第一個(gè)專(zhuān)為深度學(xué)習(xí)優(yōu)化的Pascal GPU推出。2017年,又推出了性能比Pascal提升5倍的Volta架構(gòu),神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT 3也同時(shí)亮相。
2018年,黃仁勛口中自2006年CUDA GPU發(fā)明以來(lái)最大的飛躍圖靈(Turing)架構(gòu)發(fā)布,這一新架構(gòu)承載了RT核心(RT Core)以及全新張量核心(Tensor Core),RT Core使全球首款光線(xiàn)追蹤GPU成為可能,Tensor Core能實(shí)現(xiàn)高性能的深度學(xué)習(xí)訓(xùn)練和推理。
英偉達(dá)承諾第8代圖靈架構(gòu)GPU模擬物理世界的能力將比Pascal架構(gòu)提升6倍,實(shí)時(shí)光線(xiàn)追蹤能力比Pascal架構(gòu)提升25倍。
AI的光環(huán)下,英偉達(dá)的股價(jià)比GPU性能的提升更加迅速,2016年每股30美元左右, 到2018年最高漲至每股280美元,創(chuàng)下歷史新高。
不過(guò),相比硬件的加速,軟件帶來(lái)的提升更加顯著。黃仁勛稱(chēng),在不改變硬件的前提下,通過(guò)軟件和庫(kù)的完善,過(guò)去2年英偉達(dá)將計(jì)算性能提升4倍,AI推理性能可以提升2倍,所需的開(kāi)發(fā)時(shí)間也可以幾周縮短為幾天,從幾天縮短為幾小時(shí)。
即便是新推出的硬件平臺(tái)Orin,也十分強(qiáng)調(diào)其軟件定義特性,盡可能延長(zhǎng)硬件的生命周期以及發(fā)揮軟件的優(yōu)勢(shì)。
160萬(wàn)開(kāi)發(fā)者生態(tài)
英偉達(dá)開(kāi)發(fā)者計(jì)劃副總裁Greg Estes說(shuō),“之所以英偉達(dá)在AI時(shí)代比其它公司跑的更快一些,主要的原因是十多年前做出的戰(zhàn)略性決定—;—;將CUDA開(kāi)放給各個(gè)行業(yè)。任何一個(gè)英偉達(dá)GPU都可以使用相同的軟件堆棧?!?/p>
這意味著,英偉達(dá)生態(tài)系統(tǒng)中的合作伙伴都能接觸到一個(gè)巨大的市場(chǎng),無(wú)論是做AI、游戲還是數(shù)據(jù)中心、邊緣計(jì)算。
在這種吸引力下,特別是伴隨深度學(xué)習(xí)的火熱,英偉達(dá)的開(kāi)發(fā)者生態(tài)日漸壯大,過(guò)去三、四年開(kāi)發(fā)者數(shù)量增長(zhǎng)尤為快速。2019年,全球已經(jīng)有超過(guò)160萬(wàn)CUDA開(kāi)發(fā)者。中國(guó)CUDA開(kāi)發(fā)者數(shù)量最為眾多,數(shù)量也增長(zhǎng)最快,數(shù)量已經(jīng)超過(guò)了30萬(wàn),并且還在以每個(gè)月新增1萬(wàn)人的數(shù)量增長(zhǎng)。僅今年,CUDA的下載次數(shù)就超過(guò)了500萬(wàn)次。
與之相伴的是CUDA的不斷更新,今年初,全新的AI加速庫(kù)CUDA X AI SDK正式發(fā)布,可以用于數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等多個(gè)領(lǐng)域的加速,更好地釋放 Tensor Core GPU 的靈活性。如今,CUDA已經(jīng)發(fā)布了500多個(gè)庫(kù)。
本周三的GTC China 2019上,黃仁勛又宣布推出TensorRT 7,它支持各種類(lèi)型的RNN、Transformer和CNN,能支持1000多種不同的計(jì)算變換和優(yōu)化。之所以選擇在TensorRT6推出后的三個(gè)月就推出TensorRT7,英偉達(dá)負(fù)責(zé)TensorRT產(chǎn)品市場(chǎng)Siddarth Sharma接受采訪時(shí)稱(chēng)主要是為了會(huì)話(huà)式AI。
會(huì)話(huà)式AI涉及語(yǔ)音識(shí)別和轉(zhuǎn)化為文字、理解文字、再轉(zhuǎn)化為文字用語(yǔ)音反饋三個(gè)部分,此前的TensorRT版本能完成理解的部分,TensorRT7可以完成三個(gè)流程,并且是在300毫秒內(nèi)。
另外,英偉達(dá)還用遷移學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等方式幫助開(kāi)發(fā)者更快地將AI技術(shù)應(yīng)用于自動(dòng)駕駛、醫(yī)療等行業(yè)。
當(dāng)然,為了讓新注冊(cè)的開(kāi)發(fā)者更快上手CUDA,除了提供文檔,英偉達(dá)深度學(xué)習(xí)學(xué)院(DLI)也提供實(shí)戰(zhàn)培訓(xùn),幫助開(kāi)發(fā)者了解如何開(kāi)發(fā)、應(yīng)用甚至部署。還有英偉達(dá)的校園大使項(xiàng)目,目前以及與國(guó)內(nèi)23個(gè)高校合作,讓高校老師能開(kāi)設(shè)DLI課程,補(bǔ)充理論課程。
為了中國(guó)開(kāi)發(fā)者,DLI將很多課程轉(zhuǎn)換為中文,還在中國(guó)新開(kāi)了10個(gè)基礎(chǔ)的DLI課程。
更多的開(kāi)發(fā)者讓CUDA軟件堆棧不斷完善,也讓英偉達(dá)可開(kāi)發(fā)不同的全套解決方案應(yīng)用到各個(gè)垂直行業(yè),這也是英偉達(dá)成功的關(guān)鍵。要探索更多的領(lǐng)域,英偉達(dá)需要進(jìn)一步開(kāi)放CUDA,在支持x86的基礎(chǔ)上,英偉達(dá)今年6月宣布將在年底前向Arm生態(tài)系統(tǒng)提供全堆棧的AI和HPC軟件。
至于未來(lái)是否會(huì)進(jìn)一步開(kāi)放甚至開(kāi)源CUDA,Greg Estes告訴雷鋒網(wǎng),現(xiàn)在整個(gè)開(kāi)發(fā)者社區(qū)做出了各種貢獻(xiàn),CUDA周邊也有很多開(kāi)源軟件和代碼,對(duì)于CUDA的進(jìn)一步開(kāi)放英偉達(dá)并不反對(duì)。
“我們也將不斷探索,開(kāi)拓一些現(xiàn)在還沒(méi)人愿意關(guān)注的市場(chǎng)。這需要勇氣,也非常困難,但英偉達(dá)的基因讓我們非常享受各種挑戰(zhàn)?!?Greg Estes如此解釋構(gòu)建更強(qiáng)大開(kāi)發(fā)者生態(tài)的挑戰(zhàn)。
他同時(shí)指出,進(jìn)入到新的領(lǐng)域,營(yíng)銷(xiāo)可能需要更多的支出。但英偉達(dá)使用的是統(tǒng)一的平臺(tái),進(jìn)入新領(lǐng)域的時(shí)候并不需要像其它公司一樣開(kāi)發(fā)新的架構(gòu)和軟件,不會(huì)大幅增加研發(fā)成本。比如開(kāi)發(fā)自動(dòng)駕駛的軟件和開(kāi)發(fā)機(jī)器人的軟件差別沒(méi)那么大,它們都有感知環(huán)境、設(shè)定路徑、模擬周?chē)矬w移動(dòng)的相同之處。
如何超越?
所有GPU,從云端到終端不同的硬件平臺(tái),都支持統(tǒng)一的CUDA軟件平臺(tái),讓英偉上百萬(wàn)的開(kāi)發(fā)者可以基于GPU在各個(gè)領(lǐng)域進(jìn)行計(jì)算加速。這促進(jìn)了CUDA軟件堆棧的完善,也讓英偉達(dá)能夠針對(duì)不同的領(lǐng)域推出完整的解決方案。
這是英偉達(dá)在AI時(shí)代率先被廣泛應(yīng)用的重要原因,也是其在未來(lái)競(jìng)爭(zhēng)中核心競(jìng)爭(zhēng)力。26年的硬件能力積累,13年前開(kāi)始的統(tǒng)一平臺(tái)軟件布局,160萬(wàn)的開(kāi)發(fā)者生態(tài),不斷探索新領(lǐng)域的商業(yè)模式,這樣的一個(gè)系統(tǒng)公司怎么看都難以超越。
但也并非沒(méi)有可能,有一家初創(chuàng)公司的思路是在軟件層面完美兼容CUDA,通過(guò)提供性?xún)r(jià)比更高的硬件,能夠替代英偉達(dá)GPU。但由于CUDA并非完全開(kāi)放,且在持續(xù)迭代,要完美兼容CUDA面臨挑戰(zhàn),能否在兼容的同時(shí)完成新生態(tài)的建設(shè)影響成敗。
還有一家公司走的是定制化和本地服務(wù)的路線(xiàn),通過(guò)與有強(qiáng)AI需求的公司合作,提供性?xún)r(jià)比更高的定制化解決方案,同時(shí)提供更加本地化的服務(wù),以期獲得一些市場(chǎng)份額。
這兩種方法都有成功的機(jī)會(huì),但實(shí)際應(yīng)用和發(fā)展的過(guò)程中每一步都充滿(mǎn)挑戰(zhàn)且非常關(guān)鍵。
還有一點(diǎn)不容忽視的是,GTC China 2019上英偉達(dá)展示了GPU相比CPU在云端AI推理中的成本以及性能優(yōu)勢(shì),即便黃仁勛表示這并不是要用GPU替代CPU,但在云端訓(xùn)練市場(chǎng)需求放緩,推理市場(chǎng)迅速增長(zhǎng)的背景下,英偉達(dá)和英特爾將在云端AI推理市場(chǎng)激烈的競(jìng)爭(zhēng)難以避免。
這是否會(huì)改變市場(chǎng)格局?