Arm CEO對話黃仁勛:暢談 AI 技術(shù)未來圖景,探索“人類終極邊疆”
提到AI,就會想到英偉達。而同樣的,不可忽視的端側(cè)AI的計算提供者還有Arm。這兩家計算公司在計算能力上的互取彼長,才能夠成就今時今日和未來的全面AI場景。在當(dāng)下AI加速成熟和規(guī)?;瘧?yīng)用的階段——或是像Rene Haas形容的在“人類探索的終極邊疆”,兩位賣鏟人又是如何看待AI的發(fā)展?在由Arm主辦的《Tech Unheard》首期播客中,NVIDIA創(chuàng)始人、總裁兼首席執(zhí)行官黃仁勛(Jensen Huang)與Arm首席執(zhí)行官Rene Haas展開對話。
在兩位長期合作的同事和朋友之間的對話中,他們深入探討了Jensen作為科技巨頭的創(chuàng)始人背后的歷程、AI的未來,以及NVIDIA如何以持續(xù)創(chuàng)新推動技術(shù)突破極限。
從GPU、到SoC、再到系統(tǒng)全棧的技術(shù)進階
在對談中,黃仁勛分享了Arm與NVIDIA的合作如何幫助NVIDIA從芯片制造擴展到完整的系統(tǒng)設(shè)計。Jensen提到:“事實上,Arm 幫助我們轉(zhuǎn)型為一家構(gòu)建 SoC 的公司,這一點非常重要?!?
什么是 SoC?SoC 大體上相當(dāng)于一整臺計算機,而獨立 GPU 是計算機中最后啟動的一個部件。先是 CPU 啟動,繼而是引導(dǎo) ROM 啟動,接著是操作系統(tǒng)啟動,最終才是 GPU 啟動。對于 SoC 來說,必須親自完成整體啟動過程。這也使得英偉達從一家算法公司(實際上就是一家 GPU 公司)轉(zhuǎn)型為一家全面的計算公司。
一開始構(gòu)建SoC對于英偉達而言并不容易,這標(biāo)志著英偉達從一家算法公司(實際上就是一家 GPU 公司)轉(zhuǎn)型為一家全面的計算公司。但一旦完成之后。Jensen的發(fā)展目標(biāo)便快速推進到了下一步——構(gòu)建完整的計算系統(tǒng)。
Jensen特別提到,他仍然非常喜歡SHIELD,它實際上是其創(chuàng)建的第一個英偉達完整系統(tǒng)。SHIELD系列是NVIDIA 2013年最初發(fā)布為游戲主機,后來演變?yōu)橐环N高性能Android TV設(shè)備。它是NVIDIA 進入消費電子市場并嘗試從芯片制造擴展到系統(tǒng)級產(chǎn)品的重要一步。而彼時在Rene Haas回憶起來,也恰恰正是Arm稱得上是剛起步的時刻。
在今天看來,SHIELD代表了 NVIDIA 在消費市場上對游戲和多媒體娛樂的嘗試,而另一個重要的系統(tǒng)——DGX-1 則是其進入 AI 和數(shù)據(jù)中心計算領(lǐng)域的戰(zhàn)略步驟。
“SHIELD 是塑料材質(zhì),而 DGX1 重 600 磅,這種轉(zhuǎn)變并不是什么大問題。重要的是,我們現(xiàn)在能夠構(gòu)建系統(tǒng)?!盝esnsen強調(diào)到。
2016年,NVIDIA發(fā)布了DGX-1,這是一款專為深度學(xué)習(xí)和高性能計算設(shè)計的 AI 超級計算機。DGX-1 是 NVIDIA 第一個推出的完整計算系統(tǒng)之一,它不僅包括 GPU 硬件,還配有經(jīng)過優(yōu)化的軟件棧,專為深度學(xué)習(xí)而設(shè)計。它集成了 GPU 驅(qū)動程序、深度學(xué)習(xí)框架(如 TensorFlow、PyTorch等)和優(yōu)化工具,用戶可以開箱即用,快速開始 AI 項目的開發(fā)和訓(xùn)練。DGX-1是 NVIDIA 在向系統(tǒng)設(shè)計擴展過程中取得的重要成果之一。與SHIELD 類似,DGX-1 也體現(xiàn)了 NVIDIA 從芯片設(shè)計擴展到整體系統(tǒng)的能力,只不過 DGX-1 面向的更多是企業(yè)級和數(shù)據(jù)中心級的 AI 應(yīng)用場景。
而為了使這個“構(gòu)建完整計算系統(tǒng)”的愿景進一步擴大,英偉達隨后實現(xiàn)了對于Mellanox的收購。而這次收購為英偉達帶來了重要的網(wǎng)絡(luò)和互連技術(shù),使得英偉達真正具備了構(gòu)建完整計算系統(tǒng)的能力。
“我們的想法是計算機不再是那個節(jié)點,而是成為整個數(shù)據(jù)中心,而數(shù)據(jù)中心將成為計算單元。如果你沒有設(shè)計過 GPU、CPU、NIC、交換機、各種收發(fā)器,然后將所有這些東西連接在一起,從零開始啟動系統(tǒng),讓一切正常運行并在其中分配工作負(fù)載,那么你就不會真正理解構(gòu)建這些 AI 超級集群意味著什么?!盝ensen回顧到。“這種轉(zhuǎn)變、這種愿景是如此清晰,能夠激勵我們的兩個團隊奮勇向前。為了激勵團隊,必須有一個非常清晰的愿景?!?
而一切的積累,成就了今日NVIDIA不再只是GPU的提供者,而是整體解決方案的創(chuàng)新者。通過構(gòu)建系統(tǒng),他們致力于從單一組件到整個系統(tǒng)的突破,這種進步使NVIDIA成為了涵蓋從芯片到系統(tǒng)解決方案的完整科技公司。
從“被動工具”到“AI工廠”,推動AI計算降本增效提速
傳統(tǒng)計算機一直被認(rèn)為是一種工具,人們需要的時候就使用它,就像一個裝在口袋里的手機,只有使用時才有作用。而計算機之前是這樣的“被動工具”。但是隨著 AI 的出現(xiàn),計算機開始轉(zhuǎn)變,不再只是需要人類輸入和激活才會發(fā)揮作用的工具,而是開始主動工作,類似于一個“工廠”,可以不斷地產(chǎn)生有價值的輸出,比如詞元(tokens)、智能洞察和數(shù)據(jù)分析結(jié)果。
Jensen提到了一個“AI工廠”的概念,即AI系統(tǒng)就像一臺始終保持運轉(zhuǎn)的制造設(shè)備,無論是否有具體的任務(wù),AI 都會不停地進行數(shù)據(jù)處理、學(xué)習(xí)和生成新的信息。這種持續(xù)的運轉(zhuǎn)使得 AI 的生產(chǎn)方式與傳統(tǒng)計算機截然不同,因為它不再是依賴人類手動操作才起作用,而是可以主動進行運算,持續(xù)不斷地創(chuàng)造有價值的智能結(jié)果。
黃仁勛強調(diào),AI 的這種轉(zhuǎn)變引發(fā)了類似工業(yè)革命的變化。過去的工業(yè)革命使機器大規(guī)模生產(chǎn)物理產(chǎn)品,而現(xiàn)在,AI 系統(tǒng)作為智能工廠,可以大規(guī)模地生產(chǎn)“智能”——這是一種完全不同的產(chǎn)業(yè)形態(tài)。這種變化帶來了一個全新的時代,在這個時代中,計算機和 AI 不再是單純的工具,而是生產(chǎn)智能的主動力量,從根本上改變了它們在社會中的角色。
而NVIDIA 正在努力加快 AI 和芯片技術(shù)的發(fā)展,每年進行一次技術(shù)更新。通過這種快速的迭代,他們實現(xiàn)了每年顯著的性能提升,使得技術(shù)進步速度遠超出傳統(tǒng)的摩爾定律(摩爾定律指的是芯片性能每兩年左右翻倍)。
為了實現(xiàn)每代產(chǎn)品的顯著性能提升,NVIDIA 的策略是為每個系統(tǒng)設(shè)計多種新型芯片,并利用“協(xié)同設(shè)計”的方法,從系統(tǒng)架構(gòu)到組件(例如NVLink交換機和新的系統(tǒng)機架)都進行整體優(yōu)化。這種方法使得不同的芯片和硬件組件可以高效協(xié)作,比如通過布設(shè)銅纜將所有 GPU 連接起來形成大型封裝,這樣的 3D 封裝可以提高系統(tǒng)的整體性能。
通過這些創(chuàng)新,NVIDIA 實現(xiàn)了每年性能提升 2-3 倍,而能耗和成本卻保持不變。這意味著 AI 技術(shù)的成本每年都在降低,尤其是在相同的能耗和硬件成本下實現(xiàn)更高的計算能力。這樣的效率提升對于 AI 的廣泛應(yīng)用是至關(guān)重要的。
黃仁勛提到 ChatGPT 作為當(dāng)前 AI 應(yīng)用的一個例子,指出目前它在響應(yīng)請求時只進行一次推理,但未來希望能夠讓 AI 進行多輪推理。這意味著 AI 可以對每個問題反復(fù)思考,通過樹形搜索和迭代改進其回答,使得最終輸出的質(zhì)量顯著提高。而為了實現(xiàn)這種新型的“迭代推理”,NVIDIA 的目標(biāo)是繼續(xù)降低 AI 的運行成本,使得 AI 能在同等成本下實現(xiàn)更復(fù)雜的推理能力,提升 AI 的智能水平和反應(yīng)質(zhì)量。
AI保持快速迭代的架構(gòu)基礎(chǔ):從兼容性到規(guī)模擴展
AI未來的發(fā)展速度是否可以繼續(xù)保持目前的水平?Jensen的答案是肯定的,但這需要一個系統(tǒng)化的方法,也就是各個技術(shù)的開發(fā)必須遵循統(tǒng)一的架構(gòu)。
關(guān)于未來的技術(shù)架構(gòu),黃仁勛強調(diào)了架構(gòu)兼容性的重要性。他認(rèn)為,“行業(yè)對軟件的投資遠高于硬件,因此,開發(fā)或發(fā)布的軟件必須進行長期維護?!?CUDA作為NVIDIA的核心理念,體現(xiàn)了這種對兼容性和長期投入的堅持。
例如,在開發(fā)時為一個集群(如 Hoppers)創(chuàng)建的軟件應(yīng)該可以無縫運行在其他架構(gòu)(如 Blackwell 或 Rubin)上。這種兼容性對于 AI 技術(shù)的快速發(fā)展至關(guān)重要。
他指出,行業(yè)對軟件的投資比硬件高很多,因此,軟件需要長期維護,保證不同架構(gòu)的兼容性非常重要,這樣可以讓投入到一個 GPU 上的軟件在其他 GPU 上也能使用,避免重復(fù)投入和浪費。
在談及數(shù)據(jù)中心的擴展時,黃仁勛提到,從500兆瓦到5000兆瓦的升級對技術(shù)架構(gòu)提出了全新挑戰(zhàn)。為了應(yīng)對這些挑戰(zhàn),NVIDIA通過增加功率密度、采用液冷技術(shù)以及密集化設(shè)計,將多個GPU協(xié)作處理數(shù)據(jù),從而實現(xiàn)數(shù)據(jù)中心的高效運行。
數(shù)據(jù)中心的功率密度在快速增加,這個趨勢幾乎是指數(shù)級的增長。從12千瓦到40千瓦,再到 120 千瓦、200 千瓦的變化,未來還會繼續(xù)提升。這種增長代表了每個數(shù)據(jù)中心機架的功率使用密度越來越大,以便在有限的物理空間內(nèi)實現(xiàn)更高的計算能力。由于功率密度的增加,NVIDIA 正在盡可能地對計算進行“壓縮和密集化”。這意味著他們在有限的空間內(nèi)放置更多的計算能力,這樣做可以提高整體效率。
黃仁勛提到,通過對數(shù)據(jù)中心進行密集化設(shè)計,NVIDIA 可以讓特定機架或相鄰機架中的所有 GPU 聯(lián)合起來,充當(dāng)一個巨大的 GPU。這意味著,多個 GPU 可以協(xié)同工作,就像一個超大規(guī)模的計算單元一樣。這種設(shè)計大大增強了數(shù)據(jù)中心的整體計算能力,也進一步提高了密集化的好處。
而黃仁勛提到的數(shù)據(jù)中心功率密度的提升和計算壓縮,正好是 Arm 能幫助改進的領(lǐng)域。Arm 的處理器架構(gòu)通過高能效,可以降低整體功耗,幫助數(shù)據(jù)中心應(yīng)對功率密度增加帶來的冷卻和能效挑戰(zhàn)。
Arm 的 CPU 設(shè)計對于任務(wù)的低能耗和效率有很大幫助,結(jié)合 NVIDIA 的 GPU 可以在數(shù)據(jù)中心實現(xiàn)更高效的任務(wù)分配和更密集的計算能力。因此,Arm 和 NVIDIA 的協(xié)同可以在數(shù)據(jù)中心的能效優(yōu)化和密集化設(shè)計上帶來顯著的優(yōu)勢。
黃仁勛特別表示:“我們非常關(guān)注在每一塊 Arm 芯片上投入的努力。前幾天我們剛剛進行了展示。有人做了一些基準(zhǔn)測試,結(jié)果顯示,NVIDIA Grace 的每瓦性能是全球最佳 CPU 的四倍。高能效比至關(guān)重要。它是重中之重?!?
結(jié)語
作為英偉達創(chuàng)始人,黃仁勛已經(jīng)領(lǐng)導(dǎo)公司30年且取得了巨大的成功。Rene Hass對其贊嘆不已:“盡管完全不清楚最終的殺手級應(yīng)用或最終狀態(tài)是什么,但你卻有著令人難以置信的韌性去嘗試各種想法并進行測試,哪怕市場似乎并未準(zhǔn)備就緒,或尚未對其進行定義?!?
Jensen笑談到:“成功之路并不是一個成就接著一個成就。事實并非如此。作為一名首席執(zhí)行官,你會遇到巨大的挫折,有時會有令人尷尬的時刻,你可能還沒有完全經(jīng)歷過這些。但是我希望它會到來,因為這是對你有益的。在所有這些時刻中,我不確定自己具體學(xué)到了什么,但它讓我變得更強大,我知道我能挺過去。我當(dāng)時并不喜歡這些。但當(dāng)我回想起這一切時,那些時刻讓人成長?!?
左一:Rene Hass,中間:黃仁勛