特斯拉展示全自動駕駛汽車AI訓(xùn)練芯片:運算性能突破360 TFLOPS
不讓Nvidia、Google專美于前,在今年Tesla AI Day活動上,美國電動汽車大廠特斯拉(Tesla)展現(xiàn)自家最新自動駕駛汽車應(yīng)用同時,首度公開披露一款自制AI訓(xùn)練芯片Dojo D1,強調(diào)擁有GPU的強大運算力,更兼具CPU的運用彈性,以及超高速傳輸帶寬,甚至在AI算力表現(xiàn)也優(yōu)于Google的TPU v3,可提供362 TFLOPS運算性能,特斯拉不只用它加速AI訓(xùn)練創(chuàng)建全自動駕駛汽車,未來也將作為首款人型機器人Tesla Bot的AI訓(xùn)練使用。
這顆自動駕駛汽車AI芯片D1,是由Tesla工程團隊一手開發(fā)完成,從芯片架構(gòu)、制作到封裝,采用先進7納米制程,其內(nèi)置高達500億個晶體管。根據(jù)Tesla的介紹,D1處理器芯片是由354個高性能訓(xùn)練節(jié)點所組成的,每個訓(xùn)練節(jié)點都可視為是一個個運算芯片,每個訓(xùn)練芯片皆采用定制ISA指令集架構(gòu)設(shè)計完成,特別對于ML工作負載執(zhí)行加以優(yōu)化,并內(nèi)置1.25MB高速的SRAM以及低延遲和高帶寬的網(wǎng)絡(luò)fabric,使得單一芯片,在BF16/CFP8測試基準下,其運算性能可達1.024 TFLOPS。
由354個訓(xùn)練節(jié)點所組成的D1模塊芯片,其運算力更一舉達到362 TFLOPS(每秒1萬億次浮點運算),若以目前市面已知的ML芯片 (TPU v3、GPU(HBM-Links互聯(lián))或其他創(chuàng)業(yè)公司ML芯片)性能來做比較,Tesla指出,D1算力表現(xiàn)還優(yōu)于其他市面ML芯片,甚至比Google的TPU v3表現(xiàn)都還好。另外這顆處理器本身的熱設(shè)計功耗(TDP)僅有400瓦,相較之下,TPUv3有達到450瓦。不只運算性能,Tesla也特別強調(diào)這顆AI處理器,在設(shè)計上采用新的芯片互聯(lián)架構(gòu),可提供內(nèi)部高速互聯(lián),總帶寬可達到每秒40TB的傳輸能力,而且每個D1芯片,能支持最多576信道,可用于高速I/O應(yīng)用,跟當(dāng)前最先進網(wǎng)絡(luò)交換機相比,Tesla表示,D1芯片可提供高達兩倍的傳輸帶寬。
開發(fā)人工智能既昂貴又耗時。定制芯片可以為公司帶來優(yōu)勢。
特斯拉制造汽車?,F(xiàn)在,它也是最新一家通過制造自己的硅芯片來尋求人工智能優(yōu)勢的公司。
在上個月的一次促銷活動中,特斯拉透露了一種名為 D1 的定制 AI 芯片的詳細信息,用于訓(xùn)練其 Autopilot 自動駕駛系統(tǒng)背后的機器學(xué)習(xí)算法。該活動的重點是特斯拉的人工智能工作,并展示了一個跳舞的人類,該公司打算制造一個人形機器人。
特斯拉是最新一家自行設(shè)計芯片的非傳統(tǒng)芯片制造商。隨著人工智能變得越來越重要且部署成本越來越高,谷歌、亞馬遜和微軟等其他在該技術(shù)上投入巨資的公司現(xiàn)在也在設(shè)計自己的芯片。
在此次活動中,特斯拉首席執(zhí)行官埃隆馬斯克表示,從用于訓(xùn)練公司神經(jīng)網(wǎng)絡(luò)的計算機系統(tǒng)中榨取更多性能將是自動駕駛?cè)〉眠M展的關(guān)鍵?!叭绻粋€模型需要幾天的時間來訓(xùn)練而不是幾個小時,那將是一件大事,”他說。
在 2019 年改用英偉達硬件后,特斯拉已經(jīng)設(shè)計了可以在其汽車中解釋傳感器輸入的芯片。但是,創(chuàng)建一種用于訓(xùn)練 AI 算法的強大而復(fù)雜的芯片要昂貴得多且具有挑戰(zhàn)性。
特斯拉以制造電動汽車聞名于世,但現(xiàn)在該公司也在尋求通過自主研發(fā)芯片在人工智能(AI)領(lǐng)域?qū)で笳紦?jù)更大優(yōu)勢。在上個月的“AI日”活動中,特斯拉公布了名為D1的定制AI芯片的細節(jié),該芯片用于訓(xùn)練其自動駕駛系統(tǒng)Autopilot背后的機器學(xué)習(xí)算法。此次活動聚焦于特斯拉的AI努力,并展示了其計劃推出的人形機器人。
特斯拉是最新一家自主設(shè)計芯片的非傳統(tǒng)芯片制造商。隨著AI變得越來越重要,部署成本也越來越高,其他在這項技術(shù)上投入巨資的公司-現(xiàn)在也在設(shè)計自己的芯片,包括谷歌、亞馬遜以及微軟等。在活動中,特斯拉首席執(zhí)行官埃隆·馬斯克(Elon Musk)表示,從用于訓(xùn)練公司神經(jīng)網(wǎng)絡(luò)的計算機系統(tǒng)中擠出更多性能將是自動駕駛?cè)〉眠M步的關(guān)鍵。他說:“如果某個模型需要的訓(xùn)練時間縮短至幾個小時而非幾天,這可能產(chǎn)生重大影響?!?
特斯拉在2019年放棄使用英偉達硬件后,已經(jīng)設(shè)計了能夠解讀其汽車中傳感器數(shù)據(jù)的芯片。但是,創(chuàng)造能夠訓(xùn)練AI算法所需的強大而復(fù)雜的芯片要昂貴得多,也具有更大的挑戰(zhàn)性。參加特斯拉活動的斯坦福大學(xué)汽車研究中心主任克里斯·格德斯(Chris Gerdes)表示:“如果你認為自動駕駛的解決方案是訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò),那么接下來就是你需要的那種垂直整合策略。”
特斯拉利用其首個“人工智能日”(AI Day)展示了其自動駕駛能力的改進(這一能力已受到監(jiān)管機構(gòu)的關(guān)注),并公布了一款人形機器人的計劃,首席執(zhí)行官埃隆·馬斯克(Elon Musk)表示,這款機器人將讓人們擺脫日常生活中的苦差事。
該公司還強調(diào)了在自主研發(fā)的半導(dǎo)體方面取得的進展,這是公司內(nèi)部專門設(shè)計的,用于訓(xùn)練為自動駕駛提供動力的神經(jīng)網(wǎng)絡(luò)。馬斯克表示,他將考慮將這項技術(shù)授權(quán)給競爭對手。
該芯片是組成Dojo系統(tǒng)的關(guān)鍵部分,Dojo是特斯拉之前吹捧過的超級計算機,特斯拉稱它為破解全自動駕駛的關(guān)鍵。馬斯克表示,Dojo將于2022年年底開始運營。
目前,特斯拉車身裝配有8枚攝像頭,以每秒36幀的頻率,1280*960分辨率12bit HDR圖像的清晰標(biāo)準,將周圍物體整合并通過時間軌跡區(qū)分靜態(tài)、動態(tài)及物體邊界,并利用包括多頭路線、相機校準、緩存、隊列和優(yōu)化等方法來簡化神經(jīng)網(wǎng)絡(luò)計算。
無論是長度巨大的半掛卡車,還是邊界被遮擋的街邊路口,通過多角度圖像呈現(xiàn)、數(shù)據(jù)分析、Transformer距離預(yù)測算法以及不同特征的疊加、覆蓋,特斯拉建立起了龐大的街景標(biāo)簽,為后續(xù)計算提供良好的感知分析。
現(xiàn)階段,特斯拉已針對10億張不同圖像和3億張不同場景進行數(shù)據(jù)貼標(biāo),但對于完全無人駕駛來說,這些標(biāo)簽量還遠遠不夠。為了應(yīng)對如此龐大的數(shù)據(jù),特斯拉表示,公司目前擁有一支 1000 人的數(shù)據(jù)標(biāo)簽隊伍,與工程師一起工作,打造了完全定制化的數(shù)據(jù)標(biāo)簽和分析架構(gòu)。同時,伴隨效率的不斷升高,特斯拉已經(jīng)實現(xiàn)對同一條路進行多次數(shù)據(jù)收集,抹去曾經(jīng)紅黃顏色組成的“邊界框”,把環(huán)境場景拆分成點云,上傳至云端,形成了接近于“高精地圖”的實測環(huán)境場景。