地平線聯(lián)合創(chuàng)始人兼副總裁黃暢:做AI計算平臺的地平線要有邊界感 | CCF-GAIR 2019
記者按:7 月 12 日至 7 月 14 日,2019 第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)于深圳正式召開。峰會由中國計算機學(xué)會(CCF)主辦,記者(公眾號:記者)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機器人研究院協(xié)辦,得到了深圳市政府的大力指導(dǎo),是國內(nèi)人工智能和機器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流博覽盛會,旨在打造國內(nèi)人工智能領(lǐng)域極具實力的跨界交流合作平臺。
“行業(yè)把我們分類到AI芯片公司,但我們其實對自己的定位是比芯片稍微大一點的,我一直想說我們是技術(shù)平臺類型的公司,軟件和硬件結(jié)合在一起”,在2019 第四屆全球人工智能與機器人峰會上,地平線聯(lián)合創(chuàng)始人兼副總裁黃暢如此做闡述。
7月13日舉辦的AI芯片論壇上,黃暢做了題為《打造極致效能的AI計算平臺,構(gòu)建安全、美好的智能世界》的主題演講。
在演講中黃暢表示,地平線希望定義真實的AI芯片性能,傳統(tǒng)芯片性能指的是PPA,包括Power,Performance,Aera(性能、功耗、面積)),現(xiàn)在比較主流的是指標(biāo)是TOPS/Watt和TOPS/$,能效比和性價比都是用戶所關(guān)注的。算法不斷演進,器件的利用率由架構(gòu)和編譯器決定,架構(gòu)把算法轉(zhuǎn)化為相對架構(gòu)而言最優(yōu)的質(zhì)量、序列和執(zhí)行模式。地平線的核心是算法+芯片聯(lián)合優(yōu)化,兼顧靈活高效架構(gòu)服務(wù)經(jīng)典和未來算法設(shè)計。
“地平線努力做到能夠更好地預(yù)測、把握、選擇未來真正重要的AI算法的趨勢,并且把算法、發(fā)展的趨勢進行拆解、融入到架構(gòu)中,使我們預(yù)先將未來可能成為主流的,最有效的算法提前考慮到計算架構(gòu)中,這點非常重要”,黃暢提到。
作為AI芯片獨角獸企業(yè),黃暢在接受采訪中屢次談及“邊界”。數(shù)據(jù)、AI模型和設(shè)備形成一個閉環(huán),這個閉環(huán)結(jié)合在一起高速的循環(huán),快速推進AI的技術(shù)發(fā)展和商業(yè)化落地,在此過程中,如何找到讓專家、開發(fā)者、AI工程師等不同角色都能找到舒適區(qū),將開發(fā)模式平臺化至關(guān)重要,地平線希望做一家平臺公司。
生態(tài)或者被生態(tài),對地平線來說是一個不再需要猶豫的問題。
平臺公司首要思考的就是平臺的深度和廣度,黃暢對此已有成熟的判斷,平臺核心競爭力在于技術(shù)整合,從算法到架構(gòu),再到后端的整合,技術(shù)鏈路越長整合優(yōu)勢越大。
“但同時我們也要注意整合也不能無邊無界,你始終要去判斷你的核心競爭力在哪,外延是哪些,什么時候外延會成為你的主要矛盾,從而也把它囊括到核心競爭力里面去,因為有很多技術(shù)棧其實是應(yīng)該交給行業(yè)的上游或下游解決。所以也要有邊界感,自知之明,當(dāng)然這個東西是動態(tài)變化的,跟技術(shù)、整個產(chǎn)業(yè)的發(fā)展、企業(yè)自身能力的發(fā)展都有關(guān)系”。
通用芯片和專用芯片并軌發(fā)展,趨勢如何發(fā)展是所有行業(yè)人士關(guān)心的議題,黃暢認(rèn)為,通用芯片和專用芯片各有各的機會,而且都在向中間靠攏,比如通用芯片也會通過專用的架構(gòu)增強它本身的競爭力、能效比和性價比。
“通用芯片和專用芯片大致上由各自的出發(fā)點逐漸會收斂,當(dāng)然這個過程中就是合久必分,分久必合,可能在某些歷史市場上又會走的非常專用,這也是完全有可能的。”
地平線聯(lián)合創(chuàng)始人兼副總裁黃暢
以下是黃暢演講全文,記者進行了不改變原意的編輯:
黃暢:最近經(jīng)常來CCF,我的標(biāo)題是《打造極致效能的AI計算平臺,構(gòu)建安全、美好的智能世界》。
著名的Gartner曲線大家都很熟悉,Gartner曲線顯示AI的痕跡,語音識別之后一發(fā)而不可收拾,后來出現(xiàn)了很多AI的技術(shù)和應(yīng)用,有的逐漸從爬坡出現(xiàn),有的迭入谷底,有的在成熟期發(fā)展過程中。
這是2018年8月份發(fā)布最新一期的Gartner曲線,列舉十項AI技術(shù),第一次明確提出了AI的普惠化。這說明經(jīng)過這么多年的洗禮,大家逐漸形成共識。AI的技術(shù)和催生、支持的產(chǎn)品未來必將在各個層面上深刻地影響我們的社會生活,AI是圍繞數(shù)據(jù)的計算和處理,尤其是智能層面處理產(chǎn)生的。2025年,所有數(shù)據(jù)里將有超過25%是實時數(shù)據(jù),其中95%以上是來自于IoT終端。到2025年,全球數(shù)據(jù)總量里有20%是與生產(chǎn)、安全密切相關(guān)的數(shù)據(jù)。我們?nèi)绾胃?、更快、更安全地處理這些數(shù)據(jù)成為重中之重。
今天上午的專場是5G和AIoT,5G技術(shù)的產(chǎn)生使得邊緣計算成為一種可能或是迫切的需求。對于5G技術(shù)而言,其實它非常需要MEC多接入點的邊緣計算,它是建立在5G基礎(chǔ)上的重要應(yīng)用,缺乏這種應(yīng)用,5G技術(shù)的推廣和普及是缺乏拉力的,這句話英特爾也說過。
邊緣計算會破解AI物聯(lián)網(wǎng)哪些核心難題?每輛自動駕駛車輛每天產(chǎn)生600-1000TB的數(shù)據(jù),和2015年整個互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)是一樣多的,因為現(xiàn)在每輛自動駕駛車有十多個攝像頭,不止一個激光雷達(dá),攝像頭都是高分辨率、高清、高幀率的。邊緣計算的核心難題是在于如何提高計算的可靠性,讓它在離線時可以正常運作,安全、合規(guī)滿足隱私的要求,任何數(shù)據(jù)必須經(jīng)過脫敏處理才可以上傳到云端。
數(shù)據(jù)傳來傳去,不管是有線還是無線,從成本功耗和技術(shù)的架設(shè)來看,成本并不低,5G的技術(shù)雖然破解邊緣的傳遞,大概幾百米范圍內(nèi)的傳遞,沒有改變主干網(wǎng)的帶寬,會極大吸納數(shù)據(jù)網(wǎng)絡(luò),很快會在5G基站附近產(chǎn)生數(shù)據(jù)的堰塞湖,必須進行快速的計算、處理。把里面非常有意義的部分上傳到云端,這是有效的數(shù)據(jù)壓縮方式。
邊緣計算也具有部署靈活、高效協(xié)同的特點,最近有一個比較熱的詞叫做“車路協(xié)同”,自動駕駛按照特斯拉的路徑,依靠車本身的能力推廣的話,這可能也是L5級別自動駕駛的必由之路,坦率地說,目前L4自動駕駛在現(xiàn)實環(huán)境中還要限制車輛運行的環(huán)境和地域,在所處的區(qū)域布局路端的改造,可以大大縮短自動駕駛投入規(guī)?;\營的時間,這里也能體現(xiàn)出邊緣計算在端上,比如說自動駕駛或是自主機器人的高效率協(xié)同。高實時計算減少反應(yīng)延遲,對于自動駕駛來說毋庸置疑是必要的條件。
傳統(tǒng)只有一個端、一個云,所有的數(shù)據(jù)都從端到云上,5G的發(fā)展讓邊的計算成為一個新的變量,其實我們可以看到,邊緣計算必將帶來商業(yè)范式的轉(zhuǎn)換,包括現(xiàn)在的運營商、傳統(tǒng)的設(shè)備商,其實在邊緣計算這塊他們都看到蘊含巨大的商機,而里面技術(shù)的變革也會非常深遠(yuǎn),因為它兼具傳統(tǒng)的端和云側(cè)的特點。
我們再看一下AI普惠化和民主化的背后,數(shù)據(jù)計算催生巨大的能源消耗。舉一個例子,2017年全國做過一個數(shù)據(jù)統(tǒng)計,全國有很多中小的數(shù)據(jù)中心,遍布在各處,比如在我老家貴州,那邊水電、煤電很豐富,有很多的山洞,氣候涼爽特別適合建機房。2017年中小數(shù)據(jù)中心消耗電量比三峽大壩的發(fā)電量還多,等量的碳排放量甚至比民航中心的碳排放量多一倍,兩倍于民航的碳排放量,這是很恐怖的數(shù)據(jù)。
不僅僅是中國,全國各地也在大規(guī)模興建數(shù)據(jù)中心,像Facebook在海底修數(shù)據(jù)中心,最大的數(shù)據(jù)中心將座落在北極圈,功率超過1000兆瓦。做AI的企業(yè),不管是做算法、應(yīng)用、芯片的都要承擔(dān)一些社會責(zé)任,未來會有巨大的AI計算需求,舉個例子,我們看Google前段時間說,他們訓(xùn)練非常牛的模型,進一步用NANS自動搜索的技術(shù),調(diào)用上千臺GPU跑兩個月,找了很好的結(jié)構(gòu),把機器翻譯的模型,就是我們看到正在實時翻譯的模型推到極致。但是為了訓(xùn)練這個模型大家知不知道消耗多少電?換成碳排放量相當(dāng)于五輛小汽車一年的排放量,僅僅訓(xùn)練一個模型訓(xùn)練一次。如果把模型部署出去進行推理,隨著時間的增長,它的能耗是百倍、千倍的增長。我們不能忽視享受GPU的集群訓(xùn)練、推理背后巨大的能源消耗。
我最近看到一個報道,人類社會這些年來沒有辦法回避的是二氧化碳的碳排放量急劇增加,拉到幾十年的范圍來看,有人說是在“自掘墳?zāi)埂保赃@是我們的社會責(zé)任。
地平線要做什么?我們想定義真實的AI芯片性能,這個和功耗、成本息息相關(guān)。傳統(tǒng)的芯片性能,做芯片很也的都知道,PPA,Power Performance Aera,比如說一秒鐘執(zhí)行多少指令?現(xiàn)在比較主流的是,對于AI芯片每瓦有多少計算。(還有)TOPS/$。不到10%是我們自己測的,往往被DDR帶寬Block住。我們拿到TOPS/$的利用率,大概50%還是80%。
我們還要看TOPS多大程度上轉(zhuǎn)化為AI的性能,典型的就是算法處理速度和精度,或是在單位時間內(nèi)以高的準(zhǔn)確度處理多少數(shù)據(jù)?這些東西加在一起才能得到真正的AI性能,TOPS產(chǎn)生多少AI的Performance,算法在系不斷地演進、數(shù)據(jù)不斷地增大,做這么多的承壓計算,能多處理多少數(shù)據(jù)?或是能提升性能多少?而器件的利用率,是由架構(gòu)和編譯器決定,架構(gòu)和算法,把算法轉(zhuǎn)化為架構(gòu)而言最優(yōu)的質(zhì)量、序列和執(zhí)行的模式,Performance是地平線關(guān)注的核心,我們的核心是算法演進、架構(gòu)同行。
下面是算法的算法演進的時間軸,時間不斷往前進,輕量化的算法達(dá)到更好的精度,相同的計算量我們在提升精度和處理的速度,不可回避的是,我們把算法應(yīng)用在傳統(tǒng)的計算架構(gòu)上,傳統(tǒng)的計算架構(gòu)沒有充分考慮到計算的變化、算法在改變計算的模式,計算架構(gòu)沒有考慮好,算法帶來計算模式的變遷會顯著下降。
地平線努力做到能夠更好地預(yù)測、把握、選擇未來真正重要的AI算法的趨勢,并且把算法、發(fā)展的趨勢進行拆解、融入到架構(gòu)中,使我們預(yù)先將未來可能成為主流的,最有效的算法提前考慮到計算架構(gòu)中,這點非常重要。頭兩年大量的AI處理器集中優(yōu)化3×3卷積,用看上去很美好的方式做,帶來的后果是沒有把握算法的發(fā)展趨勢,3×3的稠密卷積正在被拋棄,未來的發(fā)展方式會顛覆過去最優(yōu)的發(fā)展模式。針對當(dāng)前主流算法設(shè)計的計算架構(gòu),在目前算法快速演進的時代里,等到你真正拿出來,一年兩年以后很容易被淘汰掉,就是因為低下的利用率。傳統(tǒng)的GPU用相對傳統(tǒng)的方法做,他發(fā)現(xiàn)新的算法部署上去以后也提升不了精度。
我們特別強調(diào)算法和芯片的優(yōu)化,兼顧靈活性和通用性,第一要務(wù)還是追求極致的能效比和性價比。有很多東西要做,并不僅僅是算法和架構(gòu)這兩件事情,還有很多它們的編譯器和外延。比如說架構(gòu)設(shè)計需要考慮未來重要場景中的關(guān)鍵算法,我們要去實驗、探索、判斷,包括也跟業(yè)界廣泛的交流,共同定義未來重要場景是什么、未來重要的關(guān)鍵算法是什么。
產(chǎn)品驅(qū)動的思路進行敏捷的架構(gòu)迭代,架構(gòu)本身是一個設(shè)計,它可以像軟件一樣進行快速的迭代。計算架構(gòu)的實現(xiàn)技術(shù)涉及到更偏軟件的,現(xiàn)在比較流行的HLS技術(shù),現(xiàn)在已經(jīng)被大家用于快速迭代的架構(gòu),甚至芯片的模式,我們首重效率兼顧靈活性,架構(gòu)、算法和連接他們的編譯器,比如說精巧片上存儲器、算子彈性張量核、模型結(jié)構(gòu)調(diào)優(yōu)、可編程流處理架構(gòu)、算子芯片聯(lián)合優(yōu)化、精簡指令集設(shè)計,我是做算法出身,我和架構(gòu)師有很深入的討論,我強烈的訴求是能讓軟件做的事情盡可能讓軟件做,提供無與倫比的靈活性,這使得我們的編譯器有很大的空間做后續(xù)的優(yōu)化,甚至滿足我們設(shè)計芯片上沒有看到的可能性,這一點非常重要,在高速變化的場景中。
這是一些具體的例子,左邊的圖是同樣的兩個芯片處理大圖小模型,如果我們不做專門的優(yōu)化,按照比較傳統(tǒng)的方式,類似GPU的流處理,發(fā)現(xiàn)它的幀率200多兆,被DDR的帶寬限制住,只有34%。如果我們通過大量的拆分、多層融合,通過各種各樣的強大機制,各種各樣的內(nèi)部架構(gòu)設(shè)計特點留給編譯器巨大的空間去優(yōu)化,我們就可以把它的利用率提高到84%,幀率提高三倍,帶寬下降了一個數(shù)量級。我們的芯片面積很小,片上的存儲和很多AI芯片的片上存儲相比不是特別大,甚至還是偏小的。正是基于非常軟件的推動、驅(qū)動的設(shè)計,留給了軟件、編譯器巨大的空間,讓我們的硬件效率非常高。
再舉一個具體的例子,我們用芯片在City ?Scapes做2048×1024,19類,像素級別語義分割,200多瓦的GPU上可以做到74.8%的精度,速度8毫秒,單芯片的功耗上百瓦,芯片面積400多平方,如果砍掉GPU不用的話,這個東西起碼有100平方左右,考慮各種方面,起碼有效的在100平方以上。
這會產(chǎn)生什么樣的結(jié)果?圖中展示的,同時做檢測關(guān)鍵點、分割,而且一個芯片支持四路,這是我們的標(biāo)準(zhǔn)360度視覺感知方案,12個攝象頭,4個魚眼,8個正常的,提供豐富的視覺與感知,這個已經(jīng)是標(biāo)準(zhǔn)套件,是我們的Matrix自動駕駛計算平臺,獲得了很多獎,包括CES等很多機構(gòu)的獎,成功推到海外頭部的車廠,已經(jīng)進入量產(chǎn)階段,作為自動駕駛套件視覺感知的標(biāo)準(zhǔn)模組,這是非常成功的產(chǎn)品。GPU跑這塊東西,一塊GPU通常搞不定,我們只用三塊芯片,比GPU低一個數(shù)量級的芯片、低一個數(shù)量級的成本就可以解決這個問題。
這是另外一個case,技術(shù)可以用于三維的建模,完全視覺的建模,在非常低功耗做實時高速的三維建模。初看圖的時候會感覺是激光掃出來的圖,前置攝像頭看前面的畫面,就像行車記錄儀一樣,可以對三維場景進行高精度的建圖,這項技術(shù)我們和國外的廠商也在合作,已經(jīng)進入規(guī)模應(yīng)用的階段。
前面講了很多算法和芯片的變化,僅僅有這些還是一種潛能,還需要讓人更方便地利用起來。軟件開發(fā)是有質(zhì)的變化,1.0時代我們更多是通過人們理解規(guī)則,把復(fù)雜問題拆解成很多子規(guī)則,通過差異化的模型描述它,拆解開來去解決。軟件開發(fā)的時代已經(jīng)變成數(shù)據(jù)驅(qū)動,只需要針對問題采集數(shù)據(jù)進行標(biāo)注,剩下的事情,關(guān)于怎么拆解、建模都可以交給機器學(xué)習(xí),特別是深度神經(jīng)網(wǎng)絡(luò)的模型、方法。這個東西會帶來軟件開發(fā)翻天覆地的變化。
這是Reference,要對接主流的框架,針對我們的芯片去進行量化、高效的訓(xùn)練,測試、分析最后部署在我們的芯片上,這是一個開放的平臺,還支持開源的方向。
數(shù)據(jù)、AI模型和設(shè)備形成一個閉環(huán),這個閉環(huán)結(jié)合在一起高速的循環(huán)、快速的推進AI的技術(shù)發(fā)展和商業(yè)化落地。我們經(jīng)常會談識別好,什么是識別好?芯片長期來講做到識別好也非常難,如果我們將工具鏈組合好,可以大幅度降低開發(fā)者的數(shù)目,降低開發(fā)者的時間,極大擴大開發(fā)者的規(guī)模。
右邊是傳統(tǒng)工具鏈,只有專業(yè)的專家可以應(yīng)用起來,但它足夠的靈活、足夠的底層,可以解決各種各樣的問題,由于開發(fā)者人群受限,注定資源瓶頸在夠資格、有足夠水平的AI開發(fā)工程師,左端是封閉的SQL,它只能針對一些高頻的專門場景進行打造,它的應(yīng)用場景非常熟悉,所以我們要找到適中的、門檻不高但是適用面足夠廣的開發(fā)模式,把這樣的開發(fā)模式變成平臺化的工具賦能整個行業(yè)。
賦能萬物讓每個人的生活更安全、更美好是地平線的使命,也是我們創(chuàng)立這家公司的初衷。這張圖從上面到下面可以看到碎片化的場景,智慧城市、智慧商業(yè)、自動駕駛、服務(wù)機器人、腦機接口,中間是多樣的AI計算技術(shù)。從人的智能順序可以分為感知、建模、預(yù)測、決策、認(rèn)知,底下支撐的是通用的AI計算平臺,有硬件、芯片、軟件、工具鏈、標(biāo)準(zhǔn)算法。地平線定位技術(shù)賦能,不碰數(shù)據(jù),不做應(yīng)用。我們提供超高性價比的芯片,具有極致的功耗與效率,非常開放的工具鏈和算法模型樣例,我們關(guān)注自動駕駛和AIoT,同時也加入生態(tài)的開源社區(qū),加速AI的賦能。
這是我們新提出的口號,“AI ON HORIZON”,我們希望打造面向整個產(chǎn)業(yè)界的通用AI應(yīng)用平臺,賦能我們的客戶,讓AI的技術(shù)可以更好更早地普惠化、造福大家的生活,Journey Together是我們莊嚴(yán)的承諾,謝謝大家。