在智能汽車自動駕駛領(lǐng)域 智能感知在落地時需要應(yīng)對不少挑戰(zhàn)
12月6-8日,為期三天的“2019世界創(chuàng)新者年會”在北京順利舉辦。本次大會由中國企業(yè)聯(lián)合會指導(dǎo),由億歐·EqualOcean、工業(yè)和信息化科技成果轉(zhuǎn)化聯(lián)盟聯(lián)合主辦,本次大會以“科創(chuàng)4.0:共建全球化新未來””為主題,集結(jié)了來自美國、英國、印度、新加坡、印尼、尼日利亞、巴西、日本、以色列等十余個國家或地區(qū)的6000名創(chuàng)新者,總結(jié)2019年世界科技與產(chǎn)業(yè)創(chuàng)新的成果,預(yù)測2020年最新創(chuàng)新
其中,“科學(xué)企業(yè)家”論壇邀請了華為諾亞方舟實驗室計算視覺首席科學(xué)家田奇教授、小鵬汽車首席科學(xué)家郭彥東博士、氪信科技創(chuàng)始人兼CEO朱明杰博士、文安智能創(chuàng)始人陶海教授、魔琺科技創(chuàng)始人兼CEO柴金祥教授、MINIEYE創(chuàng)始人兼CEO劉國清博士、聯(lián)想創(chuàng)投董事總經(jīng)理王光熙、達觀數(shù)據(jù)創(chuàng)始人兼CEO陳運文博士、踏歌智行創(chuàng)始人兼首席科學(xué)家余貴珍教授,共同探討和分享作為科學(xué)家創(chuàng)業(yè)者在創(chuàng)業(yè)路上的收獲與感悟,探索科學(xué)技術(shù)與商業(yè)化的結(jié)合機會,助推產(chǎn)學(xué)研領(lǐng)域協(xié)同發(fā)展。
其中,小鵬汽車首席科學(xué)家郭彥東在大會發(fā)表題為《智能感知的車載量產(chǎn)之路》的演講,他認為:
1、近年來,基于深度學(xué)習(xí),人工智能在諸多領(lǐng)域中都取得了突破性的進展。但是自動駕駛技術(shù)在量產(chǎn)落地實際應(yīng)用中有遇到長尾效應(yīng)的挑戰(zhàn)。需要“科學(xué)企業(yè)家”,利用有限的資源,高效的并有優(yōu)先級的解決可能有 “無限多種”現(xiàn)實場景的實際問題。
2、自動駕駛技術(shù)落地離不開算法、數(shù)據(jù)、與硬件平臺。在“源動力”數(shù)據(jù)方面,為了兼顧數(shù)據(jù)量,場景覆蓋度,成本,以及真實度,小鵬汽車有機整合了公開的互聯(lián)網(wǎng)大數(shù)據(jù)、仿真數(shù)據(jù)、測試車隊數(shù)據(jù)以及本土真實用戶的脫敏數(shù)據(jù)形成閉環(huán);并合理構(gòu)建知識圖譜。
3、就自動駕駛技術(shù)落地路徑而言,其基礎(chǔ)是感知,核心是人機交互,難點是駕駛主體的切換?!翱茖W(xué)企業(yè)家”不僅需要推動新技術(shù)落地,也需要從落地中提煉新問題。
4、在將人工智能落地到現(xiàn)實場景中時,不僅需要量產(chǎn)為先,快速高效進行新功能落地,更需要通過新功能推動安全駕駛?!翱茖W(xué)企業(yè)家”需要通過量產(chǎn)正向影響社會駕駛習(xí)慣。
以下為演講實錄(有刪改):
今天演講的內(nèi)容更多集中在智能汽車自動駕駛領(lǐng)域,比如智能感知在落地時需要應(yīng)對哪些挑戰(zhàn)。
首先簡單回顧一下,為什么人工智能這些年這么受關(guān)注?我列了幾個事件,2014年,在人臉識別的一個被廣泛認可的任務(wù)(Labeled Faces in the Wild,(LFW))上,F(xiàn)acebook等公司的視覺模型首次超過了人類的表現(xiàn);2015年,微軟研究院研發(fā)的神經(jīng)網(wǎng)絡(luò)在通用圖像分類的經(jīng)典任務(wù)ImageNet上超越了人類的表現(xiàn); 2016年,谷歌人工智能在下圍棋的時候擊敗人類;同年,微軟的深度學(xué)習(xí)模型在對話語音識別方面首次達到了人類的水平。
人工智能已經(jīng)在這么多特定領(lǐng)域表現(xiàn)得比人更好了,為什么車不能讓機器去開,為什么人工智能落地還有很多挑戰(zhàn)?這是我今天和大家分享的重點。
其實人工智能之所以能這么好的表現(xiàn),主要來自于深度學(xué)習(xí)技術(shù),大量的訓(xùn)練數(shù)據(jù),以及高速并行運算硬件的發(fā)展。但是,如果計算機面對一個沒有見過的不同的場景時,他在認知方面的推廣能力常常遜于人類。以上這些人工智能超越人類的表現(xiàn)的特定任務(wù)中,測試用例往往是有限的。比如在人臉識別領(lǐng)域長期被廣泛使用的LFW Verification Set,只有6000對圖像做比對。從多樣性跟真實性來說,跟很多工業(yè)中的實際挑戰(zhàn)有一定的差距。比如在智能座艙中的人臉識別問題,在成像波段,遮擋的嚴(yán)重性,極限光照,奇怪姿勢,極限曝光等等方面都會有新的挑戰(zhàn),遠遠超出了LFW中的測試情況。這也是為什么現(xiàn)在有越來越多的新的測試任務(wù)被設(shè)計、發(fā)表,而定義針對指定應(yīng)用的測試集合非常有必要。
再繼續(xù)討論自動駕駛中科研探索與量產(chǎn)落地的狀態(tài)有多大的區(qū)別。幾十年前美國的LIFE雜志就有一篇文章暢想道,通過車路協(xié)同技術(shù)和自動駕駛技術(shù),車就不需要司機了。早在2005年、2007年的第二、第三次Darpa挑戰(zhàn)賽上,就已經(jīng)有多個車隊可以完成Darpa設(shè)計的任務(wù)。然而,在現(xiàn)在頭部企業(yè)的量產(chǎn)車,仍然停留在輔助駕駛階段,要求司機用手抓著方向盤,如果司機手不抓方向盤就會從自動駕駛當(dāng)中退出來,所以很多人在方向盤上面加個橘子等物品,就可以騙過車輛實現(xiàn)脫手。從上面三個側(cè)面,我們看到在文學(xué)作品的暢想,科研探索,以及量產(chǎn)落地上,自動駕駛的形態(tài)有很大的不同。原因也是在于在科研探索上,對于成本,可覆蓋場景,耐久,或者是美觀上,與量產(chǎn)落地的考量都有不同。
就自動駕駛需要應(yīng)對的場景多樣性方面,我再來舉幾個例子。第一個圖片是一臺加州的油罐車。因為天氣很好,油罐車表面光滑,就有很多其他汽車的倒影,如果使用單目視覺技術(shù)而不做傳感器融合或者立體視覺的話,就很容易有一些誤識別是非常危險的;第二個是某個頭部企業(yè)把一臺貨運車識別成了云彩,發(fā)生了慘案;最邊上的是美國農(nóng)村拍的行人照片,因為行人穿了很奇怪的服裝,造成有些識別技術(shù)有障礙,因為從來沒有見過這樣的訓(xùn)練樣本。阻礙人工智能賦能自動駕駛困難和挑戰(zhàn)來自于長尾分布,每一種情況發(fā)生的事件數(shù)量很少,但是事件種類卻非常多,這樣就給人工智能落地帶來了最大的挑戰(zhàn)。
除此之外,中國本土化的場景跟自動駕駛技術(shù)主要起源的美國本地場景會有很多不同,例子包括一些特殊極端的天氣狀況、城市內(nèi)的人車混流、駕駛習(xí)慣包括但不限于遠光燈的使用等。另外一個例子是交通牌。中國的交通牌安裝、擺放方式跟美國有很多不同。此外,交通牌的內(nèi)容、形狀也有不同的地方。中文的交通牌,需要中文的OCR模型來識別。為了應(yīng)對這些挑戰(zhàn),我們設(shè)計了能夠識別所有中國國家標(biāo)準(zhǔn)定義的交通標(biāo)志的模型,巧妙的把多種類型的模型(分類,識別等)融合在一個完整的框架中去。這個跟很多學(xué)術(shù)研討里選擇一些特定種類的交通標(biāo)志來識別有很大的不同,難度也上了一個臺階。
正式因為以上挑戰(zhàn)的存在,我們把自動駕駛分了級,從L0級到L5級。很多人也都知道L0到L3級的時候都需要人,L3雖然可以解放雙手解放雙腳,但還需要把注意力集中在路面,只有L4級人才可以不看路面,駕駛的主體從人切換到車。近期,量產(chǎn)L3普遍進入了攻堅階段,并且能夠通過L3的部署,大量得到用戶使用反饋,拓寬使用場景數(shù)據(jù),實現(xiàn)數(shù)據(jù)閉環(huán)。這也是技術(shù)到量產(chǎn)的必由之路,分階段實現(xiàn),最后達成目標(biāo)。
為了應(yīng)對以上挑戰(zhàn),,兼顧數(shù)據(jù)量,場景覆蓋度,成本,以及真實度,我在小鵬汽車有機整合了公開的互聯(lián)網(wǎng)大數(shù)據(jù)、仿真數(shù)據(jù)、測試車隊數(shù)據(jù)以及本土真實用戶的脫敏數(shù)據(jù);并合理構(gòu)建知識圖譜。第一,互聯(lián)網(wǎng)大數(shù)據(jù),最近20年人類在努力把所有事情都數(shù)字化,都放在互聯(lián)網(wǎng)上,互聯(lián)網(wǎng)本身就提供了大量數(shù)據(jù);第二,仿真數(shù)據(jù);第三,自有測試車隊數(shù)據(jù);第四,本土用戶的脫敏數(shù)據(jù)形成閉環(huán)。
我們在仿真數(shù)據(jù)生成這個方向上做了很多的努力。第一個例子是為了DMS(駕駛員分神預(yù)警系統(tǒng))生成訓(xùn)練數(shù)據(jù)。因為駕駛員注意力識別中很重要的一個模塊就是從人臉圖像/視頻中估計人的頭部姿態(tài)(另一個是眼球方向)。然而,在采集頭部姿態(tài)的訓(xùn)練數(shù)據(jù)時,我們很難要求被采集人很精確的把腦袋轉(zhuǎn)到某一個指定的角度。我們通過視覺生成技術(shù)(3D reconstrucTIon + GAN),可以從一張人臉圖片出發(fā),精確的生成多個特定頭部姿態(tài)的人臉圖像,從而得到大量的訓(xùn)練數(shù)據(jù)。此外,仿真數(shù)據(jù)的生成還包括一個相對比較新的技術(shù)就是跨模態(tài)數(shù)據(jù)生成。為了讓智能駕艙功能在不同的光照條件下都可用,需要采集大量近紅外的圖像做訓(xùn)練。但是近紅外外采集成本比較大,因此我們可以通過一些技術(shù),把更常見的RGB圖象轉(zhuǎn)化為近紅外的圖像來低成本的獲得大量訓(xùn)練數(shù)據(jù)。
第二個構(gòu)建仿真數(shù)據(jù)的例子是識別車外環(huán)境識別。因為很多汽車的特殊場景是比較難采集的:在真實場景下,我們很難要求真實車輛嚴(yán)格按照我們的方式行駛、擺放,甚至有些場景是帶有危險性的。為了解決這個問題,我們就可以生成一些汽車放在路面上。需要注意的是路面的圖像生成也是比較困難的,包括路面紋理、磨損程度、特殊光照等。因為路面有多種多樣變化。大家可以看到現(xiàn)有技術(shù)路面的生成和真實的分布相差比較遠。但是車輛的分布相對集中,對應(yīng)的生成技術(shù)比較成熟。所以我們在需要生成車外環(huán)境數(shù)據(jù)時候,路面的圖像是真實的,再在上面生成仿真出來的車輛,用這樣一種方式產(chǎn)生大量低成本的訓(xùn)練數(shù)據(jù),提高訓(xùn)練數(shù)據(jù)的場景豐富度。
在真實路測方面,2019年Waymo的測試公里數(shù)達到2000萬公里,在所有自動駕駛技術(shù)公司里面排名第一。做為量產(chǎn)車交付企業(yè),我們采用了影子模式來豐富測試,把模型部署在交付車輛上來收集采集數(shù)據(jù)來做生產(chǎn)驗證,這能幫助我們發(fā)現(xiàn)非常多之前想象不到的例子。
以基于智能雨量識別的雨刮功能來探討影子模式。我們不需要像傳統(tǒng)車一樣搭載一個傳感器,只要用車的攝像頭就能看到有沒有雨滴,這樣可以減少一個額外傳感器的成本,并且準(zhǔn)確率要遠遠優(yōu)于傳統(tǒng)的雨量傳感器。第二個好處自動駕駛像守門員一樣能夠告訴你攝像頭成像的效果好不好,是不是符合自動駕駛的工況。特斯拉前一段時間發(fā)推特把這個作為非常重要的工作來做。但是這樣的功能遇到的場景束縛非常多,雨滴也有很多的不規(guī)則性。右邊的圖可以看到某種馬賽克墻磚的紋理和雨滴非常像,包括特定的落葉造成的光影也會和雨滴比較像,這樣的情況(corner case)在實驗室做,不真實的去量產(chǎn)車上去跑,人是想象不出來的。只有通過大量量產(chǎn)車驗證,才能夠把人想象不出來的案例收集回來,快速迭代,在用戶真正使用之前把這些問題都解決掉。以智能雨量識別功能研發(fā)為先導(dǎo),我們搭建了自動駕駛整體的數(shù)據(jù)閉環(huán)系統(tǒng),在中國量產(chǎn)車企業(yè)內(nèi)是首批實現(xiàn)的
此外,做落地一定要落到車上去,就離不開模型優(yōu)化、量化到車載芯片。車能夠選擇的芯片種類目前是小于手機的,根據(jù)不同車配置的成本和定位的不同,我們聚焦在三款芯片上:TI、Qualcomm、Nvidia。其中,我們選擇了一款低成本的TI芯片,算力比較弱。但是我們通過模型優(yōu)化和定點化技術(shù),就可以在10幾個M的空間里面放進去幾十個模型,并且能夠保持較高的精度。
實際上,模型的優(yōu)化和量化,不僅僅是優(yōu)化量化本身,實際上是根據(jù)車不同的芯片種類來有針對性的量化,在量產(chǎn)車上跑得快的算法才是好算法。其中核心工作就是利用非常有限的資源,實現(xiàn)高效創(chuàng)新和迭代,解決無線的問題,實際的生產(chǎn)生活中,人工智能要實現(xiàn)落地,要解決的問題是無窮無盡的。
落地路徑的基礎(chǔ)是感知,核心是人機交互,難點是切換。為什么基礎(chǔ)是感知?因為前面有沒有車,知道安全線在哪是行車最基礎(chǔ)的信息,包括車內(nèi)感知要做到千人千面,以及對司機疲勞分神的感知,這些都是做汽車的基礎(chǔ)。為什么交互是核心?L3級自動駕駛中,人還是駕駛的主體,人和機器是在不停交互的,如何做好交互是產(chǎn)品力的核心所在。那為什么切換是難點?因為L3級自動駕駛車在行駛過程中,會遇到一些車覺得自己控制不了的突發(fā)情況,就要把駕駛主體換到人。什么時候做切換,需要汽車對于自己駕駛的可靠性、對于檢測的可靠性以及執(zhí)行度都有比較清晰的判斷,同時對司機狀態(tài)也有清晰的判斷。切換是難點,切換的基礎(chǔ)就是對車的理解。
對于科學(xué)家,或者科研工作者而言,在企業(yè)中要做的不僅是現(xiàn)有科技成果的轉(zhuǎn)化,還要從實際落地場景中找到一些新的問題,從新的問題中再去探索新的答案,這本身也是科技創(chuàng)新的重要方面。