谷歌行人檢測(cè)系統(tǒng):給無(wú)人駕駛車減減負(fù)
“我就看看,我不買”是句徹頭徹尾的違心話,可以翻譯成“有尖貨但錢包瘦”。
比如谷歌那輛圓頭圓腦自己會(huì)跑的小車車,大概誰(shuí)都想來(lái)一輛,把自己開上陽(yáng)光(參配、圖片、詢價(jià))點(diǎn)點(diǎn)的街道。但是車身圍繞的各種昂貴傳感器,讓它無(wú)法立刻成為人人可享的出行座駕。盡管私有不是谷歌小車的理想應(yīng)用場(chǎng)景,但成本也是車輛共享經(jīng)濟(jì)和公共服務(wù)普及的一道門檻。
驅(qū)動(dòng)谷歌無(wú)人駕駛車自如跑動(dòng)的技術(shù),原本都是私藏的商業(yè)機(jī)密。不過前不久西雅圖IEEE機(jī)器人和自動(dòng)化國(guó)際會(huì)議(ICRA)上,有人幸運(yùn)地獲知了谷歌正在琢磨的最新行人監(jiān)測(cè)系統(tǒng)。讓人欣喜的是,技術(shù)手段不僅強(qiáng)化了功能,還降低了成本。
用攝像頭代替昂貴傳感器
我們都知道,識(shí)別、追蹤、避開行人是任何企業(yè)研發(fā)無(wú)人駕駛車都要具備的核心技能。谷歌無(wú)人駕駛車主要靠雷達(dá)、激光雷達(dá)和照相機(jī)來(lái)判斷路況,確保車子能識(shí)別百米內(nèi)的行人。但是傳感器的電池非常貴,尤其是車頂旋轉(zhuǎn)的激光雷達(dá)單元,電池花費(fèi)近萬(wàn)美金。多單元的配置,價(jià)格恐怕還得抬一抬。
相比而言,攝像頭就要便宜不少。如果自動(dòng)駕駛車只需用攝像頭就能靠譜定位路人,無(wú)人駕駛車快速普及將更進(jìn)一步。這樣一來(lái),車輛“看”路所需標(biāo)配,就是視頻分析系統(tǒng)。
以往最好的視頻分析系統(tǒng)會(huì)使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)——機(jī)器通過訓(xùn)練后,能極其準(zhǔn)確地分辨圖像和各種數(shù)據(jù),來(lái)完成算法學(xué)習(xí)。利用深度神經(jīng)網(wǎng)絡(luò)技術(shù),處理器中的視頻分析過程可以分為好幾個(gè)層次,分別為輸入層、輸出層,以及兩層之間的多個(gè)處理層。
圖像識(shí)別時(shí),輸入層會(huì)學(xué)習(xí)一幅圖像的像素特點(diǎn)。下一層處理層通過學(xué)習(xí)把這些特點(diǎn)組合起來(lái),然后通過中間層的層層處理,在像素點(diǎn)和物體間逐步建立更加復(fù)雜的關(guān)聯(lián)。最后輸出層就會(huì)推測(cè)出整個(gè)系統(tǒng)“看見”了什么。
現(xiàn)代的深度神經(jīng)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率超過99.5%,如果讓它和我們來(lái)一場(chǎng)比賽,可以跑贏人類大腦。但是視頻照相機(jī)有他的不足。一位任職于谷歌計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)的科學(xué)家Anelia Angelova科普道,“視覺信息相比雷達(dá)數(shù)據(jù),可以給車描摹一個(gè)更廣闊的視域,但是整個(gè)處理過程要慢一些。”因此傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)技術(shù)在行人檢測(cè)場(chǎng)景的應(yīng)用,一直比較緩慢。
整個(gè)過程的主要耗時(shí)在于,系統(tǒng)要把每一張街景圖分成10萬(wàn)或更多的小碎片,然后逐個(gè)分析。這樣一來(lái),每張圖要花費(fèi)數(shù)秒到數(shù)分鐘的時(shí)間。這在要求車輛幾秒就能駛出很長(zhǎng)距離的城市導(dǎo)航場(chǎng)景下,“慢速”的行人監(jiān)測(cè)就半點(diǎn)用也沒有了。不久前的測(cè)試中,一輛車用這樣深度神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)識(shí)別行人,結(jié)果就把人和道具撞了個(gè)人仰馬翻。
新系統(tǒng)行人監(jiān)測(cè)“三步曲”
上面是一幅谷歌深度學(xué)習(xí)系統(tǒng)在不同情形下,監(jiān)測(cè)行人的效果圖。最新的行人檢測(cè)系統(tǒng)只靠攝像機(jī)影像來(lái)掌握行人動(dòng)向,但是優(yōu)化了速度問題。系統(tǒng)監(jiān)測(cè)行人的速度更快,分為三步,我們不妨來(lái)細(xì)細(xì)看下識(shí)別過程:
第一步還是深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖片像素特點(diǎn)。不同的是,單次進(jìn)入網(wǎng)絡(luò)學(xué)習(xí)的照片只是被“撕”成了幾十片,而不是老方法的成千上萬(wàn)塊。網(wǎng)絡(luò)被訓(xùn)練成可在不同場(chǎng)景中多線程作業(yè),挑選出它覺得是行人的圖像部分。
第二步是另一項(xiàng)深度神經(jīng)網(wǎng)絡(luò)工作——對(duì)第一步產(chǎn)生的結(jié)果提純,進(jìn)一步分析篩選特征數(shù)據(jù)。
第三步和傳統(tǒng)步驟類似,判斷是不是行人或是其他障礙,最后輸出結(jié)果。
看起來(lái)步驟并未減少,但是因?yàn)槊看慰煞治龅乃槠兇?,且歷經(jīng)篩選過程后,只需重點(diǎn)關(guān)注可能有行人的小塊圖像區(qū)域,所以一路走下來(lái)要比上面的網(wǎng)絡(luò)學(xué)習(xí)快了 60到100倍。谷歌自動(dòng)駕駛車和街景圖采集裝置中,如果安裝了這個(gè)系統(tǒng),只需要一天的訓(xùn)練時(shí)間,車就可以進(jìn)入狀態(tài),在0.25秒左右的時(shí)間內(nèi)準(zhǔn)確識(shí)別行人。
另外值得一提的是,機(jī)器根據(jù)圖像判斷前方內(nèi)容,是一個(gè)現(xiàn)有數(shù)據(jù)和已有數(shù)據(jù)比對(duì)的過程。以往谷歌自動(dòng)駕駛車會(huì)和以前自己采集到視頻中的行人影像作比較,然后再下結(jié)論判斷。現(xiàn)在,研究人員使用了一個(gè)行人圖像數(shù)據(jù)庫(kù),讓系統(tǒng)比對(duì)庫(kù)中之前網(wǎng)絡(luò)學(xué)習(xí)的結(jié)果,這樣也可省下一些分析時(shí)間。
自動(dòng)駕駛車必須要在瞬時(shí)就能判斷出眼前的是不是人類,這樣才能安全地采取躲避方案。Angelova介紹,雖然還沒有達(dá)到實(shí)際應(yīng)用中,0.07秒實(shí)時(shí)反應(yīng)時(shí)間的理想標(biāo)準(zhǔn),但是這個(gè)新系統(tǒng)已經(jīng)能在其他傳感器失靈時(shí),成為有效的替補(bǔ)。
車云小結(jié):
就在車云菌截稿時(shí),又看到了谷歌收購(gòu)傳感器公司Lumedyne的新聞,未來(lái)這家公司或許會(huì)為無(wú)人駕駛車提供產(chǎn)品,替代人們雙眼。隨著處理器越來(lái)越強(qiáng)大,深度網(wǎng)絡(luò)學(xué)習(xí)的能力也會(huì)越來(lái)越強(qiáng),表現(xiàn)更值得期待。當(dāng)技術(shù)更新且快速應(yīng)用,可以帶來(lái)成本下降。車頂旋轉(zhuǎn)激光雷達(dá)可能會(huì)消失,你我也可以搖下無(wú)人駕駛車的車窗,打個(gè)招呼。