最近,在西雅圖舉辦的IEEE國際機器人與自動化大會(ICRA)上,與會者們見到一種新的安全設(shè)備,該設(shè)備十分難得一見,目前正由科技巨頭谷歌研發(fā)。Anelia Angelova是谷歌的一名高級研究員,從事計算機視覺和機器學(xué)習(xí)的研發(fā)工作。她展示了一種新的行人檢測系統(tǒng),該系統(tǒng)可單獨處理視頻影像。
對于任何無人駕駛汽車來說,能識別,追蹤和躲避行人是一項十分重要的功能。谷歌的車輛上就裝滿了激光雷達,無線電探測器和攝像機,以確保他們能夠確定在數(shù)百米范圍內(nèi)的行人情況。
但一套感應(yīng)器十分昂貴,光車頂上的一個旋轉(zhuǎn)激光雷達裝置就要花費將近10000美元(如果是多功能裝置則花費得更多)。雷鋒網(wǎng)此前也專門分解過無人駕駛汽車的成本。如果自動汽車僅使用廉價的攝像機就能定位行人的話,這將大大降低成本,并且將有希望很快迎來一個機器自由操控汽車的時代。但攝像機有他們自己的問題。Angelova說到,“相較于雷達裝置,視覺信息給你一個更廣闊的視野,但處理速度卻相對較慢。”
至少它曾經(jīng)是這樣的。最好的視頻分析系統(tǒng)使用的是深層神經(jīng)網(wǎng)絡(luò),這種機器學(xué)習(xí)算法可以被訓(xùn)練,從而能對圖像信息(和其他類型的數(shù)據(jù))進行十分準(zhǔn)確的分類。深層神經(jīng)網(wǎng)絡(luò)依靠多個處理層,這些處理層位于輸入層和輸出層之間。為了進行圖像識別,輸入層會學(xué)習(xí)圖像的像素特征,下一層則要學(xué)習(xí)這些功能的組合,并通過中間層,逐漸形成更加精密復(fù)雜的關(guān)系。輸出層則負責(zé)推測系統(tǒng)在關(guān)注些什么。
現(xiàn)代深層網(wǎng)絡(luò)可以在諸如人臉識別等任務(wù)方面勝人一籌,準(zhǔn)確率超過99.5%。但Angelova解釋道,傳統(tǒng)的用于行人檢測的深層網(wǎng)絡(luò)速度很慢,它將每個街道圖像劃分為100000個甚至更多的小碎片,然后反過來對每個碎片進行分析。這可能需要幾秒鐘甚至幾分鐘每幀,使他們無法用于城市街道的巡視。使用這種網(wǎng)絡(luò)的汽車無法對行人進行及時的探測,可能在它發(fā)現(xiàn)行人的時候就已經(jīng)超了過去。
Angelova的新型高速行人檢測器分為三個單獨的階段。
-第一階段是一種深層網(wǎng)絡(luò),相較于之前的成千上萬的碎片而言,它只需將圖像信息分割成幾十塊碎片,可在多個地點同時進行多項檢測,從而對行人進行識別。
-第二個階段則是另一種網(wǎng)絡(luò),它能對識別結(jié)果進行改良。
-第三階段則是一種傳統(tǒng)的深層網(wǎng)絡(luò),它將最終識別結(jié)果,即是否發(fā)現(xiàn)行人,進行傳送。
由于這種緩慢準(zhǔn)確的網(wǎng)絡(luò)只對潛在圖像的一小部分進行分析,所以整個處理過程就會進行得更快,大約要比之前的網(wǎng)絡(luò)快60到100倍。Angelova說道,這些圖形處理器的運行和谷歌的無人駕駛汽車十分類似,會對大約一天以內(nèi)的街道圖像進行反饋。然后,它可以在大約0.25秒左右的時間準(zhǔn)確地識別行人。研究人員使用已知的行人圖像數(shù)據(jù)庫,而不是使用谷歌汽車的視頻,因為這樣他們可以將該結(jié)果同之前的網(wǎng)絡(luò)進行比較。
Angelova承認(rèn):“事實上,目前還達不到能用于實際的0.07秒。”為了能安全采取行動,無人駕駛汽車需要在瞬間確認(rèn)是否面對行人。“但這意味著倘若其他感應(yīng)器失靈,新系統(tǒng)能做出及時的補充處理。”
隨著更強大的處理器的出現(xiàn)以及神經(jīng)網(wǎng)絡(luò)容量的增加,Angelova預(yù)計該功能的效果將會顯著提升。她說:“從更加廣闊的視角來看待網(wǎng)絡(luò),你將能感受到更加快速的發(fā)展。”等到大家都能擁有無人駕駛汽車時,其獨特的旋轉(zhuǎn)激光雷達可能已經(jīng)完全消失了。