深度學(xué)習(xí)的應(yīng)用就只在無人駕駛上面嗎
掃描二維碼
隨時(shí)隨地手機(jī)看文章
如果你見過自動(dòng)駕駛汽車,也許會(huì)對(duì)車頂上那個(gè)一直在旋轉(zhuǎn)的圓柱體感到好奇。
google的自動(dòng)駕駛汽車這是一個(gè)雷達(dá)傳感器,無人駕駛汽車依靠它在現(xiàn)實(shí)世界中進(jìn)行導(dǎo)航。通過發(fā)射紅外脈沖并測(cè)量其從物體反彈回來所用的時(shí)間,傳感器創(chuàng)建出一個(gè)點(diǎn)云(point cloud),形成一個(gè)關(guān)于汽車周圍環(huán)境的3D快照。
把未經(jīng)處理的點(diǎn)云數(shù)據(jù)變得有實(shí)際意義并不容易,在機(jī)器學(xué)習(xí)時(shí)代以前,往往需要訓(xùn)練有素的工程師通過手工進(jìn)行枯燥地詳列他們想捕捉的特點(diǎn)。但來自MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)研究者們的一系列新論文顯示,他們可以用深度學(xué)習(xí)自動(dòng)化處理廣泛的3D成像應(yīng)用中的點(diǎn)云數(shù)據(jù)。
“今天的計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)中,90%的進(jìn)展只處理二維圖像,”MIT的Justin Solomon教授如是說,他是這一系列由博士生Yue Wang帶頭的論文的通訊作者?!拔覀兊哪繕?biāo)是解決‘更好地表征3D世界’這個(gè)基本需求,其應(yīng)用不僅僅是在自動(dòng)駕駛,而是任何需要理解3D形狀的領(lǐng)域。”
需要從空間里大量的3D點(diǎn)中獲得有意義的信息,先前大多數(shù)從數(shù)據(jù)中提取特征的方式都不是特別成功。在該研究團(tuán)隊(duì)的論文中,他們展現(xiàn)了新的分析點(diǎn)云的“EdgeConv”方式,即通過動(dòng)態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)(dynamic graph convolutional neural network)來分類和分割獨(dú)立物體。
“通過建立鄰近點(diǎn)的圖,算法可以捕獲層次模式( hierarchical patterns )并因此推理出不同類型的通用信息用于各種下游任務(wù)?!盩oyota Research Institute的機(jī)器學(xué)習(xí)科學(xué)家Wadim Kehl說道。
除了開發(fā)“ EdgeConv ”,團(tuán)隊(duì)還探索了點(diǎn)云處理的其他特殊方面。比如,其中一個(gè)挑戰(zhàn)就是大多數(shù)傳感器當(dāng)它們?cè)?D世界中轉(zhuǎn)悠的時(shí)候總是改變角度;每次我們對(duì)一個(gè)物體重新掃描,它的位置可能與上一次我們看見它的時(shí)候不同。把多種點(diǎn)云融合到一個(gè)唯一的世界視角,你需要在一個(gè)叫做“ registration ”的進(jìn)程中對(duì)齊或校準(zhǔn)各種3D點(diǎn)。
從衛(wèi)星數(shù)據(jù)到醫(yī)療手術(shù),“registration”對(duì)于許多成像形式都至關(guān)重要。例如,當(dāng)醫(yī)生需要對(duì)病人進(jìn)行多次磁共振成像掃描時(shí),“registration”使掃描結(jié)果能夠校準(zhǔn)以找出變化。
“‘registration’是讓我們能夠?qū)⒉煌瑏碓吹娜S數(shù)據(jù)集成到一個(gè)共同的坐標(biāo)系中,”Yue Wang說,“沒有它,我們實(shí)際上就無法從所有這些已開發(fā)的方法中獲得有意義的信息?!?/p>
Solomon和Wang的第二篇論文展示了一種稱為“ Deep Closest Point ”(DCP)的新 registration 算法,該算法能夠更好地找到點(diǎn)云的識(shí)別模式、點(diǎn)和邊(稱為“ local features ”),以便將其與其他點(diǎn)云對(duì)齊。這對(duì)于自動(dòng)駕駛汽車在場(chǎng)景中定位(“ localization ”)以及機(jī)器人手定位和抓取單個(gè)物體等任務(wù)尤其重要。
DCP的一個(gè)局限是,它假設(shè)我們可以看到一個(gè)完整的形狀,而不僅僅是一側(cè)。這意味著它無法處理更困難對(duì)齊形狀的部分視角( partial-to-partial registration)的任務(wù)。因此,在第三篇論文中,研究人員提出了一種改進(jìn)的算法,稱之為 Partial Registration Network (PRNet) 。
Solomon說,與2D圖像和照片相比,現(xiàn)有的3D數(shù)據(jù)往往不結(jié)構(gòu)化和難以處理。他的團(tuán)隊(duì)試圖找出如何在沒有很多機(jī)器學(xué)習(xí)技術(shù)所需的可控環(huán)境下,從所有無序的3D數(shù)據(jù)中獲得有意義的信息。
DCP和PRNet成功背后的一個(gè)關(guān)鍵觀察是,點(diǎn)云處理的一個(gè)重要方面是背景。點(diǎn)云A上的幾何特征暗示了將其與點(diǎn)云B對(duì)齊的最佳方式,這可能與將其與點(diǎn)云C對(duì)齊所需的特征不同。例如,在 partial registration 中,一個(gè)點(diǎn)云中形狀的有趣部分可能在另一個(gè)點(diǎn)云中不可見,這使其對(duì)registration無效。
Wang 說,該團(tuán)隊(duì)的工具已經(jīng)被計(jì)算機(jī)視覺社區(qū)和其他領(lǐng)域的許多研究人員使用。甚至物理學(xué)家也在使用它們來實(shí)現(xiàn)csail團(tuán)隊(duì)從未考慮過的應(yīng)用:粒子物理學(xué)。
接下來,研究人員希望在真實(shí)世界的數(shù)據(jù)上使用這些算法,包括從自動(dòng)駕駛汽車上收集的數(shù)據(jù)。 Wang 說,他們還計(jì)劃探索利用自我監(jiān)督學(xué)習(xí)訓(xùn)練系統(tǒng)的潛力,以盡量減少所需的人類注釋。
Solomon和Wang是DCP和PRNET論文的兩位唯一作者。他們?cè)?EdgeConv 論文上的共同作者是研究助理 Yongbin Sun 和麻省理工學(xué)院的 Sanjay Sarma 教授,以及加州大學(xué)伯克利分校的 Ziwei Liu 博士后和倫敦帝國(guó)理工學(xué)院的 Michael M. Bronstein 。
這些項(xiàng)目在一定程度上得到了美國(guó)空軍、美國(guó)陸軍研究辦公室、亞馬遜、谷歌研究公司、IBM、國(guó)家科學(xué)基金會(huì)、斯科爾特理工學(xué)院Next Generation項(xiàng)目和豐田研究所的支持。
來源:易明智能