伯克利創(chuàng)造出“可看到未來”的機器人,能幫助無人駕駛預(yù)測事故
加州大學(xué)伯克利分校的計算機科學(xué)家們研發(fā)出“可以預(yù)見未來要發(fā)生的事情”的機器人技術(shù)。運用視覺預(yù)見技術(shù),在完全自主學(xué)習(xí)的情況下,這種機器人可以看到如果他們執(zhí)行特定的動作會產(chǎn)生怎樣的結(jié)果。目前的機器人原型還比較簡單,只能預(yù)測幾秒的未來,研究者在NIPS 2017上展示了這項技術(shù)。
對于嬰幼兒來說,玩玩具不僅僅是樂趣和游戲,這對他們學(xué)習(xí)和理解世界的運作方式是很重要的。受此啟發(fā),加州大學(xué)伯克利分校的研究人員開發(fā)了一個機器人,像嬰兒一樣,它從零開始學(xué)習(xí)理解世界,用物體進行實驗,找出如何以最好的路徑移動物體。這樣,機器人能夠“看到”未來要發(fā)生的事情。
這個機器人名為Vestri,它像嬰兒一樣通過擺玩物體來想象如何完成任務(wù)。
UC Berkeley的研究人員開發(fā)了一種機器人學(xué)習(xí)技術(shù),使機器人能夠想象自己的行為的未來,這樣它們就能夠知道如何操作以前從未遇到過的物體。未來,這項技術(shù)可以幫助自動駕駛汽車預(yù)測未來的路況,或者實現(xiàn)更智能的家庭機器人助理,但這個最初的原型專注于從完全自主的游戲中學(xué)習(xí)簡單的動手技能。
這一技術(shù)被稱為“視覺預(yù)見”(visual foresight),使用這種技術(shù),機器人能夠預(yù)測在執(zhí)行某個動作的一個步驟時,它們的攝像機將會看到什么。這些機器人的想象力在現(xiàn)在還比較簡單——只能預(yù)測幾秒鐘的未來——但是它們足夠讓機器人弄清楚如何在桌子上移動物體,而不會碰到障礙物。重要的是,機器人可以在沒有人類的幫助的情況下學(xué)會執(zhí)行這些任務(wù),也不需要有關(guān)物理、環(huán)境或物體的先有知識。這是因為視覺想象力是在無監(jiān)督的探索中從頭開始學(xué)習(xí)的,只有機器人在桌子上擺玩物體。在這個游戲階段之后,機器人構(gòu)建了一個有關(guān)世界的預(yù)測模型,并且可以使用這個模型來操縱它以前從未見過的新物體。
“就像我們?nèi)祟惪梢韵胂笪覀兊膭幼鲗⑷绾我苿迎h(huán)境中的物體一樣,這種方法可以讓機器人想象不同的動作對周圍的世界將產(chǎn)生怎樣的影響,”伯克利大學(xué)電子工程和計算機科學(xué)系助理教授Sergey Levine說,他所在的實驗室開發(fā)了這項技術(shù)。“這可以在復(fù)雜的現(xiàn)實世界中實現(xiàn)對高度靈活的技能進行智能規(guī)劃。”
研究團隊NIPS 2017大會上進行了視覺預(yù)見技術(shù)的demo。
這個系統(tǒng)的核心是基于卷積循環(huán)視頻預(yù)測(convolutional recurrent video prediction)或dynamic neural advection (DNA)的深度學(xué)習(xí)技術(shù)。基于DNA的模型根據(jù)機器人的動作預(yù)測圖像中的像素如何從一個幀移動到下一幀。最近對這類模型的改進,以及大大提高的規(guī)劃能力,使得基于視頻預(yù)測的機器人控制能夠執(zhí)行越來越復(fù)雜的任務(wù),例如在障礙物周圍移動玩具并重新定位多個物體。
“在過去,機器人已經(jīng)能夠在人類主管協(xié)助并提供反饋的條件下學(xué)會技能,這項新工作令人興奮的地方在于,機器人可以完全自主地學(xué)習(xí)一系列的視覺對象操作技能。”Levine實驗室的一名博士學(xué)生、最初的DNA模型的發(fā)明人Chelsea Finn說。
利用這項新技術(shù),機器人將物體推到桌子上,然后利用所學(xué)習(xí)的預(yù)測模型來選擇將物體移動到所需位置的動作。機器人利用從原始攝像頭觀察的學(xué)習(xí)模型來自學(xué)如何避開障礙物,并在障礙物周圍推動物體。
“人類的一生中,通過數(shù)百萬次與各種各樣的物體的互動,在沒有任何教師的情況下學(xué)習(xí)操控物體的技能。我們已經(jīng)證明,建立一個利用大量的自主收集的數(shù)據(jù)來學(xué)習(xí)廣泛適用的操作技能的機器人系統(tǒng)也是可行的,特別是推動物體這一技能。”Frederik Ebert說,他是Levine實驗室的一名研究生,這個項目的研究者之一。
由于通過視頻預(yù)測的控制僅依賴于可以由機器人自主收集的觀察,例如通過攝像機收集的圖像,因此這一方法是通用的,具有廣泛的適用性。與傳統(tǒng)的計算機視覺方法不同,傳統(tǒng)的計算機視覺方法需要人類為數(shù)千甚至數(shù)百萬圖像進行手工標記,構(gòu)建視頻預(yù)測模型只需要未標注的視頻,因此可以完全由機器人自主采集。事實上,視頻預(yù)測模型也已經(jīng)被應(yīng)用于從人類活動到駕駛的各種數(shù)據(jù)集,并且取得了令人信服的結(jié)果。
Levine說:“嬰兒可以通過玩玩具、擺動玩具、抓握等等來理解世界。我們的目標是讓機器人做同樣的事情:通過自主的互動來了解世界是如何運作的。”他說:“這個機器人的能力雖然仍然有限,但它的技能完全是自主學(xué)習(xí)的,這讓它可以通過構(gòu)建之前觀察到的互動模式來預(yù)測復(fù)雜的物理互動。”
UC Berkeley的科學(xué)家們將繼續(xù)通過視頻預(yù)測研究機器人控制,專注于進一步改進視頻預(yù)測和基于預(yù)測的控制,以及開發(fā)更復(fù)雜的方法,使機器人可以收集更集中的視頻數(shù)據(jù),用于復(fù)雜的任務(wù),例如拾取和放置物體,操縱布或繩索等柔軟和可變形的物體,以及組裝。