Google新算法助力下機器人自學行走平均只需3.5小時

時間：2020-05-04 09:51:01

關鍵字：機器人 GOOGLE DAS 模擬

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 在機器人領域，讓機器人保持站立并進行平穩(wěn)的運動一直是一個棘手的挑戰(zhàn)，因為這需要超高的專業(yè)知識和設計水平。盡管一些傳統(tǒng)的機器人能在人工控制的情況下完成站立和運動，但它們的活動范圍也充滿了各種局限性

在機器人領域，讓機器人保持站立并進行平穩(wěn)的運動一直是一個棘手的挑戰(zhàn)，因為這需要超高的專業(yè)知識和設計水平。盡管一些傳統(tǒng)的機器人能在人工控制的情況下完成站立和運動，但它們的活動范圍也充滿了各種局限性。

為了解決這個問題，Google近日和佐治亞理工學院以及加州大學伯克利分校的研究人員聯(lián)合發(fā)表了一篇論文，詳細介紹了他們?nèi)绾纬晒Φ貥嫿艘粋€通過AI以自學走路的機器人。他們給這只四足小機器人起了個可愛的代號“Rainbow Dash”。

根據(jù)世界紀錄，嬰兒從爬行到學會行走的最快速度是6個月，而根據(jù)論文中的測試數(shù)據(jù)顯示，Rainbow Dash平均只需要大約3.5小時來學習向前、向后和左右轉(zhuǎn)彎等運動在堅硬平坦的地面上，該機器人學習走路需要1.5個小時，在由記憶海綿材質(zhì)的床墊上大約需要5.5個小時，在鏤空的地毯上大約需要4.5個小時。

具體來說，該機器人使用深度強化學習，即結合了深度學習和強化學習兩種不同類型的AI技術。通過深度學習，系統(tǒng)可以處理和評估來自其身處環(huán)境的原始輸入數(shù)據(jù)；通過強化學習，算法可以反復試驗，以學習如何執(zhí)行任務，并根據(jù)完成的程度來獲得獎勵和懲罰。也就是說，通過上述的這種方式，機器人便可以在其不了解環(huán)境中實現(xiàn)自動控制策略。

在以往的此類實驗中，研究人員最初都會讓機器人通過模擬來學習真實世界的環(huán)境。在仿真環(huán)境中，機器人的虛擬體首先與虛擬環(huán)境進行交互，然后，算法接收這些虛擬數(shù)據(jù)，直到系統(tǒng)有能力對這些數(shù)據(jù)“應對自如”，一個搭載系統(tǒng)的物理形態(tài)的機器人才會被放置到現(xiàn)實環(huán)境中進行實驗。這種方法有助于避免在試錯過程中對機器人及其周圍環(huán)境造成損害。

不過，環(huán)境雖然容易建模，但通常耗時長，而且現(xiàn)實環(huán)境中充滿了各種意想不到的情況，因此，在模擬環(huán)境中訓練機器人的意義有限。畢竟，此類研究的最終目標恰恰是讓機器人為現(xiàn)實世界的場景做好準備。

Google和佐治亞理工學院以及加州大學伯克利分校的研究人員并沒有“守舊”。在他們的實驗中，從一開始就在真實環(huán)境中對Rainbow Dash進行訓練，這樣一來，機器人不僅能夠很好地適應自己所處的環(huán)境，也能夠更好地適應相似的環(huán)境。

盡管Rainbow Dash能夠獨立運動，這并不代表研究人員可以對其“撒手不管”。在一個環(huán)境中學習行走的最開始，研究人員仍需要對Rainbow Dash手動干預上百次。為了解決這個問題，研究人員限定了機器人運動的環(huán)境，讓其一次性進行多重動作訓練。

在Rainbow Dash自學行走之后，研究人員可以通過連入控制手柄來操控機器人實現(xiàn)理想的運動軌跡，將機器人控制在設定的環(huán)境內(nèi)。此外，機器人在識別到環(huán)境的邊界后，也會自動往回走。在特定的環(huán)境之外，機器人可能會重復摔倒導致機器損壞，那時候就需要另一個硬編碼算法來幫助機器人站起來。

Google在該研究中的負責人Jan Tan告訴媒體，這項研究花費了大約一年的時間才完成。他說道：“我們有興趣讓機器人能夠在各種復雜的現(xiàn)實世界環(huán)境中運動。不過，要設計出能夠靈活處理多樣性和復雜性的運動控制器十分困難。”

雷鋒網(wǎng)了解到，接下來，研究人員希望他們的算法能適用于不同種類的機器人，或適用于多個機器人在同一環(huán)境中同時進行學習。研究人員相信，破解機器人的運動能力將是解鎖更多實用機器人的關鍵人類用腿來走路，如果機器人不會使用腿，它們就不能在人類世界中行走。

然而，讓機器人在人類世界中行走是一個至關重要的課題，它們可以代替人類探索地球上不同的地形或未被人類探索過的地區(qū)，比如太空。但由于該機器人依賴于安裝在其上方的動作捕捉系統(tǒng)來確定位置，該裝置暫時還不能直接用于現(xiàn)實世界。