谷歌研究人員開發(fā)了一種 AI 系統(tǒng),該系統(tǒng)可以從動物的動作中進行學習,從而賦予機器人更大的靈活性,該機器人可以完成現(xiàn)實世界中的任務,例如在多層倉庫和履行中心之間運輸物料。
團隊的框架采用了動物(在這種情況下為狗)的運動捕捉剪輯,并使用強化學習(一種訓練技術(shù),刺激軟件代理通過獎勵來完成目標)來訓練控制策略。 他們說,通過為系統(tǒng)提供不同的參考運動,研究人員可以“教”四腿的 Unitree Laikago 機器人執(zhí)行一系列行為,從快速行走(每小時最高 2.6 英里的速度)到跳躍 。
為了驗證他們的方法,研究人員首先匯編了具有各種技能的真狗的數(shù)據(jù)集。然后,通過在獎勵函數(shù)中使用不同的運動,研究人員進行了約兩億次訓練采樣一個模擬機器人來模仿運動技能。
但是模擬器通常僅提供真實世界的粗略近似情況。為了解決這個問題,研究人員采用了一種自適應技術(shù),該技術(shù)可以隨機化模擬中的動力學,例如改變物理量,機器人的質(zhì)量和摩擦力。這些值使用編碼器映射到數(shù)字表示形式(即編碼),該數(shù)字表示形式作為輸入傳遞到機器人控制策略。 在將策略部署到實際的機器人時,研究人員刪除了編碼器,并直接搜索了一組變量,這些變量使機器人能夠成功執(zhí)行技能。
該團隊說,他們能夠在大約 50 個試驗中使用不到 8 分鐘的真實數(shù)據(jù)來使策略適應實際情況。此外,他們證明了現(xiàn)實世界中的機器人學會了模仿狗的各種動作,包括快跑和慢跑,以及一些關(guān)鍵幀動作。