人工智能如何從動(dòng)物上學(xué)習(xí)
谷歌研究人員開(kāi)發(fā)了一種 AI 系統(tǒng),該系統(tǒng)可以從動(dòng)物的動(dòng)作中進(jìn)行學(xué)習(xí),從而賦予機(jī)器人更大的靈活性,該機(jī)器人可以完成現(xiàn)實(shí)世界中的任務(wù),例如在多層倉(cāng)庫(kù)和履行中心之間運(yùn)輸物料。
團(tuán)隊(duì)的框架采用了動(dòng)物(在這種情況下為狗)的運(yùn)動(dòng)捕捉剪輯,并使用強(qiáng)化學(xué)習(xí)(一種訓(xùn)練技術(shù),刺激軟件代理通過(guò)獎(jiǎng)勵(lì)來(lái)完成目標(biāo))來(lái)訓(xùn)練控制策略。 他們說(shuō),通過(guò)為系統(tǒng)提供不同的參考運(yùn)動(dòng),研究人員可以“教”四腿的 Unitree Laikago 機(jī)器人執(zhí)行一系列行為,從快速行走(每小時(shí)最高 2.6 英里的速度)到跳躍 。
為了驗(yàn)證他們的方法,研究人員首先匯編了具有各種技能的真狗的數(shù)據(jù)集。然后,通過(guò)在獎(jiǎng)勵(lì)函數(shù)中使用不同的運(yùn)動(dòng),研究人員進(jìn)行了約兩億次訓(xùn)練采樣一個(gè)模擬機(jī)器人來(lái)模仿運(yùn)動(dòng)技能。
但是模擬器通常僅提供真實(shí)世界的粗略近似情況。為了解決這個(gè)問(wèn)題,研究人員采用了一種自適應(yīng)技術(shù),該技術(shù)可以隨機(jī)化模擬中的動(dòng)力學(xué),例如改變物理量,機(jī)器人的質(zhì)量和摩擦力。這些值使用編碼器映射到數(shù)字表示形式(即編碼),該數(shù)字表示形式作為輸入傳遞到機(jī)器人控制策略。 在將策略部署到實(shí)際的機(jī)器人時(shí),研究人員刪除了編碼器,并直接搜索了一組變量,這些變量使機(jī)器人能夠成功執(zhí)行技能。
該團(tuán)隊(duì)說(shuō),他們能夠在大約 50 個(gè)試驗(yàn)中使用不到 8 分鐘的真實(shí)數(shù)據(jù)來(lái)使策略適應(yīng)實(shí)際情況。此外,他們證明了現(xiàn)實(shí)世界中的機(jī)器人學(xué)會(huì)了模仿狗的各種動(dòng)作,包括快跑和慢跑,以及一些關(guān)鍵幀動(dòng)作。