解決機(jī)器人控制問(wèn)題 能很好的處理離散和連續(xù)動(dòng)作空間
機(jī)器人技術(shù)的基本問(wèn)題既涉及離散變量(比如控制模式或齒輪切換的選擇),又涉及連續(xù)變量(比如速度設(shè)定點(diǎn)和控制增益)。通常來(lái)說(shuō),由于算法或控制策略并不總是適合的,因此這些問(wèn)題很難解決。這就是為什么谷歌母公司Alphabet的DeepMind的研究人員最近提出了一種技術(shù):連續(xù)-離散混合學(xué)習(xí),即可以同時(shí)優(yōu)化離散和連續(xù)動(dòng)作,以其本來(lái)的形式處理混合問(wèn)題。
在預(yù)印本服務(wù)器Arxiv.org上發(fā)表的一篇論文詳細(xì)介紹了他們的工作,這篇論文也在去年10月日本大阪的第三屆機(jī)器人學(xué)習(xí)會(huì)議上被人接受。作者寫(xiě)道:“許多先進(jìn)的方法都進(jìn)行了優(yōu)化,它們能很好處理離散的或是連續(xù)的動(dòng)作空間,但是卻很少有方法能同時(shí)處理。能夠使用同一算法強(qiáng)大地處理離散和連續(xù)動(dòng)作空間,使我們能夠針對(duì)任何給定問(wèn)題都能選擇最自然的解決方案策略,而不是讓算法上的便利性來(lái)決定做出哪種選擇。”
團(tuán)隊(duì)研發(fā)的無(wú)模型算法,是指利用強(qiáng)化學(xué)習(xí)或者獎(jiǎng)勵(lì)實(shí)現(xiàn)目標(biāo)的自主代理人的培訓(xùn)技術(shù),通過(guò)連續(xù)和離散動(dòng)作空間來(lái)解決控制問(wèn)題,并通過(guò)受控和自主切換來(lái)解決混合最優(yōu)控制問(wèn)題。此外,這種算法通過(guò)使用“元?jiǎng)幼鳌被蚱渌愃品桨竵?lái)擴(kuò)大動(dòng)作空間(分別定義了代理人可能感知和采取的狀態(tài)和動(dòng)作的范圍),從而為解決現(xiàn)有的機(jī)器人問(wèn)題提供了新穎的解決方案,并使策略可以解決類似人工智能訓(xùn)練期間的機(jī)械磨損等挑戰(zhàn) 。
研究人員在一系列模擬和現(xiàn)實(shí)基準(zhǔn)測(cè)試中驗(yàn)證了他們的方法,包括Rethink Robotics公司的Sawyer機(jī)器人手臂。據(jù)稱,基于給定的到達(dá)、抓取和拿起魔方的任務(wù),其中獎(jiǎng)勵(lì)是三個(gè)子任務(wù)的總和,因此他們的算法要優(yōu)于無(wú)法解決任務(wù)的現(xiàn)有方法。
那是因?yàn)榈竭_(dá)魔方需要代理人打開(kāi)手臂的抓具,而抓取方塊需要關(guān)閉抓具。作者寫(xiě)道:“一開(kāi)始,基線將大部分概率集中在較小的動(dòng)作值上,因此很難移動(dòng)抓具的手指來(lái)看到任何獎(jiǎng)勵(lì),從而解釋了學(xué)習(xí)曲線上的平穩(wěn)期。另一方面,這個(gè)算法能始終以全速操作抓具,因此改進(jìn)了探查性,使機(jī)器人可以完全完成任務(wù)?!?/p>
在一個(gè)單獨(dú)的實(shí)驗(yàn)中,團(tuán)隊(duì)將其算法設(shè)置為參數(shù)化動(dòng)作空間馬爾可夫決策過(guò)程(PAMDP)或一個(gè)分層問(wèn)題,其中,代理人首先選擇離散動(dòng)作,然后為該動(dòng)作選擇一組連續(xù)的參數(shù)集。在這種情況下,代理人的任務(wù)是操縱機(jī)器人手臂,以便將釘子插入孔中,然后根據(jù)孔的位置和運(yùn)動(dòng)學(xué)來(lái)計(jì)算獎(jiǎng)勵(lì)。
研究人員表示,他們的方法比精細(xì)方法和粗略方法獲得了更大的回報(bào),并且這種算法將來(lái)可以作為基礎(chǔ)應(yīng)用到更多的混合強(qiáng)化學(xué)習(xí)中。論文中寫(xiě)道:“對(duì)于專業(yè)設(shè)計(jì)師而言,事先選擇合適的模式可能很困難。而我們的方法是很有用的,因?yàn)樗恍枰粋€(gè)實(shí)驗(yàn),而別的方法都需要通過(guò)消融來(lái)進(jìn)行驗(yàn)證?!?/p>