解決機(jī)器人控制問題能很好的處理離散和連續(xù)動作空間

時間：2020-05-09 16:48:01

關(guān)鍵字：機(jī)器人控制離散機(jī)器人手臂 AMD

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 機(jī)器人技術(shù)的基本問題既涉及離散變量（比如控制模式或齒輪切換的選擇），又涉及連續(xù)變量（比如速度設(shè)定點(diǎn)和控制增益）。通常來說，由于算法或控制策略并不總是適合的，因此這些問題很難解決。這就是為什么谷歌

機(jī)器人技術(shù)的基本問題既涉及離散變量（比如控制模式或齒輪切換的選擇），又涉及連續(xù)變量（比如速度設(shè)定點(diǎn)和控制增益）。通常來說，由于算法或控制策略并不總是適合的，因此這些問題很難解決。這就是為什么谷歌母公司Alphabet的DeepMind的研究人員最近提出了一種技術(shù)：連續(xù)-離散混合學(xué)習(xí)，即可以同時優(yōu)化離散和連續(xù)動作，以其本來的形式處理混合問題。

在預(yù)印本服務(wù)器Arxiv.org上發(fā)表的一篇論文詳細(xì)介紹了他們的工作，這篇論文也在去年10月日本大阪的第三屆機(jī)器人學(xué)習(xí)會議上被人接受。作者寫道：“許多先進(jìn)的方法都進(jìn)行了優(yōu)化，它們能很好處理離散的或是連續(xù)的動作空間，但是卻很少有方法能同時處理。能夠使用同一算法強(qiáng)大地處理離散和連續(xù)動作空間，使我們能夠針對任何給定問題都能選擇最自然的解決方案策略，而不是讓算法上的便利性來決定做出哪種選擇。”

團(tuán)隊(duì)研發(fā)的無模型算法，是指利用強(qiáng)化學(xué)習(xí)或者獎勵實(shí)現(xiàn)目標(biāo)的自主代理人的培訓(xùn)技術(shù)，通過連續(xù)和離散動作空間來解決控制問題，并通過受控和自主切換來解決混合最優(yōu)控制問題。此外，這種算法通過使用“元動作”或其他類似方案來擴(kuò)大動作空間（分別定義了代理人可能感知和采取的狀態(tài)和動作的范圍），從而為解決現(xiàn)有的機(jī)器人問題提供了新穎的解決方案，并使策略可以解決類似人工智能訓(xùn)練期間的機(jī)械磨損等挑戰(zhàn) 。

研究人員在一系列模擬和現(xiàn)實(shí)基準(zhǔn)測試中驗(yàn)證了他們的方法，包括Rethink Robotics公司的Sawyer機(jī)器人手臂。據(jù)稱，基于給定的到達(dá)、抓取和拿起魔方的任務(wù)，其中獎勵是三個子任務(wù)的總和，因此他們的算法要優(yōu)于無法解決任務(wù)的現(xiàn)有方法。

那是因?yàn)榈竭_(dá)魔方需要代理人打開手臂的抓具，而抓取方塊需要關(guān)閉抓具。作者寫道：“一開始，基線將大部分概率集中在較小的動作值上，因此很難移動抓具的手指來看到任何獎勵，從而解釋了學(xué)習(xí)曲線上的平穩(wěn)期。另一方面，這個算法能始終以全速操作抓具，因此改進(jìn)了探查性，使機(jī)器人可以完全完成任務(wù)?！?/p>

在一個單獨(dú)的實(shí)驗(yàn)中，團(tuán)隊(duì)將其算法設(shè)置為參數(shù)化動作空間馬爾可夫決策過程（PAMDP）或一個分層問題，其中，代理人首先選擇離散動作，然后為該動作選擇一組連續(xù)的參數(shù)集。在這種情況下，代理人的任務(wù)是操縱機(jī)器人手臂，以便將釘子插入孔中，然后根據(jù)孔的位置和運(yùn)動學(xué)來計(jì)算獎勵。

研究人員表示，他們的方法比精細(xì)方法和粗略方法獲得了更大的回報(bào)，并且這種算法將來可以作為基礎(chǔ)應(yīng)用到更多的混合強(qiáng)化學(xué)習(xí)中。論文中寫道：“對于專業(yè)設(shè)計(jì)師而言，事先選擇合適的模式可能很困難。而我們的方法是很有用的，因?yàn)樗恍枰粋€實(shí)驗(yàn)，而別的方法都需要通過消融來進(jìn)行驗(yàn)證?！?/p>