VR、AI等新技術如何在機器人控制領域應用的

時間：2018-05-31 10:00:10

關鍵字： AI 機器人運動控制

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]為了搞清楚VR、AI等新技術如何在機器人控制領域應用，本文根據(jù)一些相關論文和公開資料，包括Pieter Abbeel的演講，對VR和AI在機器人控制方面的應用進行了簡單梳理，發(fā)現(xiàn)AI和VR等在機器人控制等方面還是有實在的應用，只不過離取得實質性突破，還有相當長的距離。

復雜機器人的運動控制，一直阻擋機器人產業(yè)發(fā)展的老大難問題，遲遲沒有得到很好的解決。即便是代表機器人最高水平的波士頓動力，其機器人離實用也還遠。近兩年發(fā)展迅猛的AI，儼然如萬金油般，被用在各種地方，自然也包括機器人控制領域，而且似乎取得了不錯的效果。前端時間，UCberkely的強化學習專家Pieter Abbeel創(chuàng)辦了Embodied Intelligence，業(yè)務更是直接涵蓋了VR、AI、機器人三大熱點。

為了搞清楚VR、AI等新技術如何在機器人控制領域應用，本文根據(jù)一些相關論文和公開資料，包括Pieter Abbeel的演講，對VR和AI在機器人控制方面的應用進行了簡單梳理，發(fā)現(xiàn)AI和VR等在機器人控制等方面還是有實在的應用，只不過離取得實質性突破，還有相當長的距離。

機器人控制的幾種類型

很多機器人的研究目標很多是模擬人的智能，所以研究人的控制系統(tǒng)，對于機器人有很大的借鑒意義。人體的神經系統(tǒng)由大腦、小腦、腦干、脊髓、神經元等共同構成，復雜而又完善。人體神經系統(tǒng)包括中樞神經系統(tǒng)和周圍神經系統(tǒng)。中樞神經系統(tǒng)由腦和脊髓組成，是人體神經系統(tǒng)的最主體部分。周圍神經系統(tǒng)是從腦和脊髓發(fā)出的分布到全身各處的神經。無數(shù)的神經元存在于神經系統(tǒng)各處，構成神經網絡。

中樞神經網絡負責運動控制，主要分成三層：

大腦：居于最高層，負責運動的總體策劃，各種任務的下達。

小腦：居于中間層，負責運動的協(xié)調組織和實施。人體平衡由小腦控制。

腦干和脊髓：屬于最低層，負責運動的執(zhí)行，具體控制肌肉的骨骼的運動，由腦干和脊髓完成。

三層對運動的調控作用不同，由高到低，低層接收高層的下行控制指令并具體實現(xiàn)。大腦可直接也可間接的通過腦干控制脊髓運動神經。

如果把機器人與人進行類比，機械臂控制器就類似于人的脊髓，負責控制電機(肌肉)和機械機構(骨骼)的具體運動，多足機器人的運動控制器，就類似于人的小腦，負責控制平衡和協(xié)調。而機器人的操作系統(tǒng)層，則類似于人的大腦，感知和認知世界，并下達各種復雜的運動目標。

基于以上類比，參照目前的各類機器人的情況，機器人的運動控制大概可以分成4種任務：

脊髓控制——機械臂運動的基礎控制。工業(yè)機器人，各類機械臂，無人機的底層運動控制等面臨的主要是這類問題。

小腦控制——多足機器人的平衡和運動協(xié)調控制。這塊目前是機器人控制仍未突破的難點，目前做的最好的顯然是波士頓動力。

大腦控制——環(huán)境的感知。主要是掃地機器人、無人機等底層運動控制已經封裝好的機器人的導航和路徑規(guī)劃。需要通過環(huán)境感知，對自身和目標進行定位、導航和運動規(guī)劃。

大腦控制——環(huán)境的認知和交互，也就是機器人具體執(zhí)行交互任務，如控制機械臂抓取物體，執(zhí)行操作等。這是服務機器人需要突破的重要問題。

幾種具體控制的AI應用情況

1.脊髓控制類

脊髓控制的兩種典型的應用是機械臂路徑規(guī)劃和無人機的飛行控制。這類問題屬于傳統(tǒng)自動控制理論，以數(shù)學和動力學建模為基礎，發(fā)展了很多年，已經有了非常完備的理論和實踐基礎，也取得了很好的效果。雖然深度學習在最近很熱，理論上也可以用于這類控制。但目前在這類基礎控制領域，并沒有應用。主要原因可能有：

1)工業(yè)機器人高精度重復特定動作等，基于自動控制理論已經能從數(shù)學上很好的解決，且由于了解原理，屬于白盒系統(tǒng)。既然有可靠的白盒方案，沒必要換成黑盒的神經網絡控制系統(tǒng)。

2)工業(yè)機器人等應用領域，對控制算法穩(wěn)定性要求很高。而作為黑盒方案的神經網絡控制系統(tǒng)，數(shù)據(jù)上還無法證明其穩(wěn)定性。神經網絡控制器一旦發(fā)生問題，難以進行解釋和改進。

3)神經網絡算法基于大量數(shù)據(jù)訓練，而現(xiàn)有的運動控制中，比如飛控，拿到實際實驗數(shù)據(jù)的成本高，大量數(shù)據(jù)的獲取非常困難。

2.小腦控制類

小腦控制典型問題是類人型雙足和多足機器人的平衡和運動協(xié)調控制問題。這方面一直是基于傳統(tǒng)控制理論在進行研究，不過由于相比于機械臂或無人機，其運動的自由度高很多，難度很大。雙足類人機器人給人大多數(shù)的印象還是運動遲緩、僵硬、站不穩(wěn)。波士頓動力的Altas、大狗等已經是在這方面最先進的，波士頓動力學公司并未公布他們使用的技術，但谷歌工程師Eric Jang表示，根據(jù)從演講得來的信息，BD的機器人控制策略使用基于模型的控制器，并不涉及神經網絡相關算法。

3.環(huán)境感知類

主要的場景是服務機器人的路徑規(guī)劃、無人機目標追蹤、工業(yè)機器人的視覺定位等，通過感知環(huán)境，給封裝好的運動控制系統(tǒng)下達目標運動指令。

目標識別

環(huán)境感知過程中的目標識別，如無人機目標的識別和追蹤等，有神經網絡的幫助，可以識別的更準確，已經在大疆等無人機上應用。

定位導航和路徑規(guī)劃

目前機器人的定位導航，主要基于流行的vSLAM或激光雷達SLAM技術。主流的激光雷達方案大概可以分三步，中間部分環(huán)節(jié)可能涉及到一些深度學習，大部分內容并不涉及深度學習相關。

第一步：SLAM，構建場景地圖，用激光雷達構建場景的2D或3D點云，或者重建出3D場景。

第二步：構建語義地圖，可能會對物體進行識別和分割，對場景中的物體進行標記。(有的可能略過這一步)

第三部：基于算法進行路徑規(guī)劃，并驅動機器人的運動。

4.環(huán)境交互

典型應用場景：機械臂抓取目標物體等。與環(huán)境的交互，一直是傳統(tǒng)自動控制難以解決的問題。近年來，以強化學習為基礎，AI相關技術用在了這類問題上，取得了一定的研究進展，但是否是未來的主流方向，仍存在很大爭議。

1)強化學習

強化學習框架中，有一個包含神經網絡的Agent負責決策。Agent以當前機器人傳感器所采集到的環(huán)境為輸入，輸出控制機器人的行動命令action，機器人行動后，再觀察新的環(huán)境狀態(tài)和行動帶來的結果Reward，決定下一步新的行動action。Reward根據(jù)控制目標進行設置，并有正反向之分。例如，如果以自動駕駛為目標，正向的Reward的就是到達目的地，反向就是不能達到目的地，更不好的Reward就是出車禍。然后重復這個過程，目標是最大化Reward。

強化學習的控制過程，本來就是個正向反饋的控制過程，是AI用于機器人控制的基礎。以此為基礎，強化學習在機器人控制方面出現(xiàn)了一些研究成果。

2)環(huán)境中尋找目標

16年，李飛飛組放出了一篇論文，基于深度強化學習，在以目標圖像為輸入的情況下，不建圖去找東西。大致思路是：根據(jù)機器看到的圖，決定怎么走，然后再看圖，再決定新走的一步，直到找到東西。論文將目標圖像作為輸入，訓練出來的神經網絡具有通用性。

這種方式找東西更接近人的思維。訓練出的控制器并沒有記住物體的位置，更不知道房屋的結構。但它記住了在每一個位置，通向各個物體應該怎么走。

3)機器人抓取

傳統(tǒng)的機器人學研究認為，需要非常清楚要抓取的物體的三維幾何形狀，分析受力位置和力的大小，再反向計算機器手如何一步步移動到這些位置。但這種方式抓取不規(guī)則形狀和柔性物體會很困難。例如毛巾，可能需要看成一系列剛體的鏈接，再進行動力學建模分析，但是計算量比較大。而小黃鴨那樣的橡膠，外部并不能看出彈性程度，難以計算出需要施加的正確的力。

Pieter Abbeel、DeepMind和OpenAI關于機器人控制的研究，都以此深度強化學習為基礎?；趶娀瘜W習進行機器人抓取，以機器視角看到的圖像為輸入，以機器最終抓到物體為目標，不斷對機器進行訓練，從而在不建模和不做受力分析的情況下，實現(xiàn)對物體的抓取。Pieter Abbeel已經展示過機器人疊毛巾，開瓶蓋，裝玩具等復雜的動作。

不過基于強化學習也仍有很多問題，如效率低、推理過程長、任務難以描述、不能終身學習、不能最大限度從真實世界獲取信息等。其中一些通過meta學習，one-shot學習，遷移學習，VR示教等方法的引入得到了改善，有些則還暫時難以解決。

5.Dexterity Network

鑒于深度強化學習的各種問題，Pieter Abbeel在UCBerkeley的同事Ken Goldberg，則采用了叫做Dexterity Network(Dex-Net)的研究思路。首先通過傳統(tǒng)機器人學中分析受力和建模的思路，建立一個包含大量數(shù)據(jù)的數(shù)據(jù)集，這個數(shù)據(jù)集里的每一項數(shù)據(jù)包含一個物體的模型和這個物體在不同姿態(tài)下可以被穩(wěn)定抓起來的施力方式，這些施力方式是通過物體模型計算出來的。有了數(shù)據(jù)之后，用這些數(shù)據(jù)訓練一個神經網絡。然后給出一個新物體，通過神經網絡判斷這個物體和數(shù)據(jù)集里哪個物體最相似，然后根據(jù)最相似的物體的數(shù)據(jù)集里包含的施力方式計算出這個新物體的最穩(wěn)定施力方式。

Ken Goldberg的方案的一個重要弊端，是計算量過于龐大。整個算法占用了Google云服務器上的1500臺虛擬機的計算量。此方法也讓“云機器人”這個概念受到了關注。

目前Pieter Abbeel和Ken Goldberg的兩種方法還處于學術爭議階段，新的研究成果還在不斷出現(xiàn)，也還有很多問題沒有解決，尤其是穩(wěn)定性和魯棒性是各方爭議的焦點。不同于語音識別音箱出了錯，無非是鬧個笑話，機器人系統(tǒng)對穩(wěn)定性和可靠性的要求非常高，系統(tǒng)一旦出錯，輕則毀物，重則造成人類的生命危險。Pieter Abbeel也承認目前還沒考慮魯棒性和穩(wěn)定性問題，似乎整體還沒達到商用產品級。

總結

總體而言，以強化學習為代表，AI在機器人控制領域近兩年取得了一些進展，尤其是在過去研究方法難以突破的環(huán)境交互問題方面取得了進展。但基于神經網絡的控制系統(tǒng)，在魯棒性等方面短期似乎難以得到解決，因此離實際應用還有很遠的距離。在多種研究方法的共同努力下，我們也期待機器人控制問題能夠早日有所突破。