關(guān)于機(jī)器人智能抓取AI+Grasp的技術(shù)分析

時(shí)間：2020-04-28 08:54:01

關(guān)鍵字： AI 機(jī)器人 GRASP 多模

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] （文章來源：激光天地）抓取規(guī)劃問題是指確定物體與手指間的一系列接觸位置，使得手指能抵抗任意外力且靈活操作物體的能力。傳統(tǒng)的基于分析的抓取規(guī)劃需要根據(jù)已知的被抓物體模型根據(jù)力閉合的條件判

（文章來源：激光天地）

抓取規(guī)劃問題是指確定物體與手指間的一系列接觸位置，使得手指能抵抗任意外力且靈活操作物體的能力。傳統(tǒng)的基于分析的抓取規(guī)劃需要根據(jù)已知的被抓物體模型根據(jù)力閉合的條件判斷抓取的好，這種方法只適合對已知的物體進(jìn)行抓取。然而日常生活中有很多相似物體，沒有必要為每一個(gè)物體都建立精確的模型，因此可以用相似性匹配的方法解決這類物體的抓取。隨著人工智能的發(fā)展，人工神經(jīng)網(wǎng)絡(luò)可以從大量的已知物體的抓取中提取出有用的抓取基元，從而實(shí)現(xiàn)對未知物體的抓取。這樣做的好處是不必為每個(gè)被抓物體建立幾何模型，讓機(jī)器人智能抓取操作物體。

美國加州大學(xué)伯克利分校提出了利用大量的物體三維模型和分析的方法生成抓取數(shù)據(jù)集，并利用深度圖和卷積神經(jīng)網(wǎng)絡(luò)（CNN）對抓取進(jìn)行分類 [2]。他們首先把抓取簡化為一個(gè)從上至下的夾取（top-down grasp），根據(jù)輸入的點(diǎn)云生成上百個(gè)成對的抓取候選，再利用CNN對候選抓取進(jìn)行快速評分，從而得到最好的抓取。與之前的基于數(shù)據(jù)的抓取不同的是，他們沒有使用費(fèi)時(shí)費(fèi)力的人工標(biāo)定抓取的方式或機(jī)器人隨機(jī)抓取來采集數(shù)據(jù)集，而是利用力閉合的原理通過分析的方式計(jì)算出抓取的好壞（是否力閉合）。這樣的好處是可以低成本的生成大量的數(shù)據(jù)集。

美國西北大學(xué)進(jìn)一步使用點(diǎn)云在不同方向的投影作為人工神經(jīng)網(wǎng)絡(luò)的輸入對抓取進(jìn)行評分并把抓取數(shù)據(jù)集擴(kuò)展到6D位姿抓取。利用點(diǎn)云的好處是可以讓網(wǎng)絡(luò)得到更豐富的信息。不同于Dex-Net，這個(gè)工作使用的是6D抓取位姿作為抓取的表示。在生成抓取候選上，該文使用了一些設(shè)計(jì)好的策略。這個(gè)策略基于物體的曲面形狀。首先隨機(jī)在物體表面采樣一點(diǎn)，以這個(gè)點(diǎn)所在的曲面法向作為抓取候選的朝向，“主成分”方向作為兩個(gè)夾爪連線的方向。并通過基于該抓取的旋轉(zhuǎn)和平移擴(kuò)充抓取候選的個(gè)數(shù)。通過這種采樣方式，可以增加抓取候選中好抓取的比例。經(jīng)過CNN對抓取候選的分類后，最高可達(dá)93%抓取成功率。

進(jìn)一步，德國漢堡大學(xué)張建偉教授團(tuán)隊(duì)和清華大學(xué)孫富春教授團(tuán)隊(duì)共同提出了對上述工作的改進(jìn)[4]。對于數(shù)據(jù)集的生成，通過在給抓取打分時(shí)不斷調(diào)整夾爪和物體之間的摩擦系數(shù)得到一個(gè)更細(xì)化的抓取分?jǐn)?shù)（摩擦系數(shù)越小，抓取分?jǐn)?shù)越高）。這樣的數(shù)據(jù)集可以得到一個(gè)帶分?jǐn)?shù)的抓取，從而可以讓網(wǎng)絡(luò)學(xué)得更細(xì)分的抓取分類。對于網(wǎng)絡(luò)結(jié)構(gòu)上，他們使用了PointNet，這樣的好處是可以直接使用點(diǎn)云作為輸入，不需要對點(diǎn)云進(jìn)行投影。更大的保留了點(diǎn)云的幾何信息。

不同于首先生成抓取候選，再對抓取分類、評分的思路，英偉達(dá)公司的機(jī)器人研究團(tuán)隊(duì)提出了直接根據(jù)輸入的物體點(diǎn)云生成抓取。在數(shù)據(jù)集生成上，他們使用了純物理引擎仿真抓取的方式。這種方法的好處是可以生成用特定規(guī)則生成抓取[3.4]得不到的抓取。這是因?yàn)橥ǔ７治龅姆椒ㄉ勺ト?shù)據(jù)集把抓取簡化成了兩個(gè)點(diǎn)。

而在實(shí)際抓取中，機(jī)器人通常具有兩個(gè)平行的手指作為夾爪。另一個(gè)原因是抓圓環(huán)物體如帶柄的馬克杯時(shí)，力閉合原理無法生成“Caging”的抓取。因此用物理引擎可以完全模擬真實(shí)中的抓取情形，生成更多樣化的抓取。在網(wǎng)絡(luò)上，他們把被抓物體點(diǎn)云和夾爪點(diǎn)云一起作為輸入，使用PointNet++網(wǎng)絡(luò)和自編碼機(jī)的結(jié)構(gòu)生成好的抓取，并利用一個(gè)網(wǎng)絡(luò)優(yōu)化生成的抓取。

基于多模態(tài)的抓取通常是指通過不同的指尖力傳感器在正式抓取前通過“預(yù)抓取”判斷抓取的穩(wěn)定性，從而決定是繼續(xù)抓取還是調(diào)整一個(gè)新的抓取姿態(tài)。清華大學(xué)孫富春教授團(tuán)隊(duì)提出使用視覺來生成抓取，并用指尖的觸覺判斷抓取的穩(wěn)定性[6]。為此，他們采集了一個(gè)視覺、觸覺抓取數(shù)據(jù)集，并分別用兩個(gè)網(wǎng)絡(luò)對抓取進(jìn)行生成和穩(wěn)定性判斷。該團(tuán)隊(duì)又與Intel中國研究院合作，建立了一個(gè)視覺、觸覺、力等多模態(tài)的機(jī)器人抓取數(shù)據(jù)集，通過視觸融合實(shí)現(xiàn)抓取穩(wěn)定判斷[7]。清華大學(xué)孫富春教授團(tuán)隊(duì)也是利用多模態(tài)信息實(shí)現(xiàn)的機(jī)器人智能抓取，而贏得了“IROS2019機(jī)器人靈巧抓取操作比賽”物流分揀項(xiàng)目的冠軍。

加州大學(xué)伯克利分校提出了利用一個(gè)基于視覺的觸覺傳感器—GelSight來進(jìn)行多模態(tài)抓取任務(wù)[8]。得益于他們使用的基于視覺的觸覺傳感器，可以天然的使用廣泛應(yīng)用的視覺處理神經(jīng)網(wǎng)絡(luò)（CNN），通過與抓取，機(jī)器人判斷抓取的好壞并生成下一步的動(dòng)作。這樣這個(gè)機(jī)器人系統(tǒng)可以自主的根據(jù)觸覺反饋調(diào)整抓取策略而不需要人工干預(yù)。

二指抓取的好處是對抓取的表達(dá)比較簡單，但是抓取通常并不是機(jī)器人操作的最終目的，人們往往希望通過手內(nèi)改變被抓物體的姿態(tài)和位置完成一些操作任務(wù)。如使用工具。美國馬里蘭大學(xué)的研究者提出了一個(gè)端到端的多指抓取生成網(wǎng)絡(luò)[9]。這個(gè)網(wǎng)絡(luò)使用點(diǎn)云作為輸入，使用3DCNN網(wǎng)絡(luò)直接生成Shadow多指手的抓取規(guī)劃。

美國麻省理工學(xué)院的學(xué)者針對多指抓取生成過程中網(wǎng)絡(luò)不能適應(yīng)不同的多指手的問題提出了解決方案[10]。他們提了一個(gè)統(tǒng)一的多指抓取模型以適應(yīng)不同的機(jī)械手。首先，他們把爪子和被抓物體的特征映射到一個(gè)低維空間。然后用一個(gè)點(diǎn)云選擇網(wǎng)絡(luò)去生成接觸點(diǎn)，通過接觸點(diǎn)繼而生成一個(gè)無障礙的抓取。

上面的工作都是與任務(wù)無關(guān)的無序抓取，但是在機(jī)器人操作上抓取通常是有目的的。如轉(zhuǎn)移物體，遞給其他機(jī)器人/人，使用抓取的物體。在這一領(lǐng)域最新的工作是西安交通大學(xué)的機(jī)器人課題組[11]。他們在一個(gè)有重疊的場景下完成了基于任務(wù)的抓取。首先，他們建立了一個(gè)合成的堆疊物體的數(shù)據(jù)集，并使用條件隨機(jī)場（CRF）建立了物體的語義模型。這個(gè)模型可以的推導(dǎo)過程用RNN來表示，這樣整個(gè)基于任務(wù)的模型可以端到端進(jìn)行訓(xùn)練。

機(jī)器人的智能抓取已經(jīng)成為研究熱點(diǎn)，也逐漸在物流快件、工件、食品等分揀行業(yè)中凸顯了重要性。未來如何實(shí)現(xiàn)機(jī)器人認(rèn)知的智能抓取操作將會成為重點(diǎn)研究問題。
? ? ?