當(dāng)前位置:首頁(yè) > 智能硬件 > 機(jī)器人
[導(dǎo)讀] 機(jī)器人技術(shù)的基本問(wèn)題既涉及離散變量(比如控制模式或齒輪切換的選擇),又涉及連續(xù)變量(比如速度設(shè)定點(diǎn)和控制增益)。通常來(lái)說(shuō),由于算法或控制策略并不總是適合的,因此這些問(wèn)題很難解決。這就是為什么谷歌

機(jī)器人技術(shù)的基本問(wèn)題既涉及離散變量(比如控制模式或齒輪切換的選擇),又涉及連續(xù)變量(比如速度設(shè)定點(diǎn)和控制增益)。通常來(lái)說(shuō),由于算法或控制策略并不總是適合的,因此這些問(wèn)題很難解決。這就是為什么谷歌母公司Alphabet的DeepMind的研究人員最近提出了一種技術(shù):連續(xù)-離散混合學(xué)習(xí),即可以同時(shí)優(yōu)化離散和連續(xù)動(dòng)作,以其本來(lái)的形式處理混合問(wèn)題。

在預(yù)印本服務(wù)器Arxiv.org上發(fā)表的一篇論文詳細(xì)介紹了他們的工作,這篇論文也在去年10月日本大阪的第三屆機(jī)器人學(xué)習(xí)會(huì)議上被人接受。作者寫(xiě)道:“許多先進(jìn)的方法都進(jìn)行了優(yōu)化,它們能很好處理離散的或是連續(xù)的動(dòng)作空間,但是卻很少有方法能同時(shí)處理。能夠使用同一算法強(qiáng)大地處理離散和連續(xù)動(dòng)作空間,使我們能夠針對(duì)任何給定問(wèn)題都能選擇最自然的解決方案策略,而不是讓算法上的便利性來(lái)決定做出哪種選擇。”

團(tuán)隊(duì)研發(fā)的無(wú)模型算法,是指利用強(qiáng)化學(xué)習(xí)或者獎(jiǎng)勵(lì)實(shí)現(xiàn)目標(biāo)的自主代理人的培訓(xùn)技術(shù),通過(guò)連續(xù)和離散動(dòng)作空間來(lái)解決控制問(wèn)題,并通過(guò)受控和自主切換來(lái)解決混合最優(yōu)控制問(wèn)題。此外,這種算法通過(guò)使用“元?jiǎng)幼鳌被蚱渌愃品桨竵?lái)擴(kuò)大動(dòng)作空間(分別定義了代理人可能感知和采取的狀態(tài)和動(dòng)作的范圍),從而為解決現(xiàn)有的機(jī)器人問(wèn)題提供了新穎的解決方案,并使策略可以解決類似人工智能訓(xùn)練期間的機(jī)械磨損等挑戰(zhàn) 。

研究人員在一系列模擬和現(xiàn)實(shí)基準(zhǔn)測(cè)試中驗(yàn)證了他們的方法,包括Rethink Robotics公司的Sawyer機(jī)器人手臂。據(jù)稱,基于給定的到達(dá)、抓取和拿起魔方的任務(wù),其中獎(jiǎng)勵(lì)是三個(gè)子任務(wù)的總和,因此他們的算法要優(yōu)于無(wú)法解決任務(wù)的現(xiàn)有方法。

那是因?yàn)榈竭_(dá)魔方需要代理人打開(kāi)手臂的抓具,而抓取方塊需要關(guān)閉抓具。作者寫(xiě)道:“一開(kāi)始,基線將大部分概率集中在較小的動(dòng)作值上,因此很難移動(dòng)抓具的手指來(lái)看到任何獎(jiǎng)勵(lì),從而解釋了學(xué)習(xí)曲線上的平穩(wěn)期。另一方面,這個(gè)算法能始終以全速操作抓具,因此改進(jìn)了探查性,使機(jī)器人可以完全完成任務(wù)?!?/p>

在一個(gè)單獨(dú)的實(shí)驗(yàn)中,團(tuán)隊(duì)將其算法設(shè)置為參數(shù)化動(dòng)作空間馬爾可夫決策過(guò)程(PAMDP)或一個(gè)分層問(wèn)題,其中,代理人首先選擇離散動(dòng)作,然后為該動(dòng)作選擇一組連續(xù)的參數(shù)集。在這種情況下,代理人的任務(wù)是操縱機(jī)器人手臂,以便將釘子插入孔中,然后根據(jù)孔的位置和運(yùn)動(dòng)學(xué)來(lái)計(jì)算獎(jiǎng)勵(lì)。

研究人員表示,他們的方法比精細(xì)方法和粗略方法獲得了更大的回報(bào),并且這種算法將來(lái)可以作為基礎(chǔ)應(yīng)用到更多的混合強(qiáng)化學(xué)習(xí)中。論文中寫(xiě)道:“對(duì)于專業(yè)設(shè)計(jì)師而言,事先選擇合適的模式可能很困難。而我們的方法是很有用的,因?yàn)樗恍枰粋€(gè)實(shí)驗(yàn),而別的方法都需要通過(guò)消融來(lái)進(jìn)行驗(yàn)證?!?/p>

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉