當(dāng)前位置:首頁 > 廠商動(dòng)態(tài) > 廠商文章
[導(dǎo)讀]AI 智能體利用 LLM 自動(dòng)生成獎(jiǎng)勵(lì)算法,訓(xùn)練機(jī)器人完成復(fù)雜任務(wù)。

NVIDIA Research 開發(fā)的一款名為 Eureka 的新型 AI 智能體可以教機(jī)器人復(fù)雜的技能,它教會(huì)了機(jī)器人手快速轉(zhuǎn)筆,并且第一次轉(zhuǎn)得像人類一樣好。

上面視頻中所展示的令人驚嘆的“魔術(shù)”是機(jī)器人通過 Eureka 學(xué)會(huì)熟練完成的近 30 項(xiàng)任務(wù)之一,Eureka 可以自動(dòng)編寫?yīng)剟?lì)算法來訓(xùn)練機(jī)器人。

Eureka 還教會(huì)了機(jī)器人完成打開抽屜和柜子、拋接球、操作剪刀等任務(wù)。

于 10 月 20 日發(fā)布的這一 Eureka 研究包含一篇論文和該項(xiàng)目的 AI 算法,開發(fā)者可以使用 NVIDIA Isaac Gym(一款用于強(qiáng)化學(xué)習(xí)研究的物理模擬參考應(yīng)用)進(jìn)行實(shí)驗(yàn)。Isaac Gym 基于 NVIDIA Omniverse 而構(gòu)建,后者是一個(gè)用于基于 OpenUSD 框架構(gòu)建 3D 工具和應(yīng)用的開發(fā)平臺(tái)。Eureka 自身是由 GPT-4 大型語言模型驅(qū)動(dòng)的。

NVIDIA AI 研究高級(jí)總監(jiān)、Eureka 論文作者之一的 Anima Anandkumar 表示:“在過去十年,強(qiáng)化學(xué)習(xí)取得了空前成功,但依然面臨許多挑戰(zhàn),比如獎(jiǎng)勵(lì)設(shè)計(jì)需要不斷試錯(cuò)才能完成。Eureka 是朝著開發(fā)將生成式和強(qiáng)化學(xué)習(xí)方法結(jié)合以解決這些艱巨的任務(wù)的新算法邁出的第一步?!?

AI訓(xùn)練機(jī)器人

據(jù)該論文介紹,Eureka 生成的獎(jiǎng)勵(lì)程序(可讓機(jī)器人進(jìn)行試錯(cuò)學(xué)習(xí))在超過 80% 的任務(wù)上優(yōu)于人類專家編寫的程序,這使得機(jī)器人的平均性能提高了 50% 以上。

Eureka 教機(jī)械臂打開一個(gè)抽屜。

該 AI 智能體使用 GPT-4 LLM 和生成式 AI 編寫軟件代碼,為機(jī)器人進(jìn)行強(qiáng)化學(xué)習(xí)提供獎(jiǎng)勵(lì)。它不需要任何特定任務(wù)提示或預(yù)定義的獎(jiǎng)勵(lì)模板,并且能夠隨時(shí)結(jié)合人類的反饋改進(jìn)其獎(jiǎng)勵(lì),使結(jié)果更加精準(zhǔn)地符合開發(fā)者的愿望。

利用 Isaac Gym 中的 GPU 加速模擬,Eureka 能夠快速評估大批獎(jiǎng)勵(lì)候選者的質(zhì)量,從而提高訓(xùn)練效率。

Eureka 隨后會(huì)基于訓(xùn)練結(jié)果匯總關(guān)鍵統(tǒng)計(jì)數(shù)據(jù),并指導(dǎo) LLM 改進(jìn)其獎(jiǎng)勵(lì)函數(shù)的生成。通過這種方式,AI 可以自我完善。Eureka 教會(huì)了各類機(jī)器人,包括四足機(jī)器人、雙足機(jī)器人、四旋翼機(jī)器人、靈巧手、協(xié)作機(jī)器人臂等,來完成不同類型的任務(wù)。

該研究論文對 20 個(gè) Eureka 訓(xùn)練任務(wù)進(jìn)行了深入評估,這些任務(wù)基于開源的靈巧性基準(zhǔn),要求機(jī)器人手展示一系列復(fù)雜的雙手任務(wù)。

這些來自九個(gè) Isaac Gym 環(huán)境的測試結(jié)果通過使用 NVIDIA Omniverse 生成的可視化進(jìn)行了展示。

類人型機(jī)器人通過 Eureka 學(xué)習(xí)跑步步態(tài)。

該項(xiàng)目的貢獻(xiàn)者之一、NVIDIA 高級(jí)研究科學(xué)家 Linxi “Jim” Fan 表示:“Eureka 是一個(gè)獨(dú)特的組合,將大型語言模型與 NVIDIA GPU 加速的模擬技術(shù)相結(jié)合,可以實(shí)現(xiàn)靈巧的機(jī)器人控制,并且為藝術(shù)家提供了一種制作物理逼真動(dòng)畫的新方法?!?

除了 NVIDIA Research 最近取得的進(jìn)展(比如使用 GPT-4 構(gòu)建的能夠自主玩 《我的世界》的 AI 智能體 Voyager)之外,這項(xiàng)突破性的研究成果也必將讓開發(fā)者們腦洞大開。

NVIDIA Research 由全球數(shù)百名科學(xué)家和工程師組成,團(tuán)隊(duì)專注于 AI、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、自動(dòng)駕駛汽車、機(jī)器人學(xué)等領(lǐng)域的研究。

進(jìn)一步了解 Eureka 與 NVIDIA Research。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉