當(dāng)前位置:首頁(yè) > 智能硬件 > 機(jī)器人
[導(dǎo)讀] 麻省理工學(xué)院(MIT)的研究人員開(kāi)發(fā)了一種配備了人工智能的機(jī)器人,該機(jī)器人可以在棘手的在線多人游戲中擊敗人類(lèi)玩家,而其中的玩家角色和動(dòng)機(jī)卻被保密。 已經(jīng)建立了許多游戲機(jī)器人來(lái)跟

麻省理工學(xué)院(MIT)的研究人員開(kāi)發(fā)了一種配備了人工智能的機(jī)器人,該機(jī)器人可以在棘手的在線多人游戲中擊敗人類(lèi)玩家,而其中的玩家角色和動(dòng)機(jī)卻被保密。

已經(jīng)建立了許多游戲機(jī)器人來(lái)跟上人類(lèi)玩家的步伐。今年早些時(shí)候,卡內(nèi)基梅隆大學(xué)的一個(gè)團(tuán)隊(duì)開(kāi)發(fā)了世界上第一個(gè)可以擊敗多人撲克專(zhuān)業(yè)人士的機(jī)器人。DeepMind的AlphaGo在2016年成為頭條新聞,以擊敗專(zhuān)業(yè)的Go玩家。還建立了一些機(jī)器人來(lái)?yè)魯?zhuān)業(yè)的國(guó)際象棋玩家或聯(lián)合起來(lái)合作合作游戲,例如在線奪旗。但是,在這些游戲中,機(jī)器人從一開(kāi)始就了解其對(duì)手和隊(duì)友。

在下個(gè)月的神經(jīng)信息處理系統(tǒng)大會(huì)上,研究人員將展示DeepRole,這是第一個(gè)可以贏得在線多人游戲的游戲機(jī)器人,參與者最初對(duì)團(tuán)隊(duì)的忠誠(chéng)度尚不清楚。該機(jī)器人的設(shè)計(jì)是將新穎的“演繹推理”添加到通常用于玩撲克的AI算法中。這有助于其推理出部分可觀察的動(dòng)作,從而確定給定玩家是隊(duì)友或?qū)κ值目赡苄浴Mㄟ^(guò)這樣做,它可以快速了解與誰(shuí)結(jié)盟以及采取哪些行動(dòng)來(lái)確保其團(tuán)隊(duì)的勝利。

研究人員在超過(guò)4,000輪在線游戲“抵抗:阿瓦隆”中將DeepRole與人類(lèi)玩家進(jìn)行比較。在該游戲中,玩家嘗試隨著游戲的進(jìn)行推斷出同齡人的秘密角色,同時(shí)隱藏自己的角色。作為隊(duì)友和對(duì)手,DeepRole始終優(yōu)于人類(lèi)選手。

“如果用機(jī)器人代替人類(lèi)的隊(duì)友,則可以期望團(tuán)隊(duì)獲得更高的獲勝率。機(jī)器人是更好的合作伙伴。”第一作者杰克·塞里諾(Jack Serrino ‘18)說(shuō),他是麻省理工學(xué)院電氣工程和計(jì)算機(jī)科學(xué)專(zhuān)業(yè)的學(xué)生,是狂熱的在線“阿瓦隆”玩家。

這項(xiàng)工作是一個(gè)更廣泛的項(xiàng)目的一部分,該項(xiàng)目旨在更好地模擬人類(lèi)如何做出具有社會(huì)根據(jù)的決定。這樣做可以幫助構(gòu)建更好地理解,學(xué)習(xí)人類(lèi)并與人類(lèi)合作的機(jī)器人。

“人類(lèi)向他人學(xué)習(xí)并與他人合作,這使我們能夠共同實(shí)現(xiàn)我們一個(gè)人無(wú)法獨(dú)自完成的事情,”合著者馬克斯·克萊曼·韋納(Max Kleiman-Weiner)說(shuō),他是大腦,思維與機(jī)器中心和美國(guó)國(guó)防部的博士后。麻省理工學(xué)院和哈佛大學(xué)的腦與認(rèn)知科學(xué)。“像“阿瓦隆”這樣的游戲可以更好地模仿人類(lèi)在日常生活中所經(jīng)歷的動(dòng)態(tài)社交環(huán)境。無(wú)論是在幼兒園的第一天還是在辦公室的第二天,您都必須弄清楚誰(shuí)在團(tuán)隊(duì)中并會(huì)與您一起工作。”

哈佛大學(xué)的David C.Parkes和計(jì)算機(jī)認(rèn)知科學(xué)教授,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室以及腦,思維和機(jī)器中心的成員Joshua B.Tenenbaum和Serrino和Kleiman-Weiner一起加入了本文。

演繹機(jī)器人

在“阿瓦隆”中,隨機(jī)將三名球員秘密分配給“抵抗”隊(duì),將兩名球員隨機(jī)分配給“間諜”隊(duì)。兩名間諜玩家都知道所有玩家的角色。在每個(gè)回合中,一個(gè)玩家提議一個(gè)由兩個(gè)或三個(gè)玩家組成的子集來(lái)執(zhí)行任務(wù)。所有參與者同時(shí)并公開(kāi)投票批準(zhǔn)或拒絕該子集。如果獲得多數(shù)同意,則子集會(huì)秘密確定任務(wù)是成功還是失敗。如果選擇兩個(gè)“成功”,則任務(wù)成功。如果選擇一個(gè)“失敗”,則任務(wù)失敗。反抗玩家必須始終選擇成功,但間諜玩家可以選擇任一個(gè)結(jié)果。抵抗隊(duì)在成功完成三個(gè)任務(wù)后獲勝;在執(zhí)行了三個(gè)失敗的任務(wù)后,間諜團(tuán)隊(duì)獲勝。

贏得游戲基本上歸結(jié)為推論誰(shuí)是反抗或間諜,然后投票給您的合作者。但這實(shí)際上比下棋和撲克更加復(fù)雜。Kleiman-Weiner說(shuō):“這是一個(gè)信息不完善的游戲?!?“您甚至不確定一開(kāi)始就反對(duì)誰(shuí),因此還有一個(gè)發(fā)現(xiàn)階段,尋找與誰(shuí)合作?!?/p>

DeepRole使用一種稱(chēng)為“反事實(shí)后悔最小化”(CFR)的游戲計(jì)劃算法-通過(guò)反復(fù)與自己對(duì)戰(zhàn)來(lái)學(xué)習(xí)游戲-并增加了演繹推理。在游戲的每個(gè)點(diǎn)上,CFR都會(huì)前瞻性地創(chuàng)建由線和節(jié)點(diǎn)組成的決策“游戲樹(shù)”,以描述每個(gè)玩家的潛在未來(lái)動(dòng)作。游戲樹(shù)代表每個(gè)玩家在每個(gè)未來(lái)決策點(diǎn)可以采取的所有可能的動(dòng)作(線)。在進(jìn)行可能數(shù)十億次的游戲模擬時(shí),CFR指出哪些動(dòng)作增加或減少了獲勝的機(jī)會(huì),并反復(fù)修改其策略以包括更多好的決策。最終,它計(jì)劃了一種最佳策略,在最壞的情況下,它會(huì)與任何對(duì)手聯(lián)系在一起。

CFR非常適合像撲克之類(lèi)的游戲,可以通過(guò)公共行動(dòng)(例如下注錢(qián)和棄牌)來(lái)進(jìn)行,但是當(dāng)行動(dòng)為秘密時(shí),CFR會(huì)遇到困難。研究人員的CFR結(jié)合了公共行為和私人行為的后果,以確定參與者是抵抗還是間諜。

該機(jī)器人是通過(guò)對(duì)抗自己作為抵抗力和間諜來(lái)進(jìn)行訓(xùn)練的。在玩在線游戲時(shí),它使用其游戲樹(shù)來(lái)估計(jì)每個(gè)玩家將要做什么。游戲樹(shù)代表一種策略,該策略賦予每個(gè)玩家獲勝的最大可能性,以此作為指定角色。該樹(shù)的節(jié)點(diǎn)包含“反事實(shí)值”,基本上是對(duì)玩家在執(zhí)行給定策略時(shí)獲得的回報(bào)的估計(jì)。

在執(zhí)行每個(gè)任務(wù)時(shí),機(jī)器人會(huì)查看每個(gè)人與游戲樹(shù)相比的玩法。如果在整個(gè)游戲過(guò)程中,玩家做出的決策與機(jī)器人的期望不一致,那么該玩家可能會(huì)扮演另一個(gè)角色。最終,機(jī)器人為每個(gè)玩家的角色分配了很高的概率。這些概率用于更新機(jī)器人的策略,以增加其獲勝的機(jī)會(huì)。

同時(shí),它使用相同的技術(shù)來(lái)估計(jì)第三人稱(chēng)觀察者如何解釋自己的行為。這有助于估計(jì)其他參與者的反應(yīng),從而做出更明智的決策?!叭绻麍?zhí)行的兩人任務(wù)失敗,那么其他玩家就會(huì)知道一個(gè)玩家是間諜。該機(jī)器人可能不會(huì)在未來(lái)的任務(wù)中提議同一個(gè)團(tuán)隊(duì),因?yàn)樗榔渌婕艺J(rèn)為這很糟糕?!比镏Z說(shuō)。

語(yǔ)言:下一個(gè)領(lǐng)域

有趣的是,該機(jī)器人不需要與其他玩家交流,這通常是游戲的關(guān)鍵組成部分?!?Avalon”使玩家可以在游戲過(guò)程中在文本模塊上聊天。Kleiman-Weiner說(shuō):“但是事實(shí)證明,我們的機(jī)器人能夠與其他人一起很好地工作,同時(shí)僅觀察玩家的行為?!?“這很有趣,因?yàn)槿藗兛赡軙?huì)認(rèn)為這樣的游戲需要復(fù)雜的溝通策略?!?/p>

接下來(lái),研究人員可以使機(jī)器人在游戲過(guò)程中使用簡(jiǎn)單的文字進(jìn)行交流,例如說(shuō)出玩家的好壞。那將涉及給文本分配一個(gè)相關(guān)的概率,即玩家是抵抗者還是間諜,機(jī)器人已經(jīng)使用它來(lái)做出決定。除此之外,未來(lái)的機(jī)器人可能會(huì)配備更復(fù)雜的通訊功能,使其能夠玩重語(yǔ)言的社交演繹游戲,例如流行的游戲“狼人”,其中涉及數(shù)分鐘的爭(zhēng)論并說(shuō)服其他玩家了解誰(shuí)在好的和壞的團(tuán)隊(duì)。

“語(yǔ)言絕對(duì)是下一個(gè)領(lǐng)域,” Serrino說(shuō)?!暗窃谀切贤ㄖ陵P(guān)重要的游戲中,攻擊存在許多挑戰(zhàn)。”

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉