當(dāng)前位置:首頁 > 芯聞號(hào) > 充電吧
[導(dǎo)讀]記者注:圖片來自DeepMind眾所周知,強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是一種人工智能訓(xùn)練技術(shù),無論是在棋牌游戲方面打敗人類選手的機(jī)器人,還是在訓(xùn)練自動(dòng)駕駛系統(tǒng)方面,強(qiáng)化學(xué)習(xí)

記者注:圖片來自DeepMind

眾所周知,強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是一種人工智能訓(xùn)練技術(shù),無論是在棋牌游戲方面打敗人類選手的機(jī)器人,還是在訓(xùn)練自動(dòng)駕駛系統(tǒng)方面,強(qiáng)化學(xué)習(xí)都起著至關(guān)重要的作用。

近日,Alphabet 旗下的 DeepMind 發(fā)表了一篇由 27 位研究人員共同完成的論文,詳細(xì)介紹了一個(gè)名為 OpenSpiel 的針對(duì)游戲的強(qiáng)化學(xué)習(xí)框架——這正是 DeepMind 的長(zhǎng)處所在。

OpenSpiel 厲害在哪兒?

這個(gè)名叫 OpenSpiel 的框架可以看作是一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境和算法的集合(其中大部分環(huán)境和算法已經(jīng)進(jìn)行了全面測(cè)試),可以用于通用強(qiáng)化學(xué)習(xí)的研究和游戲的搜索/規(guī)劃研究;它還為分析學(xué)習(xí)動(dòng)態(tài)和其他常見評(píng)估指標(biāo)提供了工具。

記者在論文中發(fā)現(xiàn),OpenSpiel 旨在許多不同的游戲中促進(jìn)多智能體強(qiáng)化學(xué)習(xí),重點(diǎn)是學(xué)習(xí),而不是競(jìng)爭(zhēng);而且,該框架的建設(shè)基于兩個(gè)重要標(biāo)準(zhǔn),即簡(jiǎn)單和輕量——簡(jiǎn)單主要體現(xiàn)在編程語言方面,即便是來自不同領(lǐng)域的研究人員也能輕易理解;輕量則體現(xiàn)在 OpenSpiel 將依賴關(guān)系保持在最低限度,降低了出現(xiàn)兼容性問題的可能性。

就目前而言,OpenSpiel 框架中包含了 28 款游戲和 24 種算法。正如“Spiel(棋牌游戲)”一詞所含之意那樣,該框架支持的也都是相關(guān)的游戲;而且,這些游戲也包括多種博弈方式,比如,常和博弈、零和博弈、協(xié)調(diào)博弈和一般博弈。在編程語言方面,OpenSpiel 的游戲通過 C++ 來實(shí)現(xiàn)、算法則通過 C++ 和 Python 來實(shí)現(xiàn),代碼的一個(gè)子集也被移植到 Swift。

不過,DeepMind 的研究人員指出,OpenSpiel 只在 Linux 系統(tǒng)上進(jìn)行了測(cè)試(Debian 10 和 Ubuntu 19.04),但由于 MacOS 和 Windows 上可自由使用代碼,Openspiel 在這些平臺(tái)上編譯和運(yùn)行時(shí)應(yīng)該也不會(huì)出現(xiàn)問題。

怎么安裝 OpenSpiel?

在論文中,DeepMind 也給出了 OpenSpiel 的安裝方式,他們已經(jīng)在 Debian 和 Ubuntu 兩個(gè) Linux 系統(tǒng)上測(cè)試了框架。安裝方式如下:

值得一提的是,DeepMind 目前還沒有在 Linux 以外的平臺(tái)上測(cè)試 OpenSpiel,所以,一些腳本和指令目前是假定基于 Debian 的發(fā)行版(Debian 和 Ubuntu)。如果使用的是其他 Linux 發(fā)行版本,install.sh 里安裝依賴項(xiàng)的命令依然可用,不過,安裝命令需要自行修改。

為了能夠從任何位置導(dǎo)入 Python 代碼,需要將根目錄和 open_spiel 目錄添加到 PYTHONPATH 之中。

在遵循上述步驟構(gòu)建好 OpenSpiel 之后,從 build 目錄中運(yùn)行示例。

接下來就可以看到框架里的游戲列表,并且運(yùn)行游戲了。

記者(公眾號(hào):記者)注:論文鏈接為 https://arxiv.org/pdf/1908.09453.pdf

項(xiàng)目地址為 https://github.com/deepmind/open_spiel


本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉