Facebook推出ReAgent AI強(qiáng)化學(xué)習(xí)工具包
據(jù)外媒報(bào)道,F(xiàn)acebook近日推出ReAgent強(qiáng)化學(xué)習(xí)(reinforcement learning)工具包,首次通過(guò)收集離線反饋(offline feedback)來(lái)實(shí)現(xiàn)策略評(píng)估(policy evaluation)。
目前ReAgent已與Microsoft Azure頂尖AI平臺(tái)實(shí)現(xiàn)合作。
一、“1+1+1”Facebook AI Research近日推出了ReAgent,這是一種強(qiáng)化學(xué)習(xí)工具包,用于構(gòu)建可以接收反饋的決策AI(decision-making AI)。ReAgent可以給用戶行為評(píng)分,并將用戶的輸入行為(例如單擊推薦內(nèi)容)作為訓(xùn)練數(shù)據(jù)。
ReAgent是一個(gè)小型C ++庫(kù),可從GitHub下載,并在任何應(yīng)用程序中嵌入。該工具包包含一組入門(mén)的決策AI模型,一個(gè)用于模型性能評(píng)估的離線模塊,以及一個(gè)使用TorchScript庫(kù)將AI部署到生產(chǎn)中的平臺(tái)。
Horizon是一個(gè)強(qiáng)化學(xué)習(xí)平臺(tái),曾用于Facebook 2018年11月的開(kāi)源生產(chǎn)中,現(xiàn)已成為ReAgent的一部分。
二、建立大規(guī)模實(shí)時(shí)決策AI模塊變得簡(jiǎn)單應(yīng)用研究負(fù)責(zé)人Srinivas Narayanan近日在Facebook的@Scale會(huì)議上說(shuō),ReAgent現(xiàn)在每天要將數(shù)十億個(gè)Facebook上的決定個(gè)性化(personalized),例如Facebook和Instagram上的用戶通知。
Facebook曾在博客中提到:“ReAgent是各類創(chuàng)建AI推理系統(tǒng)(AI-based reasoning systems)的開(kāi)源平臺(tái)中最全面和模塊化的,并且是第一個(gè)通過(guò)收集離線反饋來(lái)實(shí)現(xiàn)策略評(píng)估,從而改進(jìn)模型的?!?/p>
“ReAgent讓建立大規(guī)模的實(shí)時(shí)決策模塊變得簡(jiǎn)單,同時(shí)也讓創(chuàng)建和評(píng)估研究項(xiàng)目以及生產(chǎn)應(yīng)用中的策略變得平民化(democraTIzed)。
三、與Microsoft Azure合作為了繼續(xù)改進(jìn)ReAgent,F(xiàn)acebook發(fā)布了將其應(yīng)用在Microsoft Azure等云服務(wù)中的文檔。Microsoft Azure今年年初推出了自己的強(qiáng)化學(xué)習(xí)服務(wù)。
▲圖片來(lái)源:Microsoft,圖中為Microsoft Azure的全球服務(wù)地區(qū)
在今年夏天Transform會(huì)議上的一次對(duì)話中,OpenAI首席技術(shù)官Greg Brockman和首席科學(xué)家Ilya Sutskever認(rèn)為,未來(lái)AI發(fā)展的核心就是推理( reasoning)和可解釋性(explainability)。
結(jié)語(yǔ):開(kāi)源是好事,也是大勢(shì)所趨
谷歌和微軟作為AI兩大巨頭,均有自己的開(kāi)源AI開(kāi)發(fā)平臺(tái),如谷歌的Google Cloud PredicTIon API和微軟的Microsoft Azure Machine Learning。
如今Facebook也發(fā)布了自己的開(kāi)源AI工具包。AI領(lǐng)域的研發(fā)門(mén)檻在不斷降低,一些中小創(chuàng)企得以加入這場(chǎng)競(jìng)賽,也讓這個(gè)領(lǐng)域不斷注入新鮮的血液,充滿活力。
充分競(jìng)爭(zhēng),交流融合,才會(huì)有更多靈感的迸發(fā)。