深度強(qiáng)化學(xué)習(xí)你知道是什么嗎

時(shí)間：2020-05-13 17:36:01

關(guān)鍵字： TENSORFLOW AGENT 函數(shù) PEN

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 強(qiáng)化學(xué)習(xí)非常適合實(shí)現(xiàn)自主決策，相比之下監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)技術(shù)則無法獨(dú)立完成此項(xiàng)工作。強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域長久以來一直扮演著小眾性角色。然而，過去幾年以來，強(qiáng)化學(xué)習(xí)正越來越多地在各類AI項(xiàng)目當(dāng)

強(qiáng)化學(xué)習(xí)非常適合實(shí)現(xiàn)自主決策，相比之下監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)技術(shù)則無法獨(dú)立完成此項(xiàng)工作。強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域長久以來一直扮演著小眾性角色。然而，過去幾年以來，強(qiáng)化學(xué)習(xí)正越來越多地在各類AI項(xiàng)目當(dāng)中發(fā)揮令人矚目的作用。其最突出的應(yīng)用平臺(tái)正是在計(jì)算代理的環(huán)境背景性決策場(chǎng)景當(dāng)中，負(fù)責(zé)判斷最佳行動(dòng)。

憑借著試錯(cuò)法來最大程度提升算法報(bào)酬函數(shù)，強(qiáng)化學(xué)習(xí)得以在IT運(yùn)營管理、能源、醫(yī)療衛(wèi)生、同類型、金融、交通以及貿(mào)易等領(lǐng)域構(gòu)建起大量自適應(yīng)性控制與多代理自動(dòng)化應(yīng)用。其可負(fù)責(zé)對(duì)傳統(tǒng)重點(diǎn)領(lǐng)域（機(jī)器人、游戲以及模擬）的AI方案進(jìn)行訓(xùn)練，并有能力在邊緣分析、自然語言處理、機(jī)器翻譯、計(jì)算機(jī)視覺以及數(shù)字化助手方面帶來新一代AI解決方案。

強(qiáng)化學(xué)習(xí)亦成為物聯(lián)網(wǎng)自主邊緣應(yīng)用發(fā)展的前提性基礎(chǔ)。在工業(yè)、交通運(yùn)輸、醫(yī)療衛(wèi)生以及消費(fèi)者應(yīng)用等方面，大部分邊緣應(yīng)用的開發(fā)工作皆需要構(gòu)建AI驅(qū)動(dòng)型機(jī)器人，從而在動(dòng)態(tài)環(huán)境之下根據(jù)不同情境信息以自主方式完成操作。

強(qiáng)化學(xué)習(xí)的工作原理

在這樣的應(yīng)用領(lǐng)域當(dāng)中，邊緣裝置當(dāng)中的AI大腦必須依賴于強(qiáng)化學(xué)習(xí)技術(shù); 更具體地講，其必須有能力在缺少預(yù)置“基于真實(shí)”的訓(xùn)練數(shù)據(jù)集的前提下，最大程度積累報(bào)酬函數(shù)——例如根據(jù)規(guī)范當(dāng)中包含的一組標(biāo)準(zhǔn)找到問題解決方法。這種作法與其它類型的人工智能學(xué)習(xí)方式——例如監(jiān)督學(xué)習(xí)（立足真實(shí)數(shù)據(jù)最大程度降低算法丟失函數(shù)）以及無監(jiān)督學(xué)習(xí)（立足各數(shù)據(jù)點(diǎn)最大程度降低距離函數(shù)）——正好相反。

然而，AI學(xué)習(xí)方法之間并不一定必須彼此孤立。AI發(fā)展趨勢(shì)當(dāng)中最值得關(guān)注的一點(diǎn)在于，強(qiáng)化學(xué)習(xí)正在各類更為先進(jìn)的應(yīng)用當(dāng)中與監(jiān)督及無監(jiān)督學(xué)習(xí)相融合。AI開發(fā)者們努力將這些方法整合至應(yīng)用程序當(dāng)中，旨在使其實(shí)現(xiàn)單一學(xué)習(xí)方法也不足以達(dá)到的新高度。

舉例來說，在不具備標(biāo)記訓(xùn)練數(shù)據(jù)的情況下，監(jiān)督學(xué)習(xí)本身無法起效——這一點(diǎn)在自動(dòng)駕駛應(yīng)用當(dāng)中體現(xiàn)得尤為顯著。由于每個(gè)瞬時(shí)環(huán)境情況基本上獨(dú)立存在且未經(jīng)預(yù)先標(biāo)記，學(xué)習(xí)方法必須自行找到解決辦法。同樣的，無監(jiān)督學(xué)習(xí)（利用聚類分析來檢測(cè)傳感器源以及其它復(fù)雜未標(biāo)記數(shù)據(jù)中的模式）也無法在現(xiàn)實(shí)世界當(dāng)中的決策場(chǎng)景內(nèi)，準(zhǔn)確識(shí)別智能端點(diǎn)并采取最佳操作。

深度強(qiáng)化學(xué)習(xí)是什么

接下來是深度強(qiáng)化學(xué)習(xí)，這種領(lǐng)先技術(shù)當(dāng)中的自主代理利用強(qiáng)化學(xué)習(xí)的試錯(cuò)算法與累加報(bào)酬函數(shù)以加速神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)。這些設(shè)計(jì)能夠極大支持各類依賴于監(jiān)督與/或無監(jiān)督學(xué)習(xí)的AI應(yīng)用程序。

深度強(qiáng)化學(xué)習(xí)已經(jīng)成為AI開發(fā)以及訓(xùn)練管道當(dāng)中的核心關(guān)注區(qū)域。其利用強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)代理以快速探索各類架構(gòu)、節(jié)點(diǎn)類型、連接、超參數(shù)設(shè)置以及深度學(xué)習(xí)、機(jī)器學(xué)習(xí)乃至其它AI模型，并對(duì)這些供設(shè)計(jì)人員使用的選項(xiàng)進(jìn)行相關(guān)效能權(quán)衡。

舉例來說，研究人員可利用深度強(qiáng)化學(xué)習(xí)從無數(shù)深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)（簡稱CNN）架構(gòu)當(dāng)中快速確定最適合當(dāng)前特征工程、計(jì)算機(jī)視覺以及圖像分類任務(wù)的選項(xiàng)。由深度強(qiáng)化學(xué)習(xí)提供的結(jié)果可供AI工具用于自動(dòng)生成最優(yōu)CNN，并配合TensorFlow、MXNet或者PyTorch等深度學(xué)習(xí)開發(fā)工具完成具體任務(wù)。

在這方面，強(qiáng)化學(xué)習(xí)開發(fā)與訓(xùn)練開放框架的持續(xù)涌現(xiàn)無疑令人振奮。若您希望深入了解強(qiáng)化學(xué)習(xí)，那么以下強(qiáng)化學(xué)習(xí)框架無疑值得關(guān)注——通過運(yùn)用這些框架并對(duì)其加以擴(kuò)展，您將能夠?qū)⑵渑cTensorFlow以及其它得到廣泛應(yīng)用的深度學(xué)習(xí)與機(jī)器學(xué)習(xí)建模工具進(jìn)行對(duì)接：

強(qiáng)化學(xué)習(xí)框架

具體作用以及獲取方式

TensorFlow Agents：TensorFlow Agents 提供多種工具，可通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)各類智能應(yīng)用程序的構(gòu)建與訓(xùn)練。作為TensorFlow項(xiàng)目的擴(kuò)展方案，這套框架能夠?qū)poenAI Gym接口擴(kuò)展至多個(gè)并行環(huán)境，并允許各代理立足TensorFlow之內(nèi)實(shí)現(xiàn)以執(zhí)行批量計(jì)算。其面向OpoenAI Gy環(huán)境的批量化接口可與TensorFlow實(shí)現(xiàn)全面集成，從而高效執(zhí)行各類算法。該框架還結(jié)合有BatchPPO，一套經(jīng)過優(yōu)化的近端策略優(yōu)化算法實(shí)現(xiàn)方案。其核心組件包括一個(gè)環(huán)境打包器，用于在外部過程中構(gòu)建OpenAI Gym環(huán)境; 一套批量集成，用于實(shí)現(xiàn)TensorFlow圖步并以強(qiáng)化學(xué)習(xí)運(yùn)算的方式重置函數(shù); 外加用于將TensorFlow圖形批處理流程與強(qiáng)化學(xué)習(xí)算法納入訓(xùn)練特內(nèi)單一卻步的組件。

Ray RLLib：RLLib 提供一套基于任務(wù)的靈活編程模式，可用于構(gòu)建基于代理且面向多種應(yīng)用場(chǎng)景的強(qiáng)化學(xué)習(xí)應(yīng)用程序。RLLib由伯克利大學(xué)開發(fā)，目前已經(jīng)迎來版本2，其立足Ray實(shí)現(xiàn)運(yùn)行。Ray是一套靈活且高性能的分布式執(zhí)行框架。值得一提的是，RLLib開發(fā)者團(tuán)隊(duì)中的一位成員曾經(jīng)擔(dān)任Apache Spark的主要締造者職務(wù)。

RLLib 可立足TensorFlow與PyTorch框架之內(nèi)起效，能夠?qū)崿F(xiàn)不同算法間的模型共享，并可與Ray Tune超參數(shù)調(diào)整工具進(jìn)行集成。該框架結(jié)合有一套可組合且可擴(kuò)展的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)組件庫。各個(gè)RLLib組件能夠在分布式應(yīng)用程序當(dāng)中實(shí)現(xiàn)并行化、擴(kuò)展、組合與復(fù)用。

RLLib當(dāng)中包含三種強(qiáng)化學(xué)習(xí)算法——近端策略優(yōu)化（簡稱PPO）、異步優(yōu)勢(shì)Actor-Critic（簡稱A3C）以及Deep Q Networks（簡稱DQN），三者皆可運(yùn)行在任意OpenAI Gym Markov決策流程當(dāng)中。其還為各類新算法的開發(fā)工作提供可擴(kuò)展原語，用于將RLLib應(yīng)用于新問題的Python API、一套代理超參數(shù)設(shè)置庫以及多種可插拔分布式強(qiáng)化學(xué)習(xí)執(zhí)行策略。其亦支持由用戶創(chuàng)建自定義強(qiáng)化學(xué)習(xí)算法。

Roboschool：Roboschool 提供開源軟件以通過強(qiáng)化學(xué)習(xí)構(gòu)建并訓(xùn)練機(jī)器人模擬。其有助于在同一環(huán)境當(dāng)中對(duì)多個(gè)代理進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。通過多方訓(xùn)練機(jī)制，您可以訓(xùn)練同一代理分別作為兩方玩家（因此能夠自我對(duì)抗）、使用相同算法訓(xùn)練兩套代理，或者設(shè)置兩種算法進(jìn)行彼此對(duì)抗。

Roboschool由OpenAI開發(fā)完成，這一非營利性組織的背后贊助者包括Elon Musk、Sam Altman、Reid Hoffman以及Peter Thiel。其與OpenAI Gym相集成，后者是一套用于開發(fā)及評(píng)估強(qiáng)化學(xué)習(xí)算法的開源工具集。OpenAI Gym與TensorFlow、Theano以及其它多種深度學(xué)習(xí)庫相兼容。OpenAI Gym當(dāng)中包含用于數(shù)值計(jì)算、游戲以及物理引擎的相關(guān)代碼。

Roboschool基于Bullet物理引擎，這是一套開源許可物理庫，并被其它多種仿真軟件——例如Gazebo與Virtual Robot ExperimentaTIon Platform（簡稱V-REP）所廣泛使用。其中包含多種強(qiáng)化學(xué)習(xí)算法，具體以怨報(bào)德異步深度強(qiáng)化學(xué)習(xí)方法、Actor-CriTIc with Experience Replay、Actor- CriTIc using Kronecker-Factored Trust Region、深度確定性策略梯度、近端策略優(yōu)化以及信任域策略優(yōu)化等等。

Machine Learning Agents：盡管尚處于beta測(cè)試階段，但Unity Technology的Machine Learning Agents已經(jīng)能夠面向游戲、模擬、自動(dòng)駕駛車輛以及機(jī)器人實(shí)現(xiàn)智能代理的開發(fā)與強(qiáng)化學(xué)習(xí)訓(xùn)練。ML-Agents支持多種強(qiáng)化學(xué)習(xí)訓(xùn)練場(chǎng)景，具體涉及各類代理、大腦以及報(bào)酬機(jī)制的配置與彼此交互。該框架的SDK支持單代理與多代理場(chǎng)景，亦支持離散與連續(xù)操作空間。其提供Python API以訪問強(qiáng)化學(xué)習(xí)、神經(jīng)進(jìn)化以及其它機(jī)器學(xué)習(xí)方法。

ML-Agents學(xué)習(xí)環(huán)境包括大量通過與自動(dòng)化組件（即‘大腦’）交互以實(shí)現(xiàn)執(zhí)行的代理。各個(gè)代理皆能夠擁有自己的一套獨(dú)特狀態(tài)與觀察集，在環(huán)境當(dāng)中執(zhí)行特定操作，并在環(huán)境之內(nèi)接收與事件相關(guān)的獨(dú)特報(bào)酬。代理的操作由與之對(duì)接的大腦決定。每個(gè)大腦負(fù)責(zé)定義一項(xiàng)特定狀態(tài)與操作空間，并決定與之相連的各代理應(yīng)采取哪項(xiàng)操作。

除此之外，每個(gè)ML-Agents環(huán)境還包含一個(gè)獨(dú)立“學(xué)院”，用于定義環(huán)境范圍——具體包括引擎配置（訓(xùn)練與推理模式下游戲引擎的速度與渲染質(zhì)量）、幀數(shù)（每個(gè)代理作出新決策的間隔當(dāng)中跳過多少引擎步驟）以及全局事件長度（即事件將持續(xù)多長時(shí)間）。

在大腦能夠設(shè)定的各類模式當(dāng)中，外部模式最值得一提——其中的操作決策利用TensorFlow或者其它選定的機(jī)器學(xué)習(xí)庫制定，且通過開放套接配合ML-Agents的Python API實(shí)現(xiàn)通信。同樣的，內(nèi)部模式中的代理操作決策則利用一套通過嵌入TensorFlowSharp代理接入項(xiàng)目的預(yù)訓(xùn)練模型負(fù)責(zé)制定。

Coach：英特爾公司的Nervana Coach是一套開源強(qiáng)化學(xué)習(xí)框架，負(fù)責(zé)對(duì)游戲、機(jī)器人以及其它基于代理的智能應(yīng)用進(jìn)行智能代理的建模、訓(xùn)練與評(píng)估。

Coach 提供一套模塊化沙箱、可復(fù)用組件以及用于組合新強(qiáng)化學(xué)習(xí)算法并在多種應(yīng)用領(lǐng)域內(nèi)訓(xùn)練新智能應(yīng)用的Python API。該框架利用OpenAI Gym作為主工具，負(fù)責(zé)與不同強(qiáng)化學(xué)習(xí)環(huán)境進(jìn)行交換。其還支持其它外部擴(kuò)展，具體包括Roboschool、gym-extensions、PyBullet以及ViZDoom。Coach的環(huán)境打包器允許用戶向其中添加自定義強(qiáng)化學(xué)習(xí)環(huán)境，從而解決其它學(xué)習(xí)問題。

該框架能夠在桌面計(jì)算機(jī)上高效訓(xùn)練強(qiáng)化學(xué)習(xí)代理，并利用多核CPU處理相關(guān)任務(wù)。其能夠?yàn)橐徊糠謴?qiáng)化學(xué)習(xí)算法提供單線程與多線程實(shí)現(xiàn)能力，包括異步優(yōu)勢(shì)Actor-CriTIc、深度確定性策略梯度、近端策略優(yōu)化、直接未來預(yù)測(cè)以及規(guī)范化優(yōu)勢(shì)函數(shù)。所有算法皆利用面向英特爾系統(tǒng)作出優(yōu)化的TensorFLow完成，其中部分算法亦適用于英特爾的Neon深度學(xué)習(xí)框架。

Coach 當(dāng)中包含多種強(qiáng)化學(xué)習(xí)代理實(shí)現(xiàn)方案，具體包括從單線程實(shí)現(xiàn)到多線程實(shí)現(xiàn)的轉(zhuǎn)換。其能夠開發(fā)出支持單與多工作程序（同步或異步）強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)方法的新代理。此外，其還支持連續(xù)與離散操作空間，以及視覺觀察空間或僅包含原始測(cè)量指標(biāo)的觀察空間。

AI開發(fā)者需要掌握的強(qiáng)化學(xué)習(xí)技能

展望未來，AI開發(fā)者們需要盡可能掌握上述框架以及其中所使用的各類強(qiáng)化學(xué)習(xí)算法。此外，您還需要強(qiáng)化自身對(duì)于多代理強(qiáng)化學(xué)習(xí)架構(gòu)的理解，因?yàn)槠渲卸喾N框架都大量利用前沿博弈論研究成果。最后，您還需要熟悉深度強(qiáng)化學(xué)習(xí)知識(shí)，并借此發(fā)現(xiàn)計(jì)算機(jī)視覺應(yīng)用程序當(dāng)中所出現(xiàn)的“模糊（fuzzing）”攻擊及相關(guān)安全漏洞。