當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀] 強化學習(RL),又稱再勵學習、評價學習,是一種重要的機器學習方法,在智能控制機器人及分析預測等領(lǐng)域有許多應用。 那么什么是強化學習? 強化學習是智能系統(tǒng)從環(huán)境到行為映射的學習,

強化學習(RL),又稱再勵學習、評價學習,是一種重要的機器學習方法,在智能控制機器人及分析預測等領(lǐng)域有許多應用。

那么什么是強化學習?

強化學習是智能系統(tǒng)從環(huán)境到行為映射的學習,以使獎勵信號(強化信號)函數(shù)值最大,強化學習不同于連接主義學習中的監(jiān)督學習,主要表現(xiàn)在教師信號上,強化學習中由環(huán)境提供的強化信號是對產(chǎn)生動作的好壞作一種評價(通常為標量信號),而不是告訴強化學習系統(tǒng)RLS(reinforcement learning system)如何去產(chǎn)生正確的動作。由于外部環(huán)境提供的信息很少,RLS必須靠自身的經(jīng)歷或能力進行學習。通過這種方式,RLS在行動-評價的環(huán)境中獲得知識,改動方案以適應環(huán)境。

通俗的講,就是當一個小孩學習有迷?;蚶Щ髸r,如果老師發(fā)現(xiàn)小孩方法或思路正確,就給他(她)正反饋(獎勵或鼓勵);否則就給他(她)負反饋(教訓或懲罰),激勵小孩的潛能,強化他(她)自我學習能力,依靠自身的力量來主動學習和不斷探索,最終讓他(她)找到正確的方法或思路,以適應外部多變的環(huán)境。

強化學習有別于傳統(tǒng)的機器學習,不能立即得到標記,而只能得到一個反饋(獎或罰),可以說強化學習是一種標記延遲的監(jiān)督學習。強化學習是從動物學習、參數(shù)擾動自適應控制等理論發(fā)展而來的。

強化學習原理:

如果Agent的某個行為策略導致環(huán)境正的獎賞(強化信號),那么Agent以后產(chǎn)生這個行為策略的趨勢加強。Agent的目標是在每個離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望的折扣獎賞和最大。

強化學習把學習看作試探評價過程,Agent選擇一個動作用于環(huán)境,環(huán)境接受該動作后狀態(tài)發(fā)生變化,同時產(chǎn)生一個強化信號(獎或懲)反饋給Agent,Agent根據(jù)強化信號和環(huán)境當前狀態(tài)再選擇下一個動作,選擇的原則是使受到正強化(獎)的概率增大。選擇的動作不僅影響立即強化值,而且影響環(huán)境下一時刻的狀態(tài)及最終的強化值。

若已知R/A梯度信息,則可直接可以使用監(jiān)督學習算法。因為強化信號R與Agent產(chǎn)生的動作A沒有明確的函數(shù)形式描述,所以梯度信息R/A無法得到。因此,在強化學習系統(tǒng)中,需要某種隨機單元,使用這種隨機單元,Agent在可能動作空間中進行搜索并發(fā)現(xiàn)正確的動作。

強化學習模型

強化學習模型包括下面幾個要素:

1) 規(guī)則(policy):規(guī)則定義了Agent在特定的時間特定的環(huán)境下的行為方式,可以視為是從環(huán)境狀態(tài)到行為的映射,常用 π來表示??梢苑譃閮深悾?/p>

確定性的policy(DeterminisTIc policy): a=π(s)

隨機性的policy(StochasTIc policy): π(a|s)=P[At=a|St=t]

其中,t是時間點,t=0,1,2,3,……

St∈S,S是環(huán)境狀態(tài)的集合,St代表時刻t的狀態(tài),s代表其中某個特定的狀態(tài);

At∈A(St),A(St)是在狀態(tài)St下的acTIons的集合,At代表時刻t的行為,a代表其中某個特定的行為。

2) 獎勵信號(areward signal):Reward是一個標量值,是每個TIme step中環(huán)境根據(jù)agent的行為返回給agent的信號,reward定義了在該情景下執(zhí)行該行為的好壞,agent可以根據(jù)reward來調(diào)整自己的policy。常用R來表示。

3) 值函數(shù)(valuefunction):Reward定義的是立即的收益,而value function定義的是長期的收益,它可以看作是累計的reward,常用v來表示。

4) 環(huán)境模型(a modelof the environment):整個Agent和Environment交互的過程可以用下圖來表示:

Agent作為學習系統(tǒng),獲取外部環(huán)境Environment的當前狀態(tài)信息St,對環(huán)境采取試探行為At,并獲取環(huán)境反饋的對此動作的評價Rt+1和新的環(huán)境狀態(tài)St+1 。如果Agent的某動作At導致環(huán)境Environment的正獎賞(立即報酬),那么Agent以后產(chǎn)生這個動作的趨勢便會加強;反之,Agent產(chǎn)生這個動作的趨勢將減弱。在強化學習系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評價的反復交互作用中,以學習的方式不斷修改從狀態(tài)到動作的映射策略,達到優(yōu)化系統(tǒng)性能目的。

強化學習設(shè)計考慮:

1)如何表示狀態(tài)空間和動作空間。

2)如何選擇建立信號以及如何通過學習來修正不同狀態(tài)-動作對的值。

3)如何根據(jù)這些值來選擇適合的動作。

強化學習常見算法:

強化學習的常見算法包括:1)時間差分學習(Temporal difference learning);2)Q學習(Q learning);3)學習自動(LearningAutomata);4)狀態(tài)-行動-回饋-狀態(tài)-行動(State-Action-Reward-State-Action)等。

強化學習目標:

強化學習通過學習從環(huán)境狀態(tài)到行為的映射,使得智能體選擇的行為能夠獲得環(huán)境最大的獎賞,使得外部環(huán)境對學習系統(tǒng)在某種意義下的評價(或整個系統(tǒng)的運行性能)為最佳。簡單的說,強化學習的目標是動態(tài)地調(diào)整參數(shù),達到強化信號最大。

強化學習應用前景:

前段時間被刷屏的機器人,大家一定不陌生吧,來自波士頓動力的機器人憑借出色的平衡性給大家留下了深刻的印象。機器人控制領(lǐng)域就使用了大量的強化學習技術(shù)。除此之外,游戲、3D圖像處理、棋類(2016年備受矚目的AlphaGo圍棋)、等領(lǐng)域都有應用。

機 器 人

游 戲

3D 圖 像 處 理

人 機 大 戰(zhàn)

結(jié)語:

強化學習是通過對未知環(huán)境一邊探索一邊建立環(huán)境模型以及學習得到一個最優(yōu)策略。強化學習與其他機器學習算法不同的地方在于沒有監(jiān)督者,只有一個Reward信號,而且反饋是延遲的。強化學習是人工智能之機器學習中一種快速、高效且不可替代的學習算法,實際上強化學習是一套很通用的解決人工智能問題的框架,值得人們?nèi)パ芯?。另外,深度學習[參見人工智能(22)]和強化學習相結(jié)合,不僅給強化學習帶來端到端優(yōu)化便利,而且使得強化學習不再受限于低維空間,極大地拓展了強化學習的使用范圍。谷歌DeepMind中深度強化學習領(lǐng)頭人David Silver曾經(jīng)說過,深度學習(DL)+ 強化學習(RL) = 人工智能(AI)。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉