最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

2.強(qiáng)化學(xué)習(xí)如何建模序貫決策問題

2023-02-20 00:05 作者:李富貴bilibili  | 我要投稿

2.1給出了強(qiáng)化學(xué)習(xí)解決序貫決策問題的基本思路。2.2建立強(qiáng)化學(xué)習(xí)的數(shù)學(xué)模型MDP,最后也給出了強(qiáng)化學(xué)習(xí)的最優(yōu)化問題形式的描述(轉(zhuǎn)化成優(yōu)化問題,就可以采用已有最優(yōu)化方法進(jìn)行解決,屬于隨機(jī)優(yōu)化范疇)。2.3介紹了現(xiàn)實(shí)中很多序貫決策任務(wù),無法很好進(jìn)行數(shù)學(xué)建模時,需要采用蒙特卡羅方法進(jìn)行解決(但同樣會用到2.2節(jié)的大量概念)。強(qiáng)化學(xué)習(xí)的精髓之一是解決無模型的馬爾科夫決策問題。

2.1.強(qiáng)化學(xué)習(xí)解決問題的基本框架

智能體通過動作與環(huán)境進(jìn)?交互時,環(huán)境會返給智能體?個當(dāng)前的回報,智能體則根據(jù)當(dāng)前的回報評估所采取的動作:有利于實(shí)現(xiàn)?標(biāo)的動作被保留,不利于實(shí)現(xiàn)?標(biāo)的動作被衰減。

編輯切換為居中

智能體在完成某任務(wù)時,首先通過動作A與周圍環(huán)境進(jìn)行交互,在動作A和環(huán)境的作用下,智能體產(chǎn)生新的狀態(tài),同時環(huán)境會給出一個立即回報。如此循環(huán)下去,智能體與環(huán)境不斷地交互從而產(chǎn)生很多數(shù)據(jù)。強(qiáng)化學(xué)習(xí)算法利用產(chǎn)生的數(shù)據(jù)修改自身的動作策略,再與環(huán)境交互、產(chǎn)生新的數(shù)據(jù),并利用新的數(shù)據(jù)進(jìn)一步改善自身的行為,經(jīng)過數(shù)次迭代學(xué)習(xí)后,智能體能最終學(xué)到完成相應(yīng)任務(wù)的最優(yōu)動作(最優(yōu)策略)。

2.2.通過馬爾科夫決策過程(MDP)建模序貫決策問題

無數(shù)學(xué)者通過幾十年不斷努力和探索,提出了一套可以解決大部分強(qiáng)化學(xué)習(xí)問題的框架,這個框架就是馬爾可夫決策過程,簡稱MDP。

2.2.1.數(shù)學(xué)描述

?爾科夫決策過程由元組(S,A,P,R,γ)描述,其中:

S 為有限的狀態(tài)集

A 為有限的動作集

P 為狀態(tài)轉(zhuǎn)移概率

R 為回報函數(shù)

γ 為折扣因?,?來計(jì)算累積回報。

注意,跟馬爾科夫過程不同的是,?爾科夫決策過程的狀態(tài)轉(zhuǎn)移概率是包含動作的,即

編輯

舉例說明:

編輯切換為居中

其中: 狀態(tài)集為S={s 1 ,s 2 ,s 3 ,s 4 ,s 5 },動作集為A={玩,退出,學(xué)習(xí),發(fā)表,睡覺}

2.2.2強(qiáng)化學(xué)習(xí)優(yōu)化變量和目標(biāo)函數(shù)

給定?個?爾科夫決策過程,尋找最優(yōu)策略(所謂策略是指狀態(tài)到動作的映射,為優(yōu)化問題的優(yōu)化變量)

編輯切換為居中

注: 強(qiáng)化學(xué)習(xí)為什么采用隨機(jī)策略?首先,采用隨機(jī)策略可以將探索耦合到采樣的過程中。所謂探索就是值機(jī)器人嘗試其他的工作以便找到更好的策略。其次,在實(shí)際中,存在各種噪聲,這些噪聲大都服從正態(tài)分布,如何去掉這些噪音也需要采用概率方法。

這?的最優(yōu)是指得到的總回報最?。當(dāng)給定?個策略時,通過計(jì)算累積回報進(jìn)行比較

編輯切換為居中

編輯切換為居中

由于策略 π 是隨機(jī)的,因此累積回報也是隨機(jī)的。為了評估狀態(tài) s1的價值,我們定義一個確定量來描述狀態(tài) s1 的價值,很自然的想法是利用累積回報期望來衡量狀態(tài) s1 的價值。

a)狀態(tài)值函數(shù)(衡量每個狀態(tài)的價值)

當(dāng)智能體采?策略 π 時,累積回報服從?個分布,累積回報在狀態(tài) s 處的期望值定義為狀態(tài)值函數(shù):

編輯切換為居中

注意:狀態(tài)值函數(shù)是與策略相對應(yīng)的,這是因?yàn)椴呗詻Q定了累積回報G的狀態(tài)分布。

編輯切換為居中

b)狀態(tài)-行為值函數(shù)

編輯切換為居中

c)狀態(tài)值函數(shù)與狀態(tài)-?為值函數(shù)的?爾曼?程

編輯切換為居中

同樣我們可以得到狀態(tài)-動作值函數(shù)的?爾曼?程:

編輯切換為居中

圖2和圖3分別為狀態(tài)值函數(shù)和?為值函數(shù)的具體計(jì)算過程.其中空?圓圈表?狀態(tài),實(shí)?圓圈表?狀態(tài)-?為對。

編輯切換為居中

圖2為值函數(shù)的計(jì)算分解?意圖,圖2中B計(jì)算公式為

編輯切換為居中

圖2中B給出了狀態(tài)值函數(shù)與狀態(tài)-?為值函數(shù)的關(guān)系。圖2中C計(jì)算狀態(tài)-?為值函數(shù)為

編輯切換為居中

將上述兩式進(jìn)行合并,得出

編輯切換為居中

編輯切換為居中

編輯切換為居中

d)最優(yōu)狀態(tài)值函數(shù)和最優(yōu)狀態(tài)-?動值函數(shù)的?爾曼最優(yōu)?程

編輯切換為居中

編輯切換為居中

編輯切換為居中

e)強(qiáng)化學(xué)習(xí)最優(yōu)化問題描述

形式1:最優(yōu)狀態(tài)值函數(shù) υ?(s) 為所有策略中值最大的值函數(shù)

υ?(s)=?maxπ?υπ(s)

形式2:最優(yōu)狀態(tài)-行為值函數(shù) q?(s,a) 為所有策略中最大的狀態(tài)-行為值函數(shù)

q?(s,a)=?maxπ?qπ(s,a)

2.3基于蒙特卡羅的強(qiáng)化學(xué)習(xí)方法

?模型的強(qiáng)化學(xué)習(xí)算法要想利?策略評估和策略改善的框架,必須采?其他的?法評估當(dāng)前策略(計(jì)算值函數(shù)).

在沒有模型時,可以采?蒙特卡羅的?法計(jì)算該期望,即利?隨機(jī)樣本估計(jì)期望。此處,有兩個詞需要理解:經(jīng)驗(yàn)和平均。

  • 經(jīng)驗(yàn)

當(dāng)要評估智能體的當(dāng)前策略 π 時,可以利用策略 π 產(chǎn)生很多次試驗(yàn),每次試驗(yàn)都是從任意的初始狀態(tài)開始直到終止,比如一次試驗(yàn)(episode)為 S1,A1,R2,S2,A2,???,ST ,計(jì)算一次試驗(yàn)中狀態(tài) s 處的折扣回報返回值為 Gt(s)=Rt+1+γRt+2+???+γT?1RT

“經(jīng)驗(yàn)”就是利用策略做很多次試驗(yàn),產(chǎn)生很多幕數(shù)據(jù)(每幕為一次試驗(yàn))。

  • 平均

平均就是求均值。

由于智能體與環(huán)境交互的模型是未知的,蒙特卡羅?法是利?經(jīng)驗(yàn)平均來估計(jì)值函數(shù),?能否得到正確的值函數(shù),則取決于經(jīng)驗(yàn)——因此,如何獲得充?的經(jīng)驗(yàn)是?模型強(qiáng)化學(xué)習(xí)的核?所在(包括兩方面的原因:保證每個狀態(tài)都能被訪問到;生成的狀態(tài)序列盡可能貼近任務(wù)).


2.強(qiáng)化學(xué)習(xí)如何建模序貫決策問題的評論 (共 條)

分享到微博請遵守國家法律
财经| 鄯善县| 镇平县| 如皋市| 宣武区| 红桥区| 山东| 陕西省| 张北县| 大城县| 涞源县| 台东县| 铜川市| 淮安市| 左云县| 资兴市| 拉萨市| 阿拉善右旗| 政和县| 富裕县| 吴忠市| 石首市| 安乡县| 紫阳县| 昭苏县| 咸丰县| 桐柏县| 田阳县| 新丰县| 内黄县| 桐城市| 札达县| 黑水县| 平南县| 常宁市| 无为县| 乐至县| 南溪县| 安远县| 弥渡县| 广饶县|