2.強(qiáng)化學(xué)習(xí)如何建模序貫決策問題
2.1給出了強(qiáng)化學(xué)習(xí)解決序貫決策問題的基本思路。2.2建立強(qiáng)化學(xué)習(xí)的數(shù)學(xué)模型MDP,最后也給出了強(qiáng)化學(xué)習(xí)的最優(yōu)化問題形式的描述(轉(zhuǎn)化成優(yōu)化問題,就可以采用已有最優(yōu)化方法進(jìn)行解決,屬于隨機(jī)優(yōu)化范疇)。2.3介紹了現(xiàn)實(shí)中很多序貫決策任務(wù),無法很好進(jìn)行數(shù)學(xué)建模時,需要采用蒙特卡羅方法進(jìn)行解決(但同樣會用到2.2節(jié)的大量概念)。強(qiáng)化學(xué)習(xí)的精髓之一是解決無模型的馬爾科夫決策問題。
2.1.強(qiáng)化學(xué)習(xí)解決問題的基本框架
智能體通過動作與環(huán)境進(jìn)?交互時,環(huán)境會返給智能體?個當(dāng)前的回報,智能體則根據(jù)當(dāng)前的回報評估所采取的動作:有利于實(shí)現(xiàn)?標(biāo)的動作被保留,不利于實(shí)現(xiàn)?標(biāo)的動作被衰減。

編輯切換為居中
智能體在完成某任務(wù)時,首先通過動作A與周圍環(huán)境進(jìn)行交互,在動作A和環(huán)境的作用下,智能體產(chǎn)生新的狀態(tài),同時環(huán)境會給出一個立即回報。如此循環(huán)下去,智能體與環(huán)境不斷地交互從而產(chǎn)生很多數(shù)據(jù)。強(qiáng)化學(xué)習(xí)算法利用產(chǎn)生的數(shù)據(jù)修改自身的動作策略,再與環(huán)境交互、產(chǎn)生新的數(shù)據(jù),并利用新的數(shù)據(jù)進(jìn)一步改善自身的行為,經(jīng)過數(shù)次迭代學(xué)習(xí)后,智能體能最終學(xué)到完成相應(yīng)任務(wù)的最優(yōu)動作(最優(yōu)策略)。
2.2.通過馬爾科夫決策過程(MDP)建模序貫決策問題
無數(shù)學(xué)者通過幾十年不斷努力和探索,提出了一套可以解決大部分強(qiáng)化學(xué)習(xí)問題的框架,這個框架就是馬爾可夫決策過程,簡稱MDP。
2.2.1.數(shù)學(xué)描述
?爾科夫決策過程由元組(S,A,P,R,γ)描述,其中:
S 為有限的狀態(tài)集
A 為有限的動作集
P 為狀態(tài)轉(zhuǎn)移概率
R 為回報函數(shù)
γ 為折扣因?,?來計(jì)算累積回報。
注意,跟馬爾科夫過程不同的是,?爾科夫決策過程的狀態(tài)轉(zhuǎn)移概率是包含動作的,即

編輯
舉例說明:

編輯切換為居中
其中: 狀態(tài)集為S={s 1 ,s 2 ,s 3 ,s 4 ,s 5 },動作集為A={玩,退出,學(xué)習(xí),發(fā)表,睡覺}
2.2.2強(qiáng)化學(xué)習(xí)優(yōu)化變量和目標(biāo)函數(shù)
給定?個?爾科夫決策過程,尋找最優(yōu)策略(所謂策略是指狀態(tài)到動作的映射,為優(yōu)化問題的優(yōu)化變量)

編輯切換為居中
注: 強(qiáng)化學(xué)習(xí)為什么采用隨機(jī)策略?首先,采用隨機(jī)策略可以將探索耦合到采樣的過程中。所謂探索就是值機(jī)器人嘗試其他的工作以便找到更好的策略。其次,在實(shí)際中,存在各種噪聲,這些噪聲大都服從正態(tài)分布,如何去掉這些噪音也需要采用概率方法。
這?的最優(yōu)是指得到的總回報最?。當(dāng)給定?個策略時,通過計(jì)算累積回報進(jìn)行比較

編輯切換為居中

編輯切換為居中
由于策略 π 是隨機(jī)的,因此累積回報也是隨機(jī)的。為了評估狀態(tài) s1的價值,我們定義一個確定量來描述狀態(tài) s1 的價值,很自然的想法是利用累積回報期望來衡量狀態(tài) s1 的價值。
a)狀態(tài)值函數(shù)(衡量每個狀態(tài)的價值)
當(dāng)智能體采?策略 π 時,累積回報服從?個分布,累積回報在狀態(tài) s 處的期望值定義為狀態(tài)值函數(shù):

編輯切換為居中
注意:狀態(tài)值函數(shù)是與策略相對應(yīng)的,這是因?yàn)椴呗詻Q定了累積回報G的狀態(tài)分布。

編輯切換為居中
b)狀態(tài)-行為值函數(shù)

編輯切換為居中
c)狀態(tài)值函數(shù)與狀態(tài)-?為值函數(shù)的?爾曼?程

編輯切換為居中
同樣我們可以得到狀態(tài)-動作值函數(shù)的?爾曼?程:

編輯切換為居中
圖2和圖3分別為狀態(tài)值函數(shù)和?為值函數(shù)的具體計(jì)算過程.其中空?圓圈表?狀態(tài),實(shí)?圓圈表?狀態(tài)-?為對。

編輯切換為居中
圖2為值函數(shù)的計(jì)算分解?意圖,圖2中B計(jì)算公式為

編輯切換為居中
圖2中B給出了狀態(tài)值函數(shù)與狀態(tài)-?為值函數(shù)的關(guān)系。圖2中C計(jì)算狀態(tài)-?為值函數(shù)為

編輯切換為居中
將上述兩式進(jìn)行合并,得出

編輯切換為居中

編輯切換為居中

編輯切換為居中
d)最優(yōu)狀態(tài)值函數(shù)和最優(yōu)狀態(tài)-?動值函數(shù)的?爾曼最優(yōu)?程

編輯切換為居中

編輯切換為居中

編輯切換為居中
e)強(qiáng)化學(xué)習(xí)最優(yōu)化問題描述
形式1:最優(yōu)狀態(tài)值函數(shù) υ?(s) 為所有策略中值最大的值函數(shù)
υ?(s)=?maxπ?υπ(s)
形式2:最優(yōu)狀態(tài)-行為值函數(shù) q?(s,a) 為所有策略中最大的狀態(tài)-行為值函數(shù)
q?(s,a)=?maxπ?qπ(s,a)
2.3基于蒙特卡羅的強(qiáng)化學(xué)習(xí)方法
?模型的強(qiáng)化學(xué)習(xí)算法要想利?策略評估和策略改善的框架,必須采?其他的?法評估當(dāng)前策略(計(jì)算值函數(shù)).
在沒有模型時,可以采?蒙特卡羅的?法計(jì)算該期望,即利?隨機(jī)樣本估計(jì)期望。此處,有兩個詞需要理解:經(jīng)驗(yàn)和平均。
經(jīng)驗(yàn)
當(dāng)要評估智能體的當(dāng)前策略 π 時,可以利用策略 π 產(chǎn)生很多次試驗(yàn),每次試驗(yàn)都是從任意的初始狀態(tài)開始直到終止,比如一次試驗(yàn)(episode)為 S1,A1,R2,S2,A2,???,ST ,計(jì)算一次試驗(yàn)中狀態(tài) s 處的折扣回報返回值為 Gt(s)=Rt+1+γRt+2+???+γT?1RT
“經(jīng)驗(yàn)”就是利用策略做很多次試驗(yàn),產(chǎn)生很多幕數(shù)據(jù)(每幕為一次試驗(yàn))。
平均
平均就是求均值。
由于智能體與環(huán)境交互的模型是未知的,蒙特卡羅?法是利?經(jīng)驗(yàn)平均來估計(jì)值函數(shù),?能否得到正確的值函數(shù),則取決于經(jīng)驗(yàn)——因此,如何獲得充?的經(jīng)驗(yàn)是?模型強(qiáng)化學(xué)習(xí)的核?所在(包括兩方面的原因:保證每個狀態(tài)都能被訪問到;生成的狀態(tài)序列盡可能貼近任務(wù)).