3.強化學習構建的最優(yōu)化問題如何求解
強化學習求解方法非常多,本部分僅僅從宏觀上,講述求解強化學習的算法類型,具體求解細節(jié),后續(xù)再分小節(jié)進行介紹。
3.1. 強化學習最優(yōu)化問題
強化學習是找到最優(yōu)策略 π 使得累積回報的期望最大: ?maxπ?∫R(τ)pπ(τ)dτ
其中, π:s→a 狀態(tài)到動作的映射; τ 表示從狀態(tài) s 到最終狀態(tài)的一個序列 :τ:st,st+1,???,sT ; 累積回報為 R(τ)=∑t=0TγtRt , Rt 為第 t 個狀態(tài)執(zhí)行動作,產生的回報。
3.2.強化學習算法分類
? ? ? 從廣義上講,強化學習是序貫決策問題。第2節(jié),我們已經介紹了強化學習可以建模成馬爾可夫決策過程MDP框架。馬爾科夫決策過程可以利用元組 (S,A,P,R,γ) 來描述,根據轉移概率 P 是否已知,可以分為基于模型的動態(tài)規(guī)劃方法和基于無模型的強化學習方法。
3.2.1和3.2.2主要介紹值函數迭代方法,3.2.3為直接策略搜索方法,3.2.4給出了值函數方法和策略搜索方法的對比。

編輯切換為居中
3.2.1. 策略迭代算法
策略迭代算法包括策略評估和策略改善兩個步驟。在策略評估中,給定策略,計算該策略下每個狀態(tài)的值函數。然后,利用該值函數和貪婪策略得到新的策略。如此循環(huán)下去,最終得到最優(yōu)策略。

編輯切換為居中
3.2.2.值函數迭代算法
從策略迭代的偽代碼(圖2)看到,進行策略改善之前需要得到收斂的值函數。值函數收斂往往需要很多次迭代。當我們在評估一次之后就進行策略改善,則稱為值函數迭代算法。

3.2.3.策略搜索算法
策略搜索是將策略參數化,即 πθ(s) :利用參數化的線性函數或非線性函數(如神經網絡)表示策略,尋找最優(yōu)的 θ ,使得強化學習的目標——累積回報的期望 E[∑t[=0RR(st)|πθ] 最大。前面的值函數方法中,迭代計算的是值函數,在根據值函數改善策略;而在策略搜索方法中,我們直接對策略進行迭代計算,也就是迭代更新策略的參數值,直到累積回報的期望最大,此時的參數所對應的策略為最優(yōu)策略。

? ? ? 策略搜索方法按照是否利用模型,可以分為無模型的策略搜索方法和基于模型的策略搜索方法。
? ? ? 其中,無模型的策略搜索方法根據策略是采用隨機策略還是確定性策略可以為隨機策略搜索方法和確定性策略搜索方法。隨機策略搜索方法是最先發(fā)展起來的是策略梯度方法;但策略梯度方法存在學習速率難以確定的問題,為回避問題,由提出了基于統(tǒng)計學習的方法和基于路徑積分的方法。但TRPO方法沒有回避該問題,二是找到了替代損失函數——利用優(yōu)化方法在每個局部點找到使損失函數單調非增的最優(yōu)步長。
3.2.4.值函數方法·和直接策略搜索優(yōu)缺點
優(yōu)點:
? a) 直接策略搜索?法是對策略進?參數化表?,與值函數?法中對值函數進?參數化表?相?,策略參數化更簡單,有更好的收斂性。
? b)利?值函數?法求解最優(yōu)策略時,策略改善需要求解 ?argmaxθ?Qθ(s,a) , 當要解決的問題動作空間很?或者動作為連續(xù)集時,該式?法有效求解。
?c)直接策略搜索?法經常采?隨機策略,因為隨機策略可以將探索直接集成到所學習的策略之中。
缺點:
?a)策略搜索的?法容易收斂到局部最?值;
?b)評估單個策略時并不充分,?差較?。