最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

5.無模型強化學習值函數(shù)方法——蒙特卡羅方法

2023-03-04 00:31 作者:李富貴bilibili  | 我要投稿

本節(jié)主要講解,當計算值函數(shù)公式中的 Pss′a 未知時

(5.1) 值函數(shù)迭代計算公式


,無法使用動態(tài)規(guī)劃的方法求解強化學習的優(yōu)化問題時,則需要采用蒙特卡羅方法計算下式(5.2)的期望,即利用隨機樣本估計該期望值。

(5.2)值函數(shù)計算方法


? ? 本節(jié)介紹的蒙特卡羅方法處在強化學習算法中的地位,如下圖1所示(粉紅色已框出)

圖1 值函數(shù)逼近在強化學習算法中的應用


5.1.蒙特卡羅計算狀態(tài)值函數(shù)方法

? ? ? 在沒有模型時,可以采?蒙特卡羅的?法計算狀態(tài)值函數(shù)的期望,即利?隨機樣本估計期望。此處,有兩個詞需要理解:經驗和平均。

5.1.1.經驗

? ? ? "經驗”就是利用策略做很多次試驗,產生很多幕數(shù)據(每幕為一次試驗)。

? ? ? 當要評估智能體的當前策略 π 時,可以利用策略 π 產生很多次試驗,每次試驗都是從任意的初始狀態(tài)開始直到終止,比如一次試驗(episode)為 S_1,A_1,R_2,S_2,A_2,???,S_T ,計算一次試驗中狀態(tài) s 處的折扣回報返回值為


5.1.2.平均

? ? ?平均就是求均值。不過,利用蒙特卡羅方法求狀態(tài) s 處的值函數(shù)時,又可以分為第一次訪問蒙特卡羅方法和每次蒙特卡羅方法。

? ? ?由于智能體與環(huán)境交互的模型是未知的,蒙特卡羅?法是利?經驗平均來估計值函數(shù),?能否得到正確的值函數(shù),則取決于經驗——因此,如何獲得充?的經驗是?模型強化學習的核?所在(包括兩方面的原因:保證每個狀態(tài)都能被訪問到;生成的狀態(tài)序列盡可能貼近任務).

5.2.基于蒙特卡羅的無模型強化學習算法

? ? ? 在動態(tài)規(guī)劃?法中,為了保證值函數(shù)的收斂性,算法會逐個掃描狀態(tài)空間中的狀態(tài)。?模型的?法充分評估策略值函數(shù)的前提是每個狀態(tài)都能被訪問到,因此,在蒙特卡洛?法中必須采??定的?法保證每個狀態(tài)都能被訪問到,?法之?是探索性初始化。

5.2.1.探索性初始化蒙特卡羅方法

? ? ? 探索性初始化是指每個狀態(tài)都有一定的概率作為初始狀態(tài)。在學習基于探索性初始化的蒙特卡羅方法前,我們還需要先了解策略改善方法,以及便于進行迭代計算的平均方法。(如,先前的動態(tài)規(guī)劃方法,需要策略評估和策略改善兩個步驟)

  • 蒙特卡羅策略改善

? ? ? ?蒙特卡羅方法利用經驗平均估計策略值函數(shù)。估計出值函數(shù)后,對每個狀態(tài) s ,它通過最大化動作值函數(shù)來進行策略的改善。即?

  • 遞增計算狀態(tài)值函數(shù)

  • 探索性初始化蒙特卡羅方法


  • 思考1:如何保證所有狀態(tài)被覆蓋?

? ?思考2:如何保證所有狀態(tài)下的行為被覆蓋?

? ?答:對所有狀態(tài) sa 滿足: π(a|s)>0 。例如, ε -soft策略:


根據探索策略(?動策略)和評估及改善策略是否為同?個策略,蒙特卡羅?法?分為on-policy和off-policy兩種?法:

5.2.2.若?動策略和評估及改善的策略是同?個策略——on-policy


? ? ? ?圖3中產生數(shù)據的策略以及評估和要改善的策略都是 ε?soft 策略。

5.2.3.若?動策略和評估及改善的策略是不同的策略——off-policy

? ? ? ?假設: π 為評估和改善的策略; μ 表示產生樣本數(shù)據的策略。

? ? ? 異策略優(yōu)點:可以保證充分的探索性。例如,用來評估和改善的策略 π 是貪婪策略,用于產生數(shù)據的探索性策略 μ 為探索性策略( ε?soft 策略).

? ? ? 思考:用于異策略的目標策略 π 和行動策略 μ 可以任意選擇嗎?什么是覆蓋性條件?

? ? ? 行動策略 μ 產生的行為覆蓋或者包含目標策略 π 產生的行為。避免評估和改善的策略,行為策略無法模擬生成,即評估和更新的策略,行為策略能夠模擬。滿足 π(a|s)>0 的任何 (s,a) 均滿足 μ(a|s)>0

? ? ? 利??為策略產?的數(shù)據評估?標策略需要利?重要性采樣?法(詳細方法見5.3節(jié)(5.5)式)。

? ? ? 最后,異策略每次訪問蒙特卡羅算法的偽代碼:


5.3.重要性采樣方法

重要性采樣來源于求期望,如下圖

E[f]=∫f(z)p(z)dz

? ? ? ?當隨機變量 z 的分布非常復雜時,無法利用解析的方法產生用于逼近期望的樣本,這時,這時我們可以選擇一個概率分布很簡單,很容易產生樣本的概率分布 q(x) ,比如正態(tài)分布。原來的期望可變?yōu)?br>

? ? ? 基于重要性采樣的積分估計為無偏估計,即估計的期望值等于真實的期望。但是,基于重要性采樣的積分估計的方差無窮大。這是因為原來的被積分函數(shù)乘以一個重要性權重,改變了被積函數(shù)的形狀及分布。

? ? ? 重要性采樣中,使用的采樣概率分布與原概率分布越接近,方差越小。然而,被積函數(shù)的概率分布往往很難求得,因此沒有與之相似的簡單采樣概率分布,如果分布差別很大的采樣概率對原概率分布進行采樣,方差會趨近于無窮大。

? ? ? 一種減小重要性采樣積分的方法是采用加權重要性采樣


5.無模型強化學習值函數(shù)方法——蒙特卡羅方法的評論 (共 條)

分享到微博請遵守國家法律
多伦县| 乐平市| 凤城市| 云梦县| 扶绥县| 文安县| 鄯善县| 井冈山市| 铜川市| 蛟河市| 天水市| 白沙| 纳雍县| 永昌县| 游戏| 安国市| 巩留县| 玉林市| 德保县| 雅安市| 莎车县| 咸阳市| 锡林浩特市| 班玛县| 长白| 九江市| 米易县| 怀远县| 沂水县| 南川市| 万安县| 吉水县| 高邑县| 邵武市| 浠水县| 榆树市| 虎林市| 全南县| 固原市| 丰宁| 潞西市|