【王樹森】深度強化學習(DRL)


sarsa與Q-learning都為TD算法

獎勵Rt及Q派對t+1時刻做出的估計,對于任何策略派都成立

處理Q*得到最大的那個

At+1最優(yōu)動作,最大化Q*

左邊Q*在t時刻做出的預測,等于期望
對期望做蒙克卡羅近似,得到TDtarget

用觀測到的st代替st+1,做近似

Yt部分為正確觀測,比左邊可靠,于是,把yt作為target鼓勵左邊接近右邊

最優(yōu)動作函數(shù)
表格式
Q*即為該表格
狀態(tài)的動作都有限

找出St+1對應的行,找到改行最大的元素
即Q*關于a的最大值

每次更新一個參數(shù)讓td 愛若減小
計算dita t 計算Q* 使其更接近

神經(jīng)網(wǎng)絡形式的算法

每次用一個觀測的一個transition更新參數(shù)w aifa 學習率

每次用一個更新
標簽: