強(qiáng)化學(xué)習(xí)第三節(jié)(Monte Carlo+TD[SARSA, Q-Learning


上帝視角(知道全貌) 待在迷宮內(nèi),只能摸索

無(wú)模型問(wèn)題


同一狀態(tài)下的不同選擇 γ是用于回報(bào)可計(jì)算
通過(guò)大樹定律求解1(在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次,隨機(jī)事件的頻率近似于它的概率。)


first只采一次 50到游戲結(jié)束
采樣1與2有比較大的方差 差異,造成收斂不得當(dāng)
exploitation利用以前的結(jié)果選擇的結(jié)果
exploration探索

匯報(bào)序列差異大

動(dòng)態(tài)規(guī)劃加蒙特卡洛
動(dòng)態(tài)規(guī)劃:已知環(huán)境狀態(tài)轉(zhuǎn)移的概率,通過(guò)把原問(wèn)題分解為相對(duì)簡(jiǎn)單的子問(wèn)題的方式求解復(fù)雜問(wèn)題的方法,記住過(guò)往,減少重復(fù)計(jì)算。動(dòng)態(tài)規(guī)劃常常適用于有重疊子問(wèn)題和最優(yōu)子結(jié)構(gòu)性質(zhì)的問(wèn)題。

下:差分法,進(jìn)行中就更新
上:蒙特卡洛,實(shí)際值更新(過(guò)程完成更新
TDerror :努力革新策略,得到V(st)預(yù)測(cè)的最好的情況


Q-learning樂(lè)觀
標(biāo)簽: