不愧是李宏毅老師講的【強(qiáng)化學(xué)習(xí)】簡(jiǎn)直太詳細(xì)!?。?dǎo)師不教你的,李宏毅老師親自教你


model能預(yù)測(cè)未來(lái)可能會(huì)發(fā)生的狀況

一些更多的課

act

actor又稱policy
找function

決定fun

neural 可以舉一反三
2決定一個(gè)function的好壞

讓act去實(shí)操,推斷act的好壞
total reward去判斷reward的好壞

total reward 會(huì)不同 (Rsita
因?yàn)閍ction的隨機(jī)性及游戲本身的隨機(jī)性(環(huán)境
希望得到Rsita的期望值
希望期望值越大越好,越大動(dòng)作越好

玩N場(chǎng)游戲,從p()中做n次sample,做n次平均。
最大化Rsiat

標(biāo)簽: