散文網(wǎng) » 筆記 »全部筆記 » 不愧是李宏毅老師講的【強(qiáng)化學(xué)習(xí)】簡(jiǎn)直太詳細(xì)！！！導(dǎo)師不教你的，李宏毅老師親自教你

不愧是李宏毅老師講的【強(qiáng)化學(xué)習(xí)】簡(jiǎn)直太詳細(xì)！?。?dǎo)師不教你的，李宏毅老師親自教你

2023-01-05 15:55 作者:嘻嘻000001 0人讀過(guò) | 我要投稿

model能預(yù)測(cè)未來(lái)可能會(huì)發(fā)生的狀況

一些更多的課

act

actor又稱policy

找function

決定fun

neural 可以舉一反三

2決定一個(gè)function的好壞

讓act去實(shí)操，推斷act的好壞

total reward去判斷reward的好壞

total reward 會(huì)不同（Rsita

因?yàn)閍ction的隨機(jī)性及游戲本身的隨機(jī)性（環(huán)境

希望得到Rsita的期望值

希望期望值越大越好，越大動(dòng)作越好

玩N場(chǎng)游戲，從p（）中做n次sample，做n次平均。

最大化Rsiat

標(biāo)簽：

不愧是李宏毅老師講的【強(qiáng)化學(xué)習(xí)】簡(jiǎn)直太詳細(xì)?。。?dǎo)師不教你的，李宏毅老師親自教你的評(píng)論 (共條)