最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【強(qiáng)化學(xué)習(xí)】一小時(shí)完全入門

2023-06-03 00:09 作者:catsbelly  | 我要投稿

1-1

價(jià)值:將來(lái)能夠獲得所有獎(jiǎng)勵(lì)之和的期望值

1-2

強(qiáng)化學(xué)習(xí)的某一個(gè)核心問(wèn)題:

exploration 探索是否有其他更好的行動(dòng)創(chuàng)造更大價(jià)值

exploitation 利用,利用已有價(jià)值函數(shù)

二者需要平衡

1-3 多臂老虎機(jī)

強(qiáng)化學(xué)習(xí)的算法-具體的學(xué)習(xí)過(guò)程

Value:action value在此,一個(gè)行動(dòng)具有的價(jià)值就是對(duì)應(yīng)即時(shí)獎(jiǎng)勵(lì)的期望值(因?yàn)闆](méi)有將來(lái)的獎(jiǎng)勵(lì))

價(jià)值函數(shù):

策略函數(shù):

Qt(a)初始值不能設(shè)為0,因?yàn)橐坏┻@樣,由于貪婪策略,一開始選了一個(gè),嘗到了甜頭,(而另一個(gè)沒(méi)嘗所以沒(méi)有甜頭),以后就一直會(huì)選擇那一個(gè)已經(jīng)嘗試過(guò)的。

為解決此問(wèn)題,我們可以把初始值設(shè)大,鼓勵(lì)更多探索

(也就是讓預(yù)期變的很甜,而實(shí)際上兩個(gè)選擇都不會(huì)這么甜,讓預(yù)期的甜頭變成苦頭,這樣他遭受毒打之后自然會(huì)選擇不那么苦的另一個(gè))

但是左右老虎機(jī)策略如果改變,此方法依然失效

因此可以用e-greedy,讓他有一定概率去探索另一個(gè)。

1-5 誤差

Qn:對(duì)于第n次R的估計(jì)值

Rn:第n次的獎(jiǎng)勵(lì)

Rn-Qn:獎(jiǎng)勵(lì)預(yù)測(cè)誤差

由于Qn存在誤差,說(shuō)明預(yù)測(cè)不準(zhǔn)確,因此要將其迭代修正為Qn+1,1/n就是步長(zhǎng)或者學(xué)習(xí)率

這就是誤差學(xué)習(xí)法,也就是基于誤差進(jìn)行學(xué)習(xí)

但是這樣還存在一個(gè)問(wèn)題:學(xué)習(xí)率1/n會(huì)隨著步數(shù)增加會(huì)越來(lái)越小。

當(dāng)環(huán)境獎(jiǎng)勵(lì)策略不變時(shí),問(wèn)題不大。但如果獎(jiǎng)勵(lì)分布隨著步數(shù)增長(zhǎng)而變化,由于我們的學(xué)習(xí)率就會(huì)越來(lái)越小,我們的預(yù)測(cè)誤差就會(huì)越來(lái)越大,預(yù)測(cè)結(jié)果就會(huì)走偏。

為了避免走偏,我們將學(xué)習(xí)率1/n變?yōu)槌?shù)α,得到以下公式:

Qn不再是Ri的平均值,而變成了Ri的加權(quán)平均,而且i越大,權(quán)重越大,這樣就更加適用于獎(jiǎng)勵(lì)分布可能會(huì)改變的情況。

最后對(duì)比一下改進(jìn)前后的預(yù)測(cè)價(jià)值修正方法

1-6 OOXX

這是一個(gè)行動(dòng)價(jià)值的價(jià)值公式,也是一個(gè)基于誤差的學(xué)習(xí)方法

它適用于沒(méi)有延遲獎(jiǎng)勵(lì),只有一個(gè)狀態(tài)的情況

其格式可以總結(jié)為:

新的估計(jì)=舊的估計(jì)+學(xué)習(xí)率*誤差

現(xiàn)在,為了解決延遲獎(jiǎng)勵(lì)與多狀態(tài)的情況

我們要將其推廣為狀態(tài)價(jià)值公式

狀態(tài)價(jià)值公式的學(xué)習(xí)方法是啥格式呢?

跟上面的行動(dòng)價(jià)值的學(xué)習(xí)方法一樣

新的估計(jì)=舊的估計(jì)-學(xué)習(xí)率*誤差

->

新的狀態(tài)行動(dòng)價(jià)值=舊的狀態(tài)行動(dòng)價(jià)值-學(xué)習(xí)率*誤差

我們依然先會(huì)為狀態(tài)行動(dòng)價(jià)值設(shè)置一個(gè)初始值,再做實(shí)驗(yàn),然后得到某一次實(shí)驗(yàn)中真實(shí)的狀態(tài)行動(dòng)價(jià)值,最后用它減去學(xué)習(xí)率*誤差,接著再做實(shí)驗(yàn)……

上圖中,Q(St,At)代表在St狀態(tài)下,采取At行動(dòng)后,產(chǎn)生的價(jià)值Rt的估計(jì),那么舊估計(jì)的誤差自然就是舊估計(jì)Q(St,At)-t時(shí)刻后所有獎(jiǎng)勵(lì)Rt。

代入我們之前設(shè)想的格式,就很容易得到下面的第一個(gè)公式

但是這個(gè)式子在使用時(shí),需要使用所有Rt的和,而這個(gè)Rt的和必須等到游戲運(yùn)行到最終時(shí),才會(huì)出現(xiàn),所以迭代的比較慢。

為了讓t時(shí)刻運(yùn)行之后就能迭代,我們想了個(gè)騷操作——用估計(jì)值來(lái)代替真實(shí)值。

t時(shí)刻后,所有獎(jiǎng)勵(lì)的值≈t時(shí)刻所獲得的獎(jiǎng)勵(lì)+此后獎(jiǎng)勵(lì)的估計(jì)值(而不是真實(shí)值)

那么我們的狀態(tài)行動(dòng)價(jià)值學(xué)習(xí)方法就變成了上面第二個(gè)式子。

這樣的話,就不需要等到游戲結(jié)束再更新Q(St,At)了,速度應(yīng)該提升了很多。

第一個(gè)式子,是蒙特卡羅法的雛形

第二個(gè)式子,是時(shí)序差分學(xué)習(xí)法的雛形

【強(qiáng)化學(xué)習(xí)】一小時(shí)完全入門的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
萝北县| 任丘市| 微博| 手游| 石嘴山市| 桂阳县| 正宁县| 青冈县| 陆丰市| 积石山| 宿迁市| 许昌市| 防城港市| 嘉义市| 桦甸市| 环江| 寻乌县| 五指山市| 石门县| 汝城县| 仪征市| 莲花县| 章丘市| 象山县| 漠河县| 宜川县| 收藏| 盐源县| 三门峡市| 灵丘县| 基隆市| 霍城县| 雷山县| 广水市| 广德县| 大同市| 南安市| 得荣县| 洮南市| 盈江县| 青浦区|