手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 筆記 »全部筆記 » 【強(qiáng)化學(xué)習(xí)】一小時(shí)完全入門

【強(qiáng)化學(xué)習(xí)】一小時(shí)完全入門

2023-06-03 00:09 作者:catsbelly 0人讀過(guò) | 我要投稿

1-1

價(jià)值：將來(lái)能夠獲得所有獎(jiǎng)勵(lì)之和的期望值

1-2

強(qiáng)化學(xué)習(xí)的某一個(gè)核心問(wèn)題：

exploration 探索是否有其他更好的行動(dòng)創(chuàng)造更大價(jià)值

exploitation 利用，利用已有價(jià)值函數(shù)

二者需要平衡

1-3 多臂老虎機(jī)

強(qiáng)化學(xué)習(xí)的算法-具體的學(xué)習(xí)過(guò)程

Value：action value在此，一個(gè)行動(dòng)具有的價(jià)值就是對(duì)應(yīng)即時(shí)獎(jiǎng)勵(lì)的期望值（因?yàn)闆](méi)有將來(lái)的獎(jiǎng)勵(lì)）

價(jià)值函數(shù)：

策略函數(shù)：

Qt（a）初始值不能設(shè)為0，因?yàn)橐坏┻@樣，由于貪婪策略，一開始選了一個(gè)，嘗到了甜頭，（而另一個(gè)沒(méi)嘗所以沒(méi)有甜頭），以后就一直會(huì)選擇那一個(gè)已經(jīng)嘗試過(guò)的。

為解決此問(wèn)題，我們可以把初始值設(shè)大，鼓勵(lì)更多探索

（也就是讓預(yù)期變的很甜，而實(shí)際上兩個(gè)選擇都不會(huì)這么甜，讓預(yù)期的甜頭變成苦頭，這樣他遭受毒打之后自然會(huì)選擇不那么苦的另一個(gè)）

但是左右老虎機(jī)策略如果改變，此方法依然失效

因此可以用e-greedy，讓他有一定概率去探索另一個(gè)。

1-5 誤差

Qn：對(duì)于第n次R的估計(jì)值

Rn：第n次的獎(jiǎng)勵(lì)

Rn-Qn：獎(jiǎng)勵(lì)預(yù)測(cè)誤差

由于Qn存在誤差，說(shuō)明預(yù)測(cè)不準(zhǔn)確，因此要將其迭代修正為Qn+1，1/n就是步長(zhǎng)或者學(xué)習(xí)率

這就是誤差學(xué)習(xí)法，也就是基于誤差進(jìn)行學(xué)習(xí)

但是這樣還存在一個(gè)問(wèn)題：學(xué)習(xí)率1/n會(huì)隨著步數(shù)增加會(huì)越來(lái)越小。

當(dāng)環(huán)境獎(jiǎng)勵(lì)策略不變時(shí)，問(wèn)題不大。但如果獎(jiǎng)勵(lì)分布隨著步數(shù)增長(zhǎng)而變化，由于我們的學(xué)習(xí)率就會(huì)越來(lái)越小，我們的預(yù)測(cè)誤差就會(huì)越來(lái)越大，預(yù)測(cè)結(jié)果就會(huì)走偏。

為了避免走偏，我們將學(xué)習(xí)率1/n變?yōu)槌?shù)α，得到以下公式：

Qn不再是Ri的平均值，而變成了Ri的加權(quán)平均，而且i越大，權(quán)重越大，這樣就更加適用于獎(jiǎng)勵(lì)分布可能會(huì)改變的情況。

最后對(duì)比一下改進(jìn)前后的預(yù)測(cè)價(jià)值修正方法

1-6 OOXX

這是一個(gè)行動(dòng)價(jià)值的價(jià)值公式，也是一個(gè)基于誤差的學(xué)習(xí)方法

它適用于沒(méi)有延遲獎(jiǎng)勵(lì)，只有一個(gè)狀態(tài)的情況

其格式可以總結(jié)為：

新的估計(jì)=舊的估計(jì)+學(xué)習(xí)率*誤差

現(xiàn)在，為了解決延遲獎(jiǎng)勵(lì)與多狀態(tài)的情況

我們要將其推廣為狀態(tài)價(jià)值公式

狀態(tài)價(jià)值公式的學(xué)習(xí)方法是啥格式呢？

跟上面的行動(dòng)價(jià)值的學(xué)習(xí)方法一樣

新的估計(jì)=舊的估計(jì)-學(xué)習(xí)率*誤差

->

新的狀態(tài)行動(dòng)價(jià)值=舊的狀態(tài)行動(dòng)價(jià)值-學(xué)習(xí)率*誤差

我們依然先會(huì)為狀態(tài)行動(dòng)價(jià)值設(shè)置一個(gè)初始值，再做實(shí)驗(yàn)，然后得到某一次實(shí)驗(yàn)中真實(shí)的狀態(tài)行動(dòng)價(jià)值，最后用它減去學(xué)習(xí)率*誤差，接著再做實(shí)驗(yàn)……

上圖中，Q（St，At）代表在St狀態(tài)下，采取At行動(dòng)后，產(chǎn)生的價(jià)值Rt的估計(jì)，那么舊估計(jì)的誤差自然就是舊估計(jì)Q（St，At）-t時(shí)刻后所有獎(jiǎng)勵(lì)Rt。

代入我們之前設(shè)想的格式，就很容易得到下面的第一個(gè)公式

但是這個(gè)式子在使用時(shí)，需要使用所有Rt的和，而這個(gè)Rt的和必須等到游戲運(yùn)行到最終時(shí)，才會(huì)出現(xiàn)，所以迭代的比較慢。

為了讓t時(shí)刻運(yùn)行之后就能迭代，我們想了個(gè)騷操作——用估計(jì)值來(lái)代替真實(shí)值。

t時(shí)刻后，所有獎(jiǎng)勵(lì)的值≈t時(shí)刻所獲得的獎(jiǎng)勵(lì)+此后獎(jiǎng)勵(lì)的估計(jì)值（而不是真實(shí)值）

那么我們的狀態(tài)行動(dòng)價(jià)值學(xué)習(xí)方法就變成了上面第二個(gè)式子。

這樣的話，就不需要等到游戲結(jié)束再更新Q（St，At）了，速度應(yīng)該提升了很多。

第一個(gè)式子，是蒙特卡羅法的雛形

第二個(gè)式子，是時(shí)序差分學(xué)習(xí)法的雛形

標(biāo)簽：

【強(qiáng)化學(xué)習(xí)】一小時(shí)完全入門的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【強(qiáng)化學(xué)習(xí)】一小時(shí)完全入門

【強(qiáng)化學(xué)習(xí)】一小時(shí)完全入門的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【強(qiáng)化學(xué)習(xí)】一小時(shí)完全入門

本文作者的其他文章

【強(qiáng)化學(xué)習(xí)】一小時(shí)完全入門的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【強(qiáng)化學(xué)習(xí)】一小時(shí)完全入門的評(píng)論 (共條)