最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Q-Learn

2023-07-04 13:43 作者:老師明明可以靠顏值  | 我要投稿

參考:https://blog.csdn.net/weixin_44732379/article/details/127812712

1 使用

檢測到游戲畫面處于s1,就從a1,a2,a3種, 從這3個動作中,選一個Q值最大的動作。

選完動作后,輸入給游戲執(zhí)行。

游戲執(zhí)行后,游戲畫面會處于新的狀態(tài)。

在這個新的狀態(tài)下,從a1,a2,a3中,選一個Q值最大的動作?,我們稱這個動作為下一次動作的最大Q值。公式為:


2 訓(xùn)練

一開始設(shè)置Q-table為0,然后用一下公式更新Q-table? 中的Q值,直到Q-table中的值不再發(fā)生變化。

alpha 是學(xué)習(xí)率,可取0.3.

gama是前瞻率,可取0.4.

rt+1是游戲的獎勵分。

公式中的

就是下一次動作的最大Q值。

gama為什么是前瞻率,就是因為它乘的是 下一次動作的最大Q值,下一次。

3 總結(jié):

訓(xùn)練移動步數(shù)后,Q-table應(yīng)該會趨于不變,這便是收斂了。

如果沒有收斂,可調(diào)整學(xué)習(xí)率,前瞻率等。

還可以適當(dāng)?shù)脑黾右恍╇S機(jī)性,即并不是每次都取Q值最大的動作,而是以一定概率來隨機(jī)取動作,以讓Q-table得到更加豐富的更新。

在一開始的時候,這個概率可以大些,后面逐漸調(diào)小,直到為0.

Q-Learn的評論 (共 條)

分享到微博請遵守國家法律
伊宁市| 钦州市| 宣武区| 长岛县| 湘阴县| 藁城市| 安庆市| 乌拉特前旗| 渑池县| 无锡市| 乌海市| 天水市| 水富县| 郁南县| 沽源县| 剑阁县| 葫芦岛市| 宁河县| 沛县| 山丹县| 华容县| 元氏县| 蕲春县| 西吉县| 衢州市| 百色市| 和政县| 巨鹿县| 齐河县| 宝鸡市| 江口县| 环江| 邳州市| 海盐县| 昌乐县| 怀集县| 陇南市| 高邮市| 遂昌县| 闵行区| 南京市|