世界冠軍帶你從零實踐強化學(xué)習(xí)

?
Lesson1-3-GYM實戰(zhàn)、PARL介紹、總結(jié)、環(huán)境安裝 P3 - 01:11
?import gym
from gridworld import CliffWalkingWapper
env=gym.make("CliffWalking-v0")
env=ClifWalkingWapper(env)
env.reset() //重置環(huán)境
env.render() //渲染環(huán)境
env.step(0) //輸入動作







環(huán)境安裝:



上圖中 P為狀態(tài)轉(zhuǎn)移概率

model free 表示的下一個狀態(tài)是未知的












Sarsa算法:


?
Lesson2-3-Sarsa算法介紹與代碼解析 P6 - 04:06
?:動作選擇實現(xiàn),探索和利用隨機進行


總代碼如下:

obs_n: 為狀態(tài)的維度,有多少個狀態(tài)就有多少個維度
act_n: 動作維度



Q-Learning:







?
Lesson3-2-DQN算法解析 P10 - 01:33
?DQN:

經(jīng)驗回訪策略:

Behavior policy:使用Q表格選擇行動,并將每個狀態(tài)的動作,回報保存在緩沖區(qū)中,
Target policy:利用這些緩沖區(qū)中的數(shù)據(jù)對Q表格進行更新
緩沖區(qū)的實現(xiàn)方式:



固定Q目標(biāo):意思就是固定一段時間Q的表格,讓Q_target為固定的值



DQN代碼解析:




















?
Lesson5-3-四軸飛行器與創(chuàng)意賽 P20 - 03:22
?
標(biāo)簽: