強(qiáng)化學(xué)習(xí)基本概念——策略(policy)
2023-03-29 17:01 作者:下輩子也不會(huì)早起 | 我要投稿
? ? ? ? ?策略是狀態(tài)到行為的映射,分為確定性策略(Deterministic policy)和隨機(jī)性策略(Stochastic?policy)。。策略(policy π),根據(jù)這個(gè)策略,agent知道在當(dāng)前狀態(tài)下要執(zhí)行的動(dòng)作 a = π(s)。
? ? ? ? 策略有兩種表示方法:
? ? ? ? (1)將策略表示為函數(shù)π:確定性策略(Deterministic policy)常用這種表示;即直接告訴agent要執(zhí)行的動(dòng)作,
? ? ? ? (2)概率表示π:隨機(jī)性策略(Stochastic policy)常用這種表示,隨機(jī)性策略是狀態(tài)s下產(chǎn)生的行為的概率分布,如:π(s,a)為狀態(tài)s下選擇動(dòng)作a的概率。
π(a|s)= p(A=a|S=s)
π(left|s)=0.2
π(right|s)=0.7
π(up|s)=0.1
? ? ? ? 如果讓agent 自主選擇,它就會(huì)做一個(gè)隨機(jī)抽樣,0.2的概率選擇向左,0.7的概率選擇向右,三種動(dòng)作都有可能發(fā)生,但是向右的概率最大,向上的概率最小。
? ? ? ? ?要是與人博弈,策略需要隨機(jī),要不然別人知道你固定的套路,就有辦法贏。很多應(yīng)用里面policy最好是概率密度函數(shù),動(dòng)作是隨機(jī)抽樣得到的,要有隨機(jī)性。
參考了:https://zhuanlan.zhihu.com/p/474791642
標(biāo)簽: