貪心學(xué)院強化學(xué)習(xí)第六期
2023-08-08 20:36 作者:bili_34189062872 | 我要投稿
ε-貪心
ε-貪心法基于一個概率來對探索和利用進行折中,具體而言:在每一次嘗試時,以 ε 的概率進行探索,即
ε-貪心
ε-貪心法基于一個概率來對探索和利用進行折中,具體而言:在每一次嘗試時,以 ε 的概率進行探索,即以均勻概率隨機選擇一個動作;以 1-ε 來進行利用,即選擇當(dāng)前最優(yōu)的動作。
直觀來理解,就是說用 ε 來代替探索的概率,1-ε 來代替利用的概率,用這個概率對二者進行了折中。
16.2.2 softmax
Softmax 算法是基于當(dāng)前每個動作的平均獎賞值來對探索和利用進行折中,Softmax 函數(shù)把一組值轉(zhuǎn)化為一組概率,值越大對應(yīng)的概率也越高,因此當(dāng)前平均獎賞越高的動作被選中的幾率也越大。
以均勻概率隨機選擇一個動作;以 1-ε 來進行利用,即選擇當(dāng)前最優(yōu)的動作。
直觀來理解,就是說用 ε 來代替探索的概率,1-ε 來代替利用的概率,用這個概率對二者進行了折中。
16.2.2 softmax
Softmax 算法是基于當(dāng)前每個動作的平均獎賞值來對探索和利用進行折中,Softmax 函數(shù)把一組值轉(zhuǎn)化為一組概率,值越大對應(yīng)的概率也越高,因此當(dāng)前平均獎賞越高的動作被選中的幾率也越大。
標(biāo)簽: