獎勵:0(無懲罰)-1(懲罰)1(鼓勵)
數(shù)學表達:
在狀態(tài)s1的情況下,采取行動a1,則獎勵為-1的概率為1:p(r=-1|s1,a1)=1
回報:獎勵的累計和
γ: 折扣率 [0 , 1)
MDP: 馬爾可夫
策略:π(a|s) 在狀態(tài)s時,選擇動作a的可能性是多少。