強化學習 | 總回報為什么要引入折扣率?

??原始總回報 = 一次交互軌跡的累積獎勵
即對每次狀態(tài)轉(zhuǎn)移得到的即時獎勵求和,一個Episode下的Trajectory得到的Sum( Reward)?
??折扣回報
引入折扣率,降低遠期回報的權(quán)重?
避免總回報無窮大無法收斂計算比較?
折扣因子,γ,是實值∈[0,1],對于獎勵即在過去,現(xiàn)在和未來的實現(xiàn)的憂慮。 換句話說,它將獎勵與時域相關。?
??Agent當前狀態(tài)轉(zhuǎn)移到的未來狀態(tài)的過程中,執(zhí)行動作量的消耗,給總匯報帶來了折扣。
折扣率的必要性
思考在沙漠中想要喝水的人,喝到水就終止干渴狀態(tài),對于幾百米外的一瓶水和上百公里外的想喝多少就有多少的飲水機,
從累計獎勵來看:遠處的飲水機里的水更多,獎勵值更大,如果以累計獎勵最大為目標的話,則行動策略將是往更遠的地方走。
然而在沙漠里,對于干渴的人而言,比起走出沙漠可以喝到更多的水,近在咫尺的一瓶礦泉水更有意義,一瓶水量少,但勝在要走的路少,短期的一個即時獎勵,和不知道猴年馬月才能得到的巨額獎勵,比較的量不能單單靠獎勵的多少而論,這期間等待的時間也需要作為衡量尺度,作為折扣率,以冪次的權(quán)重,累積在和最終的總回報里。
