強化學習 | 總回報為什么要引入折扣率？

2023-04-09 20:45 作者:浮白七 0人讀過 | 我要投稿

??原始總回報 = 一次交互軌跡的累積獎勵
即對每次狀態(tài)轉(zhuǎn)移得到的即時獎勵求和，一個Episode下的Trajectory得到的Sum( Reward)?
??折扣回報
引入折扣率，降低遠期回報的權(quán)重？

避免總回報無窮大無法收斂計算比較？

折扣因子，γ，是實值∈[0，1]，對于獎勵即在過去，現(xiàn)在和未來的實現(xiàn)的憂慮。換句話說，它將獎勵與時域相關。?

??Agent當前狀態(tài)轉(zhuǎn)移到的未來狀態(tài)的過程中，執(zhí)行動作量的消耗，給總匯報帶來了折扣。
折扣率的必要性

思考在沙漠中想要喝水的人，喝到水就終止干渴狀態(tài)，對于幾百米外的一瓶水和上百公里外的想喝多少就有多少的飲水機，

從累計獎勵來看：遠處的飲水機里的水更多，獎勵值更大，如果以累計獎勵最大為目標的話，則行動策略將是往更遠的地方走。

然而在沙漠里，對于干渴的人而言，比起走出沙漠可以喝到更多的水，近在咫尺的一瓶礦泉水更有意義，一瓶水量少，但勝在要走的路少，短期的一個即時獎勵，和不知道猴年馬月才能得到的巨額獎勵，比較的量不能單單靠獎勵的多少而論，這期間等待的時間也需要作為衡量尺度，作為折扣率，以冪次的權(quán)重，累積在和最終的總回報里。

強化學習 | 總回報為什么要引入折扣率？的評論 (共條)