最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

強化學習 | 總回報為什么要引入折扣率?

2023-04-09 20:45 作者:浮白七  | 我要投稿
  • ??原始總回報 = 一次交互軌跡的累積獎勵

    即對每次狀態(tài)轉(zhuǎn)移得到的即時獎勵求和,一個Episode下的Trajectory得到的Sum( Reward)?

  • ??折扣回報

    引入折扣率,降低遠期回報的權(quán)重?

    避免總回報無窮大無法收斂計算比較?

    折扣因子,γ,是實值∈[0,1],對于獎勵即在過去,現(xiàn)在和未來的實現(xiàn)的憂慮。 換句話說,它將獎勵與時域相關。?

    ??Agent當前狀態(tài)轉(zhuǎn)移到的未來狀態(tài)的過程中,執(zhí)行動作量的消耗,給總匯報帶來了折扣。


  • 折扣率的必要性

    思考在沙漠中想要喝水的人,喝到水就終止干渴狀態(tài),對于幾百米外的一瓶水和上百公里外的想喝多少就有多少的飲水機,

    從累計獎勵來看:遠處的飲水機里的水更多,獎勵值更大,如果以累計獎勵最大為目標的話,則行動策略將是往更遠的地方走。

    然而在沙漠里,對于干渴的人而言,比起走出沙漠可以喝到更多的水,近在咫尺的一瓶礦泉水更有意義,一瓶水量少,但勝在要走的路少,短期的一個即時獎勵,和不知道猴年馬月才能得到的巨額獎勵,比較的量不能單單靠獎勵的多少而論,這期間等待的時間也需要作為衡量尺度,作為折扣率,以冪次的權(quán)重,累積在和最終的總回報里。

沙漠喝水場景和吳恩達PPT紀要


強化學習 | 總回報為什么要引入折扣率?的評論 (共 條)

分享到微博請遵守國家法律
闻喜县| 莒南县| 崇礼县| 林州市| 刚察县| 新营市| 巫山县| 兴山县| 遂川县| 宣汉县| 郑州市| 剑川县| 垦利县| 天门市| 从化市| 蓬安县| 建德市| 嵊州市| 上栗县| 漳浦县| 上饶市| 岳西县| 射阳县| 濉溪县| 安达市| 方山县| 沙坪坝区| 娱乐| 商城县| 连云港市| 南通市| 辽阳市| 富宁县| 南和县| 兰考县| 普陀区| 永宁县| 张家港市| 金湖县| 皋兰县| 孟村|