【PPO × Family】第四課:解密稀疏獎(jiǎng)勵(lì)空間

課代表(自封)我又來啦!感覺第四節(jié)課聽下來有點(diǎn)難度,依舊是整理了老師提到的一些鏈接,對照著學(xué)習(xí)感覺好多了~
01: 38 對于獎(jiǎng)勵(lì)空間更詳細(xì)的解釋,大家可以參考論文:
http://aaai-rlg.mlanctot.info/papers/AAAI22-RLG_paper_38.pdf
04: 37 關(guān)于 DOTA2 獎(jiǎng)勵(lì)塑性的具體例子,搭配Link:
https://openai.com/five/
06: 07 對于模仿學(xué)習(xí)更詳細(xì)的了解,大家可以參考論文:
https://arxiv.org/pdf/2106.12177.pdf
06: 43 有關(guān)模仿學(xué)習(xí)方法的細(xì)節(jié)和相關(guān)的研究資料,大家可以參考本節(jié)課提供的補(bǔ)充資料:
逆強(qiáng)化學(xué)習(xí)補(bǔ)充材料:https://github.com/opendilab/PPOxFamily/tree/main/chapter4_reward/chapter4_supp_irl.pdf
行為克隆補(bǔ)充材料:https://github.com/opendilab/PPOxFamily/tree/main/chapter4_reward/chapter4_supp_bc.pdf
09: 24 嘗試設(shè)計(jì)好奇心機(jī)制的方法和結(jié)果可參考論文:
https://arxiv.org/pdf/1705.05363.pdf
11: 13 具體好奇心機(jī)制和內(nèi)在獎(jiǎng)勵(lì)的定義,以及如何運(yùn)用到強(qiáng)化學(xué)習(xí)方法中可參考論文:
https://arxiv.org/pdf/1705.05363.pdf
15: 02 想要了解其他提取特征的方法,大家可以參考:
https://arxiv.org/pdf/1808.04355.pdf
https://zhuanlan.zhihu.com/p/473676311
16: 17 具體對第二類設(shè)計(jì)內(nèi)在獎(jiǎng)勵(lì)的經(jīng)典方法 RND 的解釋,大家可以參考:
https://arxiv.org/pdf/1810.12894.pdf
17: 50 詳細(xì)隨機(jī)蒸餾問題的解釋和對比理解可參考論文:
https://arxiv.org/pdf/1810.12894.pdf
19: 58 想要了解如何設(shè)計(jì)出隨機(jī)蒸餾問題以及它的新穎之處可參考:
https://zhuanlan.zhihu.com/p/485476646
22: 54 將 ICM 和 RND 結(jié)合到 PPO 中的完整示例,搭配 Link:
https://opendilab.github.io/PPOxFamily/
23: 38 Minigrid 的相關(guān)材料,詳細(xì)解釋以及教程,搭配 Link:
https://github.com/Farama-Foundation/Minigrid
https://di-engine docs.readthedocs.io/zh_CN/latest/13_envs/minigrid_zh.html
24: 34 Minigrid 的完整視頻demo,大家都可以在他們的GitHub倉庫中找到:
https://github.com/opendilab/PPOxFamily/issues/44
27: 52 對于 Pop-Art 更詳細(xì)的解釋和分析,大家可以參考論文:
https://arxiv.org/pdf/1602.07714.pdf
32: 45 想要更詳細(xì)了解 Value Rescale 可參考論文:
https://arxiv.org/pdf/1805.11593.pdf
34: 58 如何實(shí)現(xiàn)Value Rescale的正向和逆向操作,以及如何運(yùn)用到 PPO 算法中的代碼完整示例搭配Link:
https://opendilab.github.io/PPOxFamily/
35: 11 有關(guān)于將 PPO 算法和一系列 reward 處理方法運(yùn)用到 MetaDrive 實(shí)踐中的材料,大家可以在以下鏈接尋找:
https://github.com/metadriverse/metadrive
35: 57 詳細(xì)的 MetaDrive 中的獎(jiǎng)勵(lì)空間定義可參考:
https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/metadrive_zh.html
36: 39 MetaDrive 的完整視頻 demo,大家都可以在他們的 GitHub 倉庫中找到:
https://github.com/opendilab/PPOxFamily/issues/44