【PPO × Family】第七課:挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...

不知不覺跟到第七節(jié)課了!老規(guī)矩,依舊是將老師提到的一些鏈接整理了出來?????♀?
有關(guān)于 GAE 完整的計算代碼示例以及其他計算 Advantage Function 的方法和 GAE 的對比,可以參考:
GAE代碼示例: https://opendilab.github.io/PPOxFamily/gae_zh.htm1
Advantage計算補充材料: https://github.com/opendilab/PPOxFamily/blob/main/chapter7_tricks/chapter7_supp_adv.pdf
關(guān)于 off-policy 和 PPO 相關(guān)的一些細節(jié),可以參考:
https://github.com/opendilab/PPOxFamily/blob/main/chapter7_tricks/chapter7_supp_offpolicy.pdf
Recompute 以及各種不同的 Shuffle 和相應的數(shù)據(jù)處理策略的對比參考這篇論文:
What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study: https://arxiv.org/pdf/2006.05990.pdf
Entropy 補充材料請參考:
https://github.com/opendilab/PPOxFamily/bleob/main/chapter7_tricks/chapter7_supp_entropy.pdf
Grad Clip 代碼示例參考:
https://opendilab.github.io/PPOxFamily/grad_clipzh.html
正交初始化代碼示例:
https://opendilab.github.io/PPOxFamily/onthogonal_init_zh.html
Dual Clip 代碼示例:
https://opendilab.github.io/PPOxFamily/dual_clip_zh.htnh
智能體性能的評價維度請參考以下論文:
?MEASURING THE RELIABILITY OF REINFORCEMENT LEARNING ALGORITHMS: https://openreview.net/pdf?id=SJlpYJBKvH
終于要講 LLM 了!小小期待一下!??