手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 筆記 »全部筆記 » 【PPO × Family】第七課：挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...

【PPO × Family】第七課：挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...

2023-06-07 14:15 作者:臉紅不及向日葵 0人讀過 | 我要投稿

不知不覺跟到第七節(jié)課了！老規(guī)矩，依舊是將老師提到的一些鏈接整理了出來?????♀?

?

12:34

?

有關(guān)于 GAE 完整的計算代碼示例以及其他計算 Advantage Function 的方法和 GAE 的對比，可以參考：

GAE代碼示例: https://opendilab.github.io/PPOxFamily/gae_zh.htm1

Advantage計算補充材料: https://github.com/opendilab/PPOxFamily/blob/main/chapter7_tricks/chapter7_supp_adv.pdf

?

13:57

?

關(guān)于 off-policy 和 PPO 相關(guān)的一些細節(jié)，可以參考：

https://github.com/opendilab/PPOxFamily/blob/main/chapter7_tricks/chapter7_supp_offpolicy.pdf

?

16:01

?

Recompute 以及各種不同的 Shuffle 和相應的數(shù)據(jù)處理策略的對比參考這篇論文：

What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study: https://arxiv.org/pdf/2006.05990.pdf

?

20:01

?

Entropy 補充材料請參考：

https://github.com/opendilab/PPOxFamily/bleob/main/chapter7_tricks/chapter7_supp_entropy.pdf

?

25:46

?

Grad Clip 代碼示例參考：

https://opendilab.github.io/PPOxFamily/grad_clipzh.html

?

30:30

?

正交初始化代碼示例：

https://opendilab.github.io/PPOxFamily/onthogonal_init_zh.html

?

33:24

?

Dual Clip 代碼示例：

https://opendilab.github.io/PPOxFamily/dual_clip_zh.htnh

?

39:17

?

智能體性能的評價維度請參考以下論文：

?MEASURING THE RELIABILITY OF REINFORCEMENT LEARNING ALGORITHMS: https://openreview.net/pdf?id=SJlpYJBKvH

?

40:26

?

終于要講 LLM 了！小小期待一下！??

標簽：

【PPO × Family】第七課：挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【PPO × Family】第七課：挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...

【PPO × Family】第七課：挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【PPO × Family】第七課：挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...

本文作者的其他文章

【PPO × Family】第七課：挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【PPO × Family】第七課：挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...的評論 (共條)