李宏毅強(qiáng)化學(xué)習(xí)完整筆記!開源項(xiàng)目《LeeDeepRL-Notes》發(fā)布

Datawhale開源
核心貢獻(xiàn)者:王琦、楊逸遠(yuǎn)、江季
提起李宏毅老師,熟悉強(qiáng)化學(xué)習(xí)的讀者朋友一定不會陌生。很多人選擇的強(qiáng)化學(xué)習(xí)入門學(xué)習(xí)材料都是李宏毅老師的臺大公開課視頻。
現(xiàn)在,強(qiáng)化學(xué)習(xí)愛好者有更完善的學(xué)習(xí)資料了!?Datawhale開源項(xiàng)目組成員總結(jié)了李宏毅的強(qiáng)化學(xué)習(xí)視頻,實(shí)現(xiàn)了視頻教程的完整梳理和復(fù)現(xiàn),再也不用擔(dān)心強(qiáng)化學(xué)習(xí)。
目前,項(xiàng)目已完全開源,包括課程內(nèi)容、配套的習(xí)題和項(xiàng)目,供大家使用。

1. 李宏毅深度強(qiáng)化學(xué)習(xí)簡介
李宏毅老師現(xiàn)任臺灣大學(xué)電氣工程系副教授,主要研究方向是機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)。他有一系列公開的強(qiáng)化學(xué)習(xí)課程視頻,也是很多人入門的教程。

李宏毅老師的課程包括很多常見的強(qiáng)化學(xué)習(xí)算法,比如策略梯度、PPO、DQN、DDPG、演員-評論員算法、模仿學(xué)習(xí)、稀疏獎(jiǎng)勵(lì)等算法。此外,我們還補(bǔ)充了馬爾可夫決策過程、Q-learning、Sarsa、REINFORCE 等強(qiáng)化學(xué)習(xí)常見的算法及概念。

「策略梯度」課程中的 PPT,解釋了策略梯度的過程

「近端策略優(yōu)化算法」課程中的 PPT,展示了重要性采樣的問題
李宏毅老師的《深度強(qiáng)化學(xué)習(xí)》是強(qiáng)化學(xué)習(xí)領(lǐng)域經(jīng)典的中文教程之一。李老師幽默風(fēng)趣的上課風(fēng)格讓晦澀的強(qiáng)化學(xué)習(xí)理論變得輕松易懂,他會通過很多有趣的例子來講解強(qiáng)化學(xué)習(xí)理論。比如老師經(jīng)常會用玩 Atari 游戲的例子來講解強(qiáng)化學(xué)習(xí)算法。
此外,為了課程的完整性,我們整理了周博磊老師的《強(qiáng)化學(xué)習(xí)綱要》、李科澆老師的《百度強(qiáng)化學(xué)習(xí)》以及多個(gè)強(qiáng)化學(xué)習(xí)的經(jīng)典資料作為補(bǔ)充。?對于想入門強(qiáng)化學(xué)習(xí)又想看中文講解的人來說絕對是非常推薦的。
但是,考慮到很多強(qiáng)化學(xué)習(xí)愛好者對于課程筆記的需求,我們不僅僅需要的是教學(xué)視頻。我們需要一份課程筆記,能夠引領(lǐng)學(xué)習(xí)者的思路,幫助引導(dǎo)他們進(jìn)入這個(gè)領(lǐng)域。因此,就誕生了這款《LeeDeepRL-Notes》李宏毅深度強(qiáng)化學(xué)習(xí)筆記。
2.《LeeDeepRL-Notes》李宏毅深度強(qiáng)化學(xué)習(xí)筆記
LeeDeepRL-Notes 是 Datawhale 自《李宏毅機(jī)器學(xué)習(xí)筆記》后的又一開源學(xué)習(xí)項(xiàng)目,由團(tuán)隊(duì)成員王琦、楊毅遠(yuǎn)、江季歷時(shí)四個(gè)月協(xié)作而成,實(shí)現(xiàn)了李宏毅老師深度強(qiáng)化學(xué)習(xí)課程內(nèi)容的 100% 復(fù)現(xiàn),并且在此基礎(chǔ)上補(bǔ)充了有助于學(xué)習(xí)理解的相關(guān)資料和內(nèi)容,對重難點(diǎn)公式進(jìn)行了補(bǔ)充推導(dǎo)。
期間,Datawhale 組織了《深度強(qiáng)化學(xué)習(xí)基礎(chǔ)》學(xué)習(xí),在眾多學(xué)習(xí)者共同的努力下,對該內(nèi)容進(jìn)行了迭代和補(bǔ)充。下面,讓我們來詳細(xì)了解下工作詳情吧。
具體工作:
2020 年 6 月 -- 2020 年 7 月:筆記整理初級階段,視頻 100% 復(fù)現(xiàn);
2020 年 7 月 -- 2020 年 10 月:添加相關(guān)的習(xí)題和項(xiàng)目,對筆記內(nèi)容及排版迭代優(yōu)化;
2020 年 10 月 -- 2020 年 11 月:組隊(duì)學(xué)習(xí)《深度強(qiáng)化學(xué)習(xí)基礎(chǔ)》并對內(nèi)容進(jìn)行迭代完善;
2020 年 11 月:最后內(nèi)容修正,正式推廣。

10月《深度強(qiáng)化學(xué)習(xí)基礎(chǔ)》組隊(duì)學(xué)習(xí)中學(xué)習(xí)者的評價(jià)
3.《LeeDeepRL-Notes》學(xué)習(xí)筆記框架
3.a 亮點(diǎn)
這份學(xué)習(xí)筆記具有以下優(yōu)點(diǎn):
完全將李宏毅老師的講課內(nèi)容轉(zhuǎn)為文字,方便學(xué)習(xí)者查閱參考。
為了課程的完整性,我們還整理了周博磊老師的《強(qiáng)化學(xué)習(xí)綱要》、李科澆老師的《百度強(qiáng)化學(xué)習(xí)》以及多個(gè)強(qiáng)化學(xué)習(xí)的經(jīng)典資料作為補(bǔ)充。
配有相關(guān)的習(xí)題和項(xiàng)目。
3.b 筆記框架
內(nèi)容在整體框架上與李宏毅老師的深度強(qiáng)化學(xué)習(xí)課程保持一致。建議學(xué)習(xí)過程中將李宏毅老師的視頻和這份資料搭配使用,效果極佳。筆記也和課程視頻完全同步。
內(nèi)容導(dǎo)航見下:

4. 筆記內(nèi)容細(xì)節(jié)展示
4.a 對 Q-learning 概念的解析

在筆記中重新整理 PPT 內(nèi)容,并增加了一些注釋
4.b Actor-Critc 算法的引入

根據(jù)內(nèi)容整理成知識點(diǎn),方便讀者理解閱讀
在整理過程中,我們并不對視頻語音直接轉(zhuǎn)文字,而是根據(jù)內(nèi)容整理成知識點(diǎn),方便讀者理解閱讀。
4.c 利用貼近學(xué)生的例子解釋知識點(diǎn)

強(qiáng)化學(xué)習(xí)基本概念的解釋
5. 習(xí)題(查漏補(bǔ)缺)
只有教程怎么夠,來點(diǎn)兒課后習(xí)題和關(guān)鍵字總結(jié)幫助大家查漏補(bǔ)缺也是極好的。我們根據(jù)每一章的內(nèi)容,并結(jié)合其他的網(wǎng)絡(luò)資料,原創(chuàng)了課后習(xí)題以及關(guān)鍵字的總結(jié),輔助你在更短的時(shí)間內(nèi)查漏補(bǔ)缺,令你更快的將“零碎、無序”的知識“拼接”完整。
5.a 關(guān)鍵字讓你快速 get 到文章的要點(diǎn)
在每章教程的后面,我們都會結(jié)合每章的內(nèi)容,將定義、具體算法、專業(yè)名詞等關(guān)鍵字和知識點(diǎn),使用最短、最精確且最白話的方式總結(jié),供大家吸收與鞏固。

教程第二章部分關(guān)鍵字示意圖
5.b 習(xí)題與參考答案助力你的查漏補(bǔ)缺
除了關(guān)鍵詞,我們還提供了章節(jié)對應(yīng)的習(xí)題供大家查漏補(bǔ)缺,并且結(jié)合其他資料,提供了詳細(xì)、易懂的答案供大家參考。

教程第一章部分習(xí)題以及對應(yīng)參考答案示意圖
6. 項(xiàng)目(動手實(shí)踐)
強(qiáng)化學(xué)習(xí)少了實(shí)踐怎么行,這邊挑了三個(gè)項(xiàng)目,都基于流行的 OpenAI gym 環(huán)境,讓你快速入門,循序漸進(jìn),主要包括:
6.a 對項(xiàng)目的簡易描述

6.b 層次清晰的手寫代碼

將整個(gè)強(qiáng)化學(xué)習(xí)過程分成以上幾個(gè)子模塊,方便拆解與改動,并且契合原論文的偽代碼,在main.py
中提供基本接口:

6.c 使用 Tensorboard 進(jìn)行可視化

6.d 豐富的持續(xù)更新

在剛剛結(jié)束的組隊(duì)學(xué)習(xí)中,助教耐心地解答了大家的疑惑,并且會根據(jù)反饋的情況,在之后的一個(gè)月內(nèi),持續(xù)更新項(xiàng)目的設(shè)計(jì)方法和詳細(xì)的代碼思路講解,敬請期待~
7. 配套視頻
視頻地址:https://www.bilibili.com/video/BV1MW411w79n
8. 開源地址
項(xiàng)目地址:https://github.com/datawhalechina/leedeeprl-notes?或點(diǎn)擊閱讀原文獲取,歡迎star!