最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

李宏毅強(qiáng)化學(xué)習(xí)完整筆記!開源項(xiàng)目《LeeDeepRL-Notes》發(fā)布

2020-11-22 20:42 作者:絕不原創(chuàng)的飛龍  | 我要投稿

Datawhale開源

核心貢獻(xiàn)者:王琦、楊逸遠(yuǎn)、江季

提起李宏毅老師,熟悉強(qiáng)化學(xué)習(xí)的讀者朋友一定不會陌生。很多人選擇的強(qiáng)化學(xué)習(xí)入門學(xué)習(xí)材料都是李宏毅老師的臺大公開課視頻。

現(xiàn)在,強(qiáng)化學(xué)習(xí)愛好者有更完善的學(xué)習(xí)資料了!?Datawhale開源項(xiàng)目組成員總結(jié)了李宏毅的強(qiáng)化學(xué)習(xí)視頻,實(shí)現(xiàn)了視頻教程的完整梳理和復(fù)現(xiàn),再也不用擔(dān)心強(qiáng)化學(xué)習(xí)。

目前,項(xiàng)目已完全開源,包括課程內(nèi)容、配套的習(xí)題和項(xiàng)目,供大家使用。

1. 李宏毅深度強(qiáng)化學(xué)習(xí)簡介

李宏毅老師現(xiàn)任臺灣大學(xué)電氣工程系副教授,主要研究方向是機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)。他有一系列公開的強(qiáng)化學(xué)習(xí)課程視頻,也是很多人入門的教程。

李宏毅老師的課程包括很多常見的強(qiáng)化學(xué)習(xí)算法,比如策略梯度、PPO、DQN、DDPG、演員-評論員算法、模仿學(xué)習(xí)、稀疏獎(jiǎng)勵(lì)等算法。此外,我們還補(bǔ)充了馬爾可夫決策過程、Q-learning、Sarsa、REINFORCE 等強(qiáng)化學(xué)習(xí)常見的算法及概念。

「策略梯度」課程中的 PPT,解釋了策略梯度的過程

「近端策略優(yōu)化算法」課程中的 PPT,展示了重要性采樣的問題

李宏毅老師的《深度強(qiáng)化學(xué)習(xí)》是強(qiáng)化學(xué)習(xí)領(lǐng)域經(jīng)典的中文教程之一。李老師幽默風(fēng)趣的上課風(fēng)格讓晦澀的強(qiáng)化學(xué)習(xí)理論變得輕松易懂,他會通過很多有趣的例子來講解強(qiáng)化學(xué)習(xí)理論。比如老師經(jīng)常會用玩 Atari 游戲的例子來講解強(qiáng)化學(xué)習(xí)算法。

此外,為了課程的完整性,我們整理了周博磊老師的《強(qiáng)化學(xué)習(xí)綱要》、李科澆老師的《百度強(qiáng)化學(xué)習(xí)》以及多個(gè)強(qiáng)化學(xué)習(xí)的經(jīng)典資料作為補(bǔ)充。?對于想入門強(qiáng)化學(xué)習(xí)又想看中文講解的人來說絕對是非常推薦的。

但是,考慮到很多強(qiáng)化學(xué)習(xí)愛好者對于課程筆記的需求,我們不僅僅需要的是教學(xué)視頻。我們需要一份課程筆記,能夠引領(lǐng)學(xué)習(xí)者的思路,幫助引導(dǎo)他們進(jìn)入這個(gè)領(lǐng)域。因此,就誕生了這款《LeeDeepRL-Notes》李宏毅深度強(qiáng)化學(xué)習(xí)筆記。

2.《LeeDeepRL-Notes》李宏毅深度強(qiáng)化學(xué)習(xí)筆記

LeeDeepRL-Notes 是 Datawhale 自《李宏毅機(jī)器學(xué)習(xí)筆記》后的又一開源學(xué)習(xí)項(xiàng)目,由團(tuán)隊(duì)成員王琦、楊毅遠(yuǎn)、江季歷時(shí)四個(gè)月協(xié)作而成,實(shí)現(xiàn)了李宏毅老師深度強(qiáng)化學(xué)習(xí)課程內(nèi)容的 100% 復(fù)現(xiàn),并且在此基礎(chǔ)上補(bǔ)充了有助于學(xué)習(xí)理解的相關(guān)資料和內(nèi)容,對重難點(diǎn)公式進(jìn)行了補(bǔ)充推導(dǎo)。

期間,Datawhale 組織了《深度強(qiáng)化學(xué)習(xí)基礎(chǔ)》學(xué)習(xí),在眾多學(xué)習(xí)者共同的努力下,對該內(nèi)容進(jìn)行了迭代和補(bǔ)充。下面,讓我們來詳細(xì)了解下工作詳情吧。

具體工作:

  • 2020 年 6 月 -- 2020 年 7 月:筆記整理初級階段,視頻 100% 復(fù)現(xiàn);

  • 2020 年 7 月 -- 2020 年 10 月:添加相關(guān)的習(xí)題和項(xiàng)目,對筆記內(nèi)容及排版迭代優(yōu)化;

  • 2020 年 10 月 -- 2020 年 11 月:組隊(duì)學(xué)習(xí)《深度強(qiáng)化學(xué)習(xí)基礎(chǔ)》并對內(nèi)容進(jìn)行迭代完善;

  • 2020 年 11 月:最后內(nèi)容修正,正式推廣。

10月《深度強(qiáng)化學(xué)習(xí)基礎(chǔ)》組隊(duì)學(xué)習(xí)中學(xué)習(xí)者的評價(jià)

3.《LeeDeepRL-Notes》學(xué)習(xí)筆記框架

3.a 亮點(diǎn)

這份學(xué)習(xí)筆記具有以下優(yōu)點(diǎn):

  • 完全將李宏毅老師的講課內(nèi)容轉(zhuǎn)為文字,方便學(xué)習(xí)者查閱參考。

  • 為了課程的完整性,我們還整理了周博磊老師的《強(qiáng)化學(xué)習(xí)綱要》、李科澆老師的《百度強(qiáng)化學(xué)習(xí)》以及多個(gè)強(qiáng)化學(xué)習(xí)的經(jīng)典資料作為補(bǔ)充。

  • 配有相關(guān)的習(xí)題和項(xiàng)目。

3.b 筆記框架

內(nèi)容在整體框架上與李宏毅老師的深度強(qiáng)化學(xué)習(xí)課程保持一致。建議學(xué)習(xí)過程中將李宏毅老師的視頻和這份資料搭配使用,效果極佳。筆記也和課程視頻完全同步。

內(nèi)容導(dǎo)航見下:

4. 筆記內(nèi)容細(xì)節(jié)展示

4.a 對 Q-learning 概念的解析

在筆記中重新整理 PPT 內(nèi)容,并增加了一些注釋

4.b Actor-Critc 算法的引入

根據(jù)內(nèi)容整理成知識點(diǎn),方便讀者理解閱讀

在整理過程中,我們并不對視頻語音直接轉(zhuǎn)文字,而是根據(jù)內(nèi)容整理成知識點(diǎn),方便讀者理解閱讀。

4.c 利用貼近學(xué)生的例子解釋知識點(diǎn)

強(qiáng)化學(xué)習(xí)基本概念的解釋

5. 習(xí)題(查漏補(bǔ)缺)

只有教程怎么夠,來點(diǎn)兒課后習(xí)題和關(guān)鍵字總結(jié)幫助大家查漏補(bǔ)缺也是極好的。我們根據(jù)每一章的內(nèi)容,并結(jié)合其他的網(wǎng)絡(luò)資料,原創(chuàng)了課后習(xí)題以及關(guān)鍵字的總結(jié),輔助你在更短的時(shí)間內(nèi)查漏補(bǔ)缺,令你更快的將“零碎、無序”的知識“拼接”完整。

5.a 關(guān)鍵字讓你快速 get 到文章的要點(diǎn)

在每章教程的后面,我們都會結(jié)合每章的內(nèi)容,將定義、具體算法、專業(yè)名詞等關(guān)鍵字和知識點(diǎn),使用最短、最精確且最白話的方式總結(jié),供大家吸收與鞏固。

教程第二章部分關(guān)鍵字示意圖

5.b 習(xí)題與參考答案助力你的查漏補(bǔ)缺

除了關(guān)鍵詞,我們還提供了章節(jié)對應(yīng)的習(xí)題供大家查漏補(bǔ)缺,并且結(jié)合其他資料,提供了詳細(xì)、易懂的答案供大家參考。

教程第一章部分習(xí)題以及對應(yīng)參考答案示意圖

6. 項(xiàng)目(動手實(shí)踐)

強(qiáng)化學(xué)習(xí)少了實(shí)踐怎么行,這邊挑了三個(gè)項(xiàng)目,都基于流行的 OpenAI gym 環(huán)境,讓你快速入門,循序漸進(jìn),主要包括:

6.a 對項(xiàng)目的簡易描述

6.b 層次清晰的手寫代碼

將整個(gè)強(qiáng)化學(xué)習(xí)過程分成以上幾個(gè)子模塊,方便拆解與改動,并且契合原論文的偽代碼,在main.py中提供基本接口:

6.c 使用 Tensorboard 進(jìn)行可視化

6.d 豐富的持續(xù)更新

在剛剛結(jié)束的組隊(duì)學(xué)習(xí)中,助教耐心地解答了大家的疑惑,并且會根據(jù)反饋的情況,在之后的一個(gè)月內(nèi),持續(xù)更新項(xiàng)目的設(shè)計(jì)方法和詳細(xì)的代碼思路講解,敬請期待~

7. 配套視頻

視頻地址https://www.bilibili.com/video/BV1MW411w79n

8. 開源地址

項(xiàng)目地址:https://github.com/datawhalechina/leedeeprl-notes?或點(diǎn)擊閱讀原文獲取,歡迎star!


李宏毅強(qiáng)化學(xué)習(xí)完整筆記!開源項(xiàng)目《LeeDeepRL-Notes》發(fā)布的評論 (共 條)

分享到微博請遵守國家法律
错那县| 陇西县| 盐池县| 淮北市| 迭部县| 广昌县| 洛宁县| 鄂伦春自治旗| 白城市| 桦川县| 崇礼县| 纳雍县| 赫章县| 金昌市| 且末县| 朝阳市| 醴陵市| 十堰市| 阳春市| 临潭县| 类乌齐县| 清镇市| 田阳县| 丹江口市| 达拉特旗| 固原市| 肇东市| 手游| 阆中市| 英山县| 通许县| 昌黎县| 阿瓦提县| 玛纳斯县| 石台县| 宾川县| 乐平市| 钟祥市| 九寨沟县| 聂荣县| 惠州市|