Python 中的高級(jí)強(qiáng)化學(xué)習(xí):從 DQN 到 SAC
Python 中的高級(jí)強(qiáng)化學(xué)習(xí):從 DQN 到 SAC
使用深度強(qiáng)化學(xué)習(xí)和 PyTorch 構(gòu)建人工智能 (AI) 代理:DDPG、TD3、SAC、NAF、HER
課程英文名:Advanced Reinforcement Learning in Python from DQN to SAC
此視頻教程共5.0小時(shí),中英雙語(yǔ)字幕,畫(huà)質(zhì)清晰無(wú)水印,源碼附件全

下載地址
百度網(wǎng)盤(pán)地址:https://pan.baidu.com/s/1_eoVIwUijTDjw8v5pVDccA?pwd=ndku
課程內(nèi)容
你將會(huì)學(xué)到的
掌握一些最先進(jìn)的強(qiáng)化學(xué)習(xí)算法。
了解如何創(chuàng)建可以在復(fù)雜環(huán)境中行動(dòng)以實(shí)現(xiàn)其目標(biāo)的 AI。
使用 Python 最流行的工具(PyTorch Lightning、OpenAI gym、Brax、Optuna)從頭開(kāi)始創(chuàng)建高級(jí)強(qiáng)化學(xué)習(xí)代理
了解如何執(zhí)行超參數(shù)調(diào)整(為我們的 AI 學(xué)習(xí)選擇最佳實(shí)驗(yàn)條件)
從根本上了解每種算法的學(xué)習(xí)過(guò)程。
調(diào)試和擴(kuò)展所提供的算法。
從研究論文中理解和實(shí)施新算法。
課程內(nèi)容
14 個(gè)章節(jié)?-?115 個(gè)講座?-?總時(shí)長(zhǎng)?8?小時(shí)?5?分鐘展開(kāi)所有章節(jié)
介紹5 個(gè)講座?-?8 分鐘
復(fù)習(xí):馬爾可夫決策過(guò)程 (MDP)11 個(gè)講座?-?32 分鐘
復(fù)習(xí):Q-Learning5 個(gè)講座?-?11 分鐘
復(fù)習(xí):神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介7 個(gè)講座?-?34 分鐘
復(fù)習(xí):深度 Q 學(xué)習(xí)4 個(gè)講座?-?9 分鐘
PyTorch 閃電15 個(gè)講座?-?1 小時(shí) 20 分鐘
使用 Optuna 進(jìn)行超參數(shù)調(diào)整6 個(gè)講座?-?25 分鐘
連續(xù)動(dòng)作空間的深度 Q 學(xué)習(xí)(歸一化優(yōu)勢(shì)函數(shù))19 個(gè)講座?-?1 小時(shí) 17 分鐘
復(fù)習(xí):策略梯度方法5 個(gè)講座?-?20 分鐘
深度確定性策略梯度 (DDPG)13 個(gè)講座?-?1 小時(shí) 9 分鐘
還有 4 個(gè)章節(jié)
要求
熟悉 Python 編程
完成我們的課程"強(qiáng)化學(xué)習(xí)初學(xué)者到掌握"或熟悉強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)(或觀看本課程中包含的練級(jí)部分)。
了解基本統(tǒng)計(jì)數(shù)據(jù)(均值、方差、正態(tài)分布)
說(shuō)明
這是 Udemy 上最完整的高級(jí)強(qiáng)化學(xué)習(xí)課程。在其中,你將學(xué)習(xí)使用 PyTorch 和 PyTorch 閃電在 Python 中實(shí)現(xiàn)一些最強(qiáng)大的深度強(qiáng)化學(xué)習(xí)算法。你將從頭開(kāi)始實(shí)施根據(jù)經(jīng)驗(yàn)解決控制任務(wù)的自適應(yīng)算法。你將學(xué)習(xí)將這些技術(shù)與神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方法相結(jié)合,以創(chuàng)建能夠解決決策任務(wù)的自適應(yīng)人工智能代理。
本課程將向你介紹強(qiáng)化學(xué)習(xí)技術(shù)的最新技術(shù)。它還將為你準(zhǔn)備本系列的下一個(gè)課程,我們將在其中探索在其他類(lèi)型的任務(wù)中表現(xiàn)出色的其他高級(jí)方法。
該課程的重點(diǎn)是培養(yǎng)實(shí)踐技能。因此,在學(xué)習(xí)了每個(gè)方法家族最重要的概念之后,我們將從頭開(kāi)始在 jupyter notebook 中實(shí)現(xiàn)它們的一種或多種算法。
調(diào)平模塊:
-- 復(fù)習(xí):馬爾可夫決策過(guò)程 (MDP)。
-- 復(fù)習(xí):Q-Learning。
-- 復(fù)習(xí):神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介。
-- 復(fù)習(xí):深度 Q 學(xué)習(xí)。
-- 復(fù)習(xí):策略梯度方法
高級(jí)強(qiáng)化學(xué)習(xí):
-- PyTorch 閃電。
-- 使用 Optuna 進(jìn)行超參數(shù)調(diào)整。
-- 連續(xù)動(dòng)作空間的深度 Q 學(xué)習(xí)(歸一化優(yōu)勢(shì)函數(shù) -- NAF)。
-- 深度確定性策略梯度 (DDPG)。
-- 雙延遲 DDPG (TD3)。
-- 軟演員-評(píng)論家 (SAC)。
-- 事后經(jīng)驗(yàn)回放 (HER)。
此課程面向哪些人:
想要在機(jī)器學(xué)習(xí)領(lǐng)域找到工作的開(kāi)發(fā)人員。
尋求擴(kuò)展知識(shí)廣度的數(shù)據(jù)科學(xué)家/分析師和機(jī)器學(xué)習(xí)從業(yè)者。
機(jī)器人專(zhuān)業(yè)的學(xué)生和研究人員。
工科學(xué)生和研究人員。