手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 生活 »日常 » Python 中的高級(jí)強(qiáng)化學(xué)習(xí)：從 DQN 到 SAC

Python 中的高級(jí)強(qiáng)化學(xué)習(xí)：從 DQN 到 SAC

2022-09-08 15:04 作者:IT教程精選 0人讀過(guò) | 我要投稿

使用深度強(qiáng)化學(xué)習(xí)和 PyTorch 構(gòu)建人工智能 (AI) 代理：DDPG、TD3、SAC、NAF、HER

課程英文名：Advanced Reinforcement Learning in Python from DQN to SAC

此視頻教程共5.0小時(shí)，中英雙語(yǔ)字幕，畫(huà)質(zhì)清晰無(wú)水印，源碼附件全

下載地址

百度網(wǎng)盤(pán)地址：https://pan.baidu.com/s/1_eoVIwUijTDjw8v5pVDccA?pwd=ndku

課程內(nèi)容

你將會(huì)學(xué)到的

掌握一些最先進(jìn)的強(qiáng)化學(xué)習(xí)算法。
了解如何創(chuàng)建可以在復(fù)雜環(huán)境中行動(dòng)以實(shí)現(xiàn)其目標(biāo)的 AI。
使用 Python 最流行的工具（PyTorch Lightning、OpenAI gym、Brax、Optuna）從頭開(kāi)始創(chuàng)建高級(jí)強(qiáng)化學(xué)習(xí)代理
了解如何執(zhí)行超參數(shù)調(diào)整（為我們的 AI 學(xué)習(xí)選擇最佳實(shí)驗(yàn)條件）
從根本上了解每種算法的學(xué)習(xí)過(guò)程。
調(diào)試和擴(kuò)展所提供的算法。
從研究論文中理解和實(shí)施新算法。

課程內(nèi)容

14 個(gè)章節(jié)?-?115 個(gè)講座?-?總時(shí)長(zhǎng)?8?小時(shí)?5?分鐘展開(kāi)所有章節(jié)

介紹5 個(gè)講座?-?8 分鐘

復(fù)習(xí)：馬爾可夫決策過(guò)程 (MDP)11 個(gè)講座?-?32 分鐘

復(fù)習(xí)：Q-Learning5 個(gè)講座?-?11 分鐘

復(fù)習(xí)：神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介7 個(gè)講座?-?34 分鐘

復(fù)習(xí)：深度 Q 學(xué)習(xí)4 個(gè)講座?-?9 分鐘

PyTorch 閃電15 個(gè)講座?-?1 小時(shí) 20 分鐘

使用 Optuna 進(jìn)行超參數(shù)調(diào)整6 個(gè)講座?-?25 分鐘

連續(xù)動(dòng)作空間的深度 Q 學(xué)習(xí)（歸一化優(yōu)勢(shì)函數(shù)）19 個(gè)講座?-?1 小時(shí) 17 分鐘

復(fù)習(xí)：策略梯度方法5 個(gè)講座?-?20 分鐘

深度確定性策略梯度 (DDPG)13 個(gè)講座?-?1 小時(shí) 9 分鐘

還有 4 個(gè)章節(jié)

要求

熟悉 Python 編程
完成我們的課程"強(qiáng)化學(xué)習(xí)初學(xué)者到掌握"或熟悉強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)（或觀看本課程中包含的練級(jí)部分）。
了解基本統(tǒng)計(jì)數(shù)據(jù)（均值、方差、正態(tài)分布）

說(shuō)明

這是 Udemy 上最完整的高級(jí)強(qiáng)化學(xué)習(xí)課程。在其中，你將學(xué)習(xí)使用 PyTorch 和 PyTorch 閃電在 Python 中實(shí)現(xiàn)一些最強(qiáng)大的深度強(qiáng)化學(xué)習(xí)算法。你將從頭開(kāi)始實(shí)施根據(jù)經(jīng)驗(yàn)解決控制任務(wù)的自適應(yīng)算法。你將學(xué)習(xí)將這些技術(shù)與神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方法相結(jié)合，以創(chuàng)建能夠解決決策任務(wù)的自適應(yīng)人工智能代理。

本課程將向你介紹強(qiáng)化學(xué)習(xí)技術(shù)的最新技術(shù)。它還將為你準(zhǔn)備本系列的下一個(gè)課程，我們將在其中探索在其他類(lèi)型的任務(wù)中表現(xiàn)出色的其他高級(jí)方法。

該課程的重點(diǎn)是培養(yǎng)實(shí)踐技能。因此，在學(xué)習(xí)了每個(gè)方法家族最重要的概念之后，我們將從頭開(kāi)始在 jupyter notebook 中實(shí)現(xiàn)它們的一種或多種算法。

調(diào)平模塊：

-- 復(fù)習(xí)：馬爾可夫決策過(guò)程 (MDP)。

-- 復(fù)習(xí)：Q-Learning。

-- 復(fù)習(xí)：神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介。

-- 復(fù)習(xí)：深度 Q 學(xué)習(xí)。

-- 復(fù)習(xí)：策略梯度方法

高級(jí)強(qiáng)化學(xué)習(xí)：

-- PyTorch 閃電。

-- 使用 Optuna 進(jìn)行超參數(shù)調(diào)整。

-- 連續(xù)動(dòng)作空間的深度 Q 學(xué)習(xí)（歸一化優(yōu)勢(shì)函數(shù) -- NAF）。

-- 深度確定性策略梯度 (DDPG)。

-- 雙延遲 DDPG (TD3)。

-- 軟演員-評(píng)論家 (SAC)。

-- 事后經(jīng)驗(yàn)回放 (HER)。

此課程面向哪些人：

想要在機(jī)器學(xué)習(xí)領(lǐng)域找到工作的開(kāi)發(fā)人員。
尋求擴(kuò)展知識(shí)廣度的數(shù)據(jù)科學(xué)家/分析師和機(jī)器學(xué)習(xí)從業(yè)者。
機(jī)器人專(zhuān)業(yè)的學(xué)生和研究人員。
工科學(xué)生和研究人員。

標(biāo)簽：