最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

深度強化學習實戰(zhàn):用OpenAI Gym構建智能體

2023-07-28 21:11 作者:劉姥姥看人間  | 我要投稿

鏈接:https://pan.baidu.com/s/1VQOax7FanvU83L2iBXibUw?pwd=ewdn?

提取碼:ewdn

一本介紹在OpenAI Gym環(huán)節(jié)中構建智能體的實戰(zhàn)指南! 只需要專注算法的優(yōu)化,無需浪費時間去搭建環(huán)境! ·從零起步,內容通俗易懂,輕松學習OpenAI Gym的用法 ·運用強化學習/深度強化學習算法構建智能體,不用浪費時間去搭建環(huán)境! ·案例應用側重于游戲、自動駕駛領域,幫你解決基于智能體的領域問題! ·基于Python編程語言,講解基本概念和應用知識,操作易上手!

●第1章智能體與學習環(huán)境入門1
1.1智能體簡介1
1.2學習環(huán)境2
1.3OpenAIGym簡介3
1.4理解OpenAIGym的主要特性8
1.4.1簡單的環(huán)境接口8
1.4.2可比較與可復現(xiàn)8
1.4.3進程可監(jiān)控9
1.5OpenAIGym工具包的作用9
1.6創(chuàng)建第一個OpenAIGym環(huán)境9
1.7小結11
第2章強化學習和深度強化學習12
2.1強化學習簡介12
2.2直觀理解人工智能的含義和內容13
2.2.1監(jiān)督學習13
2.2.2非監(jiān)督學習14
2.2.3強化學習14
2.3強化學習實戰(zhàn)14
2.3.1智能體15
2.3.2獎勵15
2.3.3環(huán)境15
2.3.4狀態(tài)16
2.3.5模型17
2.3.6值函數(shù)17
2.3.7策略18
2.4馬爾可夫決策過程18
2.5動態(tài)規(guī)劃19
2.6蒙特卡洛學習和時序差分學習19
2.7SARSA和Q-Learning20
2.8深度強化學習21
2.9強化學習和深度強化學習算法的實踐應用22
2.10小結23
第3章開啟OpenAIGym和深度強化學習之旅24
3.1代碼庫、設置和配置24
3.1.1先決條件25
3.1.2創(chuàng)建conda環(huán)境26
3.1.3最小化安裝——快捷簡便的方法27
3.1.4完整安裝OpenAIGym學習環(huán)境28
3.2安裝深度強化學習所需的工具和庫32
3.2.1安裝推薦的系統(tǒng)軟件包32
3.2.2安裝CUDA33
3.2.3安裝PyTorch34
3.3小結35
第4章探索Gym及其功能36
4.1探索環(huán)境列表和術語36
4.1.1術語37
4.1.2探索Gym環(huán)境38
4.2理解Gym接口40
4.3Gym中的空間43
4.4小結47
第5章實現(xiàn)第一個智能體——解決過山車問題48
5.1了解過山車問題48
5.2從零開始實現(xiàn)Q-Learning智能體50
5.2.1Q-Learning回顧53
5.2.2使用Python和NumPy實現(xiàn)Q-Learning智能體53
5.3在Gym中訓練強化學習智能體58
5.4測試并記錄智能體的性能58
5.5一個簡單且完整的Q-Learner實現(xiàn)——過山車問題的解決方案59
5.6小結63
第6章用深度Q-Learning實現(xiàn)很優(yōu)化控制智能體64
6.1優(yōu)化Q-Learning智能體65
6.1.1用神經網絡近似Q函數(shù)65
6.1.2經驗回放71
6.1.3重溫ε-貪婪動作策略74
6.2實現(xiàn)一個深度Q-Learning智能體76
6.2.1用PyTorch實現(xiàn)一個深度卷積Q網絡77
6.2.2使用目標Q網絡穩(wěn)定智能體的學習78
6.2.3記錄和可視化智能體的學習過程79
6.2.4管理超參數(shù)和配置參數(shù)81
6.2.5用完整的深度Q-Learner處理輸入為原始像素的復雜問題83
6.3AtariGym環(huán)境89
6.4訓練深度Q-Learner玩Atari游戲98
6.4.1整合一個完整的深度Q-Learner98
6.4.2超參數(shù)101
6.4.3啟動訓練過程102
6.4.4在Atari游戲中測試深度Q-Learner的性能103
6.5小結104
第7章創(chuàng)建自定義OpenAIGym環(huán)境——CARLA105
7.1理解Gym環(huán)境結構105
7.1.1為自定義Gym環(huán)境實現(xiàn)創(chuàng)建模板106
7.1.2在OpenAIGym環(huán)境中注冊自定義環(huán)境108
7.2創(chuàng)建與OpenAIGym兼容的CARLA環(huán)境108
7.2.1配置和初始化110
7.2.2實現(xiàn)reset方法111
7.2.3為CARLA環(huán)境實現(xiàn)step函數(shù)115
7.2.4測試CARLAGym環(huán)境120
7.3小結122
第8章用深度演員-評論家算法實現(xiàn)無人駕駛智能體123
8.1深度n步優(yōu)勢演員-評論家算法123
8.1.1策略梯度124
8.1.2演員-評論家算法126
8.1.3優(yōu)勢演員-評論家算法127
8.1.4n步優(yōu)勢演員-評論家算法129
8.1.5深度n步優(yōu)勢演員-評論家算法132
8.2實現(xiàn)深度n步優(yōu)勢演員-評論家智能體133
8.2.1初始化演員和評論家網絡133
8.2.2用當前策略獲取n步經驗137
8.2.3計算演員和評論家的損失137
8.2.4更新演員-評論家模型139
8.2.5用于保存/加載、記錄、可視化和監(jiān)視的工具139
8.2.6擴展——異步深度n步優(yōu)勢演員-評論家139
8.3訓練一個“聰明”的自動駕駛智能體140
8.3.1訓練和測試深度n步優(yōu)勢演員-評論家智能體140
8.3.2訓練智能體在CARLA中駕駛車輛143
8.4小結144
第9章探索學習環(huán)境全景——Roboschool、GymRetro、StarCraft-Ⅱ和DeepMindLab145
9.1Gym接口兼容的環(huán)境146
9.1.1Roboschool146
9.1.2GymRetro150
9.2其他基于Python的開源學習環(huán)境153
9.2.1星際爭霸Ⅱ—PySC2153
9.2.2DeepMindLab156
9.3小結160
第10章探索學習算法世界——DDPG(演員-評論家)、PPO(策略梯度)、Rainbow(基于值)161
10.1深度確定性策略梯度162
10.2近端策略優(yōu)化163
10.3Rainbow165
10.3.1核心概念165
10.3.2優(yōu)點及應用簡要總結169
10.4小結170

這是一本介紹用OpenAI Gym構建智能體的實戰(zhàn)指南。全書先簡要介紹智能體和學習環(huán)境的一些入門知識,概述強化學習和深度強化學習的基本概念和知識點,然后重點介紹OpenAI Gym的相關內容,隨后在具體的Gym環(huán)境中運用強化學習算法構建智能體。本書還探討了這些算法在游戲、自動駕駛領域的應用。
本書適合想用OpenAIGym構建智能體的讀者閱讀,也適合對強化學習和深度強化學習感興趣的讀者參考。讀者應具備一定的Python編程基礎。


深度強化學習實戰(zhàn):用OpenAI Gym構建智能體的評論 (共 條)

分享到微博請遵守國家法律
吉木萨尔县| 黑河市| 石楼县| 武邑县| 双柏县| 翁牛特旗| 灵石县| 常熟市| 新野县| 乐至县| 西丰县| 高碑店市| 信阳市| 开封市| 内江市| 囊谦县| 五河县| 比如县| 石城县| 同仁县| 祁连县| 连云港市| 克什克腾旗| 云南省| 兴业县| 利川市| 丹东市| 舟山市| 五寨县| 涿鹿县| 望江县| 潼关县| 济宁市| 台东县| 安福县| 上林县| 当阳市| 高唐县| 淮南市| 赫章县| 桂林市|