最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Linux經(jīng)典實例(第二版)

2023-03-30 20:37 作者:叫什么名字好呢隨便吧  | 我要投稿

鏈接:https://pan.baidu.com/s/1XsN0X8PvHFtnWQtk-MTuJw?pwd=d4u7?

提取碼:d4u7


內(nèi)容簡介

·學(xué)習(xí)使用全新的通用服務(wù)管理器systemd。

·利用firewalld構(gòu)建簡單或復(fù)雜的防火墻。

·保證Linux系統(tǒng)與移動設(shè)備間網(wǎng)絡(luò)連接的安全。

·搶救無法引導(dǎo)的系統(tǒng)。

·重置Linux與Windows的用戶密碼。

·利用dnsmasq管理局域網(wǎng)名稱服務(wù)。

·管理用戶與組,控制文件的訪問。

·探測計算機(jī)硬件,監(jiān)控硬件健康。

·管理GRUB引導(dǎo)加載程序,設(shè)置Linux與Windows雙啟動。

·通過最新的工具同步網(wǎng)絡(luò)上所有系統(tǒng)的時間。

·在樹莓派上構(gòu)建互聯(lián)網(wǎng)路由器與防火墻。

·管理文件系統(tǒng)與分區(qū)。


作者簡介

Carla Schroder是一名科技記者與作家,擁有系統(tǒng)與網(wǎng)絡(luò)管理員的經(jīng)驗,曾負(fù)責(zé)管理Linux-微軟-蘋果混合網(wǎng)絡(luò)。她撰寫過1000多篇Linux操作指南,目前就職于一家Linux企業(yè)軟件公司,負(fù)責(zé)編寫和維護(hù)產(chǎn)品手冊。出版的書籍有《Linux Networking Cookbook》《The Book of Audacity》等。


目錄

目錄

前言 .1

第1 章 強(qiáng)化學(xué)習(xí)概述 .13

1.1 為什么現(xiàn)在就需要強(qiáng)化學(xué)習(xí)? . 14

1.2 機(jī)器學(xué)習(xí) 15

1.3 強(qiáng)化學(xué)習(xí) 17

1.3.1 什么時候使用強(qiáng)化學(xué)習(xí) 19

1.3.2 強(qiáng)化學(xué)習(xí)的應(yīng)用場景 20

1.4 強(qiáng)化學(xué)習(xí)的種類 22

1.4.1 免模型學(xué)習(xí)或有模型學(xué)習(xí) . 22

1.4.2 智能體如何使用并更新它們的策略 23

1.4.3 離散或連續(xù)的行為 . 25

1.4.4 優(yōu)化方法. 25

1.4.5 策略評估和改進(jìn) . 26

1.5 強(qiáng)化學(xué)習(xí)的基本概念 . 27

1.5.1 歷史上第一個強(qiáng)化學(xué)習(xí)算法 . 28

1.5.2 強(qiáng)化學(xué)習(xí)和機(jī)器學(xué)習(xí)是一種東西嗎? . 31

1.5.3 獎勵和反饋 32

1.6 強(qiáng)化學(xué)習(xí)的發(fā)展簡史 . 35

1.7 本章總結(jié) 37

1.8 擴(kuò)展閱讀 38

1.9 參考文獻(xiàn) 38

第2 章 馬爾可夫決策過程,動態(tài)規(guī)劃,蒙特卡洛方法 44

2.1 多臂老虎機(jī)測試 44

2.1.1 獎勵工程. 45

2.1.2 策略評估:價值函數(shù) 45

2.1.3 策略改進(jìn):選擇最佳動作 48

2.1.4 模擬環(huán)境. 50

2.1.5 運(yùn)行實驗. 50

2.1.6 ε - 貪婪算法的改進(jìn). 52

2.2 馬爾可夫決策過程 . 54

2.2.1 庫存控制. 56

2.2.2 庫存控制仿真 . 60

2.3 策略與價值函數(shù) 62

2.3.1 打折的獎勵 62

2.3.2 用狀態(tài)– 價值函數(shù)預(yù)測獎勵 64

2.3.3 用動作值函數(shù)預(yù)測獎勵 . 67

2.3.4 最優(yōu)策略. 69

2.4 蒙特卡洛策略生成 70

2.5 動態(tài)規(guī)劃的值迭代 72

2.5.1 值迭代的過程 74

2.5.2 數(shù)值迭代結(jié)果 76

2.6 總結(jié) 78

2.7 擴(kuò)展閱讀 79

2.8 參考文獻(xiàn) 79

第3 章 時序差分學(xué)習(xí),Q 學(xué)習(xí)和n 步算法 80

3.1 時序差分學(xué)習(xí)的相關(guān)公式 81

3.1.1 Q 學(xué)習(xí) . 83

3.1.2 SARSA 85

3.1.3 Q 學(xué)習(xí)與SARSA 方法的對比 . 87

3.1.4 案例解析:自動擴(kuò)展應(yīng)用程序容器以降低成本 . 90

3.2 行業(yè)實例:廣告中的實時競價 . 92

3.2.1 MDP 的定義 . 92

3.2.2 實時競價案例的環(huán)境 93

3.2.3 進(jìn)一步改進(jìn) 94

3.3 Q 學(xué)習(xí)的相關(guān)擴(kuò)展 96

3.3.1 雙重Q 學(xué)習(xí) 96

3.3.2 延遲Q 學(xué)習(xí) 97

3.3.3 各類版本的Q 學(xué)習(xí)之間的對比 98

3.3.4 對抗學(xué)習(xí). 98

3.4 n 步算法 99

3.5 有效跟蹤 104

3.6 有效跟蹤算法的擴(kuò)展 107

3.6.1 沃特金斯的Q(λ) 107

3.6.2 沃特金斯Q(λ) 的模糊擦除 . 108

3.6.3 快速Q(mào) 學(xué)習(xí) 108

3.6.4 積累式有效跟蹤與取代式有效跟蹤 108

3.7 總結(jié) . 109

3.8 擴(kuò)展閱讀 110

3.9 參考文獻(xiàn) 110

第4 章 深度Q 網(wǎng)絡(luò) . 112

4.1 深度學(xué)習(xí)的體系結(jié)構(gòu) 113

4.1.1 基礎(chǔ)知識 113

4.1.2 深度學(xué)習(xí)架構(gòu) 114

4.1.3 深度學(xué)習(xí)庫 . 115

4.1.4 深度強(qiáng)化學(xué)習(xí) 117

4.2 深度Q 學(xué)習(xí) . 117

4.2.1 經(jīng)驗重放 118

4.2.2 克隆Q 網(wǎng)絡(luò) 118

4.2.3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 119

4.2.4 DQN 的實現(xiàn) 119

4.2.5 實際案例:倒立擺環(huán)境中的DQN 120

4.2.6 案例研究:減少建筑物的能源使用 125

4.3 彩虹DQN 126

4.3.1 分配強(qiáng)化學(xué)習(xí) 126

4.3.2 優(yōu)先經(jīng)驗重放 129

4.3.3 噪聲網(wǎng)絡(luò) 129

4.3.4 決斗網(wǎng)絡(luò) 129

4.4 實際案例:雅達(dá)利的彩虹DQN 130

4.4.1 結(jié)果 131

4.4.2 討論 132

4.5 其他DQN 改進(jìn) 134

4.5.1 改進(jìn)探索過程 135

4.5.2 改進(jìn)獎勵過程 136

4.5.3 從離線數(shù)據(jù)中進(jìn)行學(xué)習(xí) 137

4.6 總結(jié) . 139

4.7 擴(kuò)展閱讀 140

4.8 參考文獻(xiàn) 140

第5 章 梯度策略 144

5.1 直接學(xué)習(xí)策略的優(yōu)勢 144

5.2 如何計算策略的梯度 145

5.3 策略梯度理論 . 146

5.4 策略函數(shù) 149

5.4 1 線性策略 149

5.4.2 其他策略 151

5.5 基本實現(xiàn) 152

5.5.1 蒙特卡洛算法(強(qiáng)化算法) 152

5.5.2 帶基線的強(qiáng)化算法 153

5.5.3 梯度方差的減小 157

5.5.4 n 步演員評論家和優(yōu)勢演員評論家(A2C) . 159

5.5.5 基于資格跡的演員評論家算法 . 164

5.5.6 基本策略梯度算法的比較 165

5.6 行業(yè)研究:為客戶自動提供產(chǎn)品 . 166

5.6.1 行業(yè)實例:Gym 環(huán)境中的購物車實驗 . 167

5.6.2 預(yù)設(shè)期望 168

5.6.3 購物車實驗環(huán)境的結(jié)果展示 169

5.7 總結(jié) . 173

5.8 擴(kuò)展閱讀 174

5.9 參考文獻(xiàn) 174

第6 章 超越策略梯度 176

6.1 離線算法 177

6.1.1 重要性抽樣 177

6.1.2 行為和目標(biāo)策略 179

6.1.3 離線 Q 學(xué)習(xí) 180

6.1.4 梯度時差學(xué)習(xí) 180

6.1.5 Greedy-GQ 算法 181

6.1.6 離線演員評論家算法 . 182

6.2 決定性策略梯度 183

6.2.1 決定性策略梯度 183

6.2.2 深度確定性策略梯度 . 185

6.2.3 雙延遲DDPG 189

6.2.4 案例研究:利用到用戶評論的推薦算法 193

6.2.5 改進(jìn)DPG. 194

6.3 信賴域方法 195

6.3.1 Kullback-Leibler 散度 197

6.3.2 自然策略梯度與信任區(qū)域策略優(yōu)化 198

6.3.3 近端策略優(yōu)化 201

6.4 實際案例:在現(xiàn)實生活中使用伺服器 206

6.4.1 實驗設(shè)置 . 206

6.4.2 強(qiáng)化學(xué)習(xí)算法實現(xiàn) 207

6.4.3 增加算法的復(fù)雜度 210

6.4.4 模擬中的超參數(shù)調(diào)優(yōu) . 211

6.4.5 產(chǎn)生的策略 212

6.5 其他策略梯度算法 214

6.5.1 回溯(λ) 214

6.5.2 有經(jīng)驗重放的演員評論家(ACER) 214

6.5.3 使用Kronecker 因子信任區(qū)域的演員評論家算法(ACKTR) 215

6.5.4 更多相關(guān)方法 216

6.6 策略梯度算法的擴(kuò)展 216

6.7 總結(jié) . 217

6.7.1 應(yīng)該使用哪種算法? . 217

6.7.2 關(guān)于異步方法的注意事項 218

6.8 擴(kuò)展閱讀 218

6.9 參考文獻(xiàn) 219

第7 章 用熵方法學(xué)習(xí)所有可能的策略 225

7.1 什么是熵? 225

7.2 最大熵強(qiáng)化學(xué)習(xí) 226

7.3 弱演員評論家算法 227

7.3.1 SAC 的實現(xiàn)細(xì)節(jié)與離散動作空間 228

7.3.2 自動調(diào)整溫度 229

7.3.3 案例研究:有助于減少交通擁堵的自動化交通管理系統(tǒng) 229

7.4 最大熵方法的推廣 231

7.4.1 熵的其他度量(以及策略集) . 231

7.4.2 基于雙重Q 學(xué)習(xí)上限的優(yōu)化探索 231

7.4.3 通過歷史經(jīng)驗重放改進(jìn)結(jié)果 232

7.4.4 軟策略梯度 . 232

7.4.5 軟Q 學(xué)習(xí)(及其擴(kuò)展) 232

7.4.6 路徑一致性學(xué)習(xí) 233

7.5 性能比較:SAC 與PPO 233

7.6 熵是如何激勵智能體進(jìn)行探索的? . 235

7.7 行業(yè)實例:通過遙控車學(xué)習(xí)自動駕駛 240

7.7.1 問題描述 241

7.7.2 減少訓(xùn)練時間 241

7.7.3 夸張的動作 . 244

7.7.4 超參數(shù)探索 . 246

7.7.5 最終策略 246

7.7.6 進(jìn)一步改進(jìn) . 247

7.8 本章總結(jié) 248

7.8.1 策略梯度與軟Q 學(xué)習(xí)的等價性 249

7.8.2 這對今后的發(fā)展意味著什么? . 249

7.8.3 這對目前來說意味著什么? 249

7.9 參考文獻(xiàn) 250

第8 章 改進(jìn)智能體的學(xué)習(xí)方式 253

8.1 關(guān)于MDP 的思考 . 254

8.1.1 部分可觀察馬爾可夫決策過程 . 254

8.1.2 案例研究:POMDP 在自動駕駛汽車中的應(yīng)用 256

8.1.3 上下文馬爾可夫決策過程 . 257

8.1.4 動作不斷變化的MDPs 257

8.1.5 正則化MDP 258

8.2 層次強(qiáng)化學(xué)習(xí) . 259

8.2.1 初級層次強(qiáng)化學(xué)習(xí) . 259

8.2.2 具有內(nèi)在獎勵的層次強(qiáng)化學(xué)習(xí)(HIRO) 260

8.2.3 學(xué)習(xí)技巧和無監(jiān)督學(xué)習(xí) 262

8.2.4 在HRL 中使用技能 263

8.2.5 HRL 研究結(jié)論 264

8.3 多智能體強(qiáng)化學(xué)習(xí) 265

8.3.1 MARL 的框架 265

8.3.2 集中式或分布式 267

8.3.3 單智能體算法 268

8.3.4 案例研究:單智能體分散學(xué)習(xí)在無人機(jī)中的應(yīng)用 . 269

8.3.5 集中學(xué)習(xí),分散執(zhí)行 . 270

8.3.6 分散的學(xué)習(xí) . 272

8.3.7 其他的組合 . 273

8.3.8 MARL 的挑戰(zhàn) 274

8.3.9 MARL 的結(jié)論 275

8.4 專家的指導(dǎo) 276

8.4.1 克隆行為 276

8.4.2 模擬強(qiáng)化學(xué)習(xí) 276

8.4.3 反向強(qiáng)化學(xué)習(xí) 277

8.4.4 課程學(xué)習(xí) 279

8.5 其他案例 281

8.5.1 元學(xué)習(xí) 281

8.5.2 遷移學(xué)習(xí) 281

8.6 總結(jié) . 282

8.7 擴(kuò)展閱讀 283

8.8 參考文獻(xiàn) 285

第9 章 強(qiáng)化學(xué)習(xí)實踐 293

9.1 強(qiáng)化學(xué)習(xí)的生命周期 293

9.2 問題定義:一個真正的強(qiáng)化學(xué)習(xí)項目到底包括什么? . 299

9.2.1 強(qiáng)化學(xué)習(xí)問題是連續(xù)性問題 299

9.2.2 強(qiáng)化學(xué)習(xí)問題是戰(zhàn)略性問題 300

9.2.3 強(qiáng)化學(xué)習(xí)中的基礎(chǔ)指標(biāo) 302

9.2.4 學(xué)習(xí)類型 304

9.3 強(qiáng)化學(xué)習(xí)工程和改進(jìn) 309

9.3.1 項目過程 309

9.3.2 環(huán)境工程 310

9.3.3 狀態(tài)工程或狀態(tài)表示學(xué)習(xí) 313

9.3.4 策略工程 316

9.3.5 將策略映射到操作空間 322

9.3.6 探索 326

9.3.7 獎勵工程 333

9.4 總結(jié) . 337

9.5 擴(kuò)展閱讀 338

9.6 參考文獻(xiàn) 339

第10 章 強(qiáng)化學(xué)習(xí)的生產(chǎn)部署 348

10.1 實現(xiàn)階段 . 349

10.1.1 框架 . 349

10.1.2 大規(guī)模強(qiáng)化學(xué)習(xí) 353

10.1.3 評價 . 361

10.2 部署 370

10.2.1 目標(biāo) . 371

10.2.2 體系架構(gòu) 374

10.2.3 輔助工具 376

10.2.4 安全、保障和道德 382

10.3 總結(jié) 389

10.4 擴(kuò)展閱讀 . 390

10.5 參考文獻(xiàn) . 392

第11 章 結(jié)論與展望 . 400

11.1 提示和技巧 400

11.1.1 框架問題 400

11.1.2 你的數(shù)據(jù) 402

11.1.3 訓(xùn)練 . 403

11.1.4 評價 . 404

11.1.5 部署 . 404

11.2 調(diào)試 405

11.2.1 ${ALGORITHM_NAME} 不能解決${ENVIRONMENT}! 406

11.2.2 監(jiān)測調(diào)試 407

11.3 強(qiáng)化學(xué)習(xí)的未來 408

11.3.1 強(qiáng)化學(xué)習(xí)市場機(jī)會 409

11.3.2 強(qiáng)化學(xué)習(xí)的研究方向 410

11.4 結(jié)束語 416

11.4.1 未來下一步 417

11.4.2 現(xiàn)在輪到你了! . 418

11.5 擴(kuò)展閱讀 . 418

11.6 參考文獻(xiàn) . 419

附錄A 兩種動作的Logistic 策略梯度 423

附錄B Softmax 的策略梯度 . 427


查看全部↓

前言/序言

譯者序

2016 年,由Google DeepMind 開發(fā)的AlphaGo 在人機(jī)對弈中以4:1 擊敗了韓國圍棋冠軍李世石;稍遠(yuǎn)一些,1997 年IBM 的“深藍(lán)”戰(zhàn)勝了國際象棋大師卡斯帕羅夫。與之前不同的是,AlphaGo 的火爆讓人們經(jīng)常提及人工智能這一詞匯。但值得注意的是,當(dāng)談到AlphaGo 的具體技術(shù),人們常用“左右互搏”來表達(dá)“自己和自己下棋,訓(xùn)練的模型越來越強(qiáng)大”,漸漸的,有一些非專業(yè)技術(shù)人員使用“強(qiáng)化學(xué)習(xí)”來表達(dá)這一過程,這樣的認(rèn)識是非常片面的。

簡單地說,強(qiáng)化學(xué)習(xí)是為了訓(xùn)練智能體,將智能體與環(huán)境之間進(jìn)行探索– 利用(exploration-exploitation)有機(jī)結(jié)合的算法,其常見模型是標(biāo)準(zhǔn)的馬爾可夫決策過程(Markov Decision Process, MDP)。第d一步,在智能體與環(huán)境交互過程中,得到完整或非完整軌跡(軌跡是否完整對應(yīng)于強(qiáng)化學(xué)習(xí)的不同算法:蒙特卡洛或者SARSA/Q-Learning);第二步,使用各類可行算法訓(xùn)練智能體本身,然后返回第d一步繼續(xù)迭代。當(dāng)然,在具體強(qiáng)化學(xué)習(xí)算法中,如果模型是已知的,可以省略第d一步,直接使用動態(tài)規(guī)劃方法。這將是第2 章和第3章的重點(diǎn)內(nèi)容。我個人認(rèn)為,充分理解SARSA/Q-Learning 算法是進(jìn)入強(qiáng)化學(xué)習(xí)殿堂的過門石。多說一句,Richard Bellman 在1957 年提出的馬爾可夫決策過程的動態(tài)規(guī)劃算法,往往被學(xué)者認(rèn)為是強(qiáng)化學(xué)習(xí)的發(fā)端。

在當(dāng)前硬件水平和項目需求的促進(jìn)下,強(qiáng)化學(xué)習(xí)算法往往與深度學(xué)習(xí)相結(jié)合。因此,第4 章將經(jīng)典強(qiáng)化學(xué)習(xí)算法與深度模型相


Linux經(jīng)典實例(第二版)的評論 (共 條)

分享到微博請遵守國家法律
兴国县| 汉沽区| 新兴县| 洪泽县| 措美县| 五河县| 锦州市| 陇西县| 东山县| 九台市| 庆云县| 和平县| 桂东县| 三穗县| 康保县| 株洲县| 武威市| 龙岩市| 南投市| 江华| 江油市| 曲周县| 甘洛县| 湛江市| 枣庄市| 皋兰县| 凤冈县| 中西区| 冀州市| 泗水县| 奉新县| 仪陇县| 加查县| 桃园县| 枣庄市| 建平县| 繁昌县| 龙山县| 平利县| 咸丰县| 仙居县|