最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

強(qiáng)化學(xué)習(xí)(第2版)

2023-03-27 22:09 作者:干啥啥不會(huì)白嫖第一名  | 我要投稿

鏈接:https://pan.baidu.com/s/1Le0VnOCODEhr0bQmMjvz0A?pwd=wvw2?

提取碼:wvw2

編輯推薦

適讀人群 :《強(qiáng)化學(xué)習(xí)(第2版)》適合所有對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀、收藏。

《強(qiáng)化學(xué)習(xí)(第2版)》被業(yè)界公認(rèn)為任何對(duì)人工智能領(lǐng)域感興趣的人員的必讀書。

《強(qiáng)化學(xué)習(xí)(第2版)》是被稱為“強(qiáng)化學(xué)習(xí)教父”的Richard Sutton在強(qiáng)化學(xué)習(xí)領(lǐng)域的開創(chuàng)性、奠基性著作。自1998年第1版出版以來,一直是強(qiáng)化學(xué)習(xí)領(lǐng)域的經(jīng)典導(dǎo)論性教材,培育了好幾代強(qiáng)化學(xué)習(xí)領(lǐng)域的研究人員。

在第2版中,隨著強(qiáng)化學(xué)習(xí)的蓬勃發(fā)展,作者補(bǔ)充了很多新的內(nèi)容:人工神經(jīng)網(wǎng)絡(luò)、蒙特卡洛樹搜索、平均收益大化……涵蓋了當(dāng)今關(guān)鍵的核心算法和理論。不僅如此,作者還以真實(shí)世界的應(yīng)用為例闡述了這些內(nèi)容。


內(nèi)容簡(jiǎn)介

《強(qiáng)化學(xué)習(xí)(第2版)》作為強(qiáng)化學(xué)習(xí)思想的深度解剖之作,被業(yè)內(nèi)公認(rèn)為是一本強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的經(jīng)典著作。它從強(qiáng)化學(xué)習(xí)的基本思想出發(fā),深入淺出又嚴(yán)謹(jǐn)細(xì)致地介紹了馬爾可夫決策過程、蒙特卡洛方法、時(shí)序差分方法、同軌離軌策略等強(qiáng)化學(xué)習(xí)的基本概念和方法,并以大量的實(shí)例幫助讀者理解強(qiáng)化學(xué)習(xí)的問題建模過程以及核心的算法細(xì)節(jié)。

《強(qiáng)化學(xué)習(xí)(第2版)》適合所有對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀、收藏。

作者簡(jiǎn)介

Richard Sutton(理查德·薩頓)

埃德蒙頓 DeepMind 公司的杰出科學(xué)家,阿爾伯塔大學(xué)計(jì)算科學(xué)系教授。他于2003年加入阿爾伯塔大學(xué),2017年加入DeepMind。之前,曾在美國(guó)電話電報(bào)公司(AT&T)和通用電話電子公司(GTE)實(shí)驗(yàn)室工作,在馬薩諸塞大學(xué)做學(xué)術(shù)研究。

1978年獲得斯坦福大學(xué)心理學(xué)學(xué)士學(xué)位,1984年獲得馬薩諸塞大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位,加拿大皇家學(xué)會(huì)院士和人工智能促進(jìn)會(huì)的會(huì)士。

主要研究興趣是在決策者與環(huán)境相互作用時(shí)所面臨的學(xué)習(xí)問題,他認(rèn)為這是智能的核心問題。其他研究興趣有:動(dòng)物學(xué)習(xí)心理學(xué)、聯(lián)結(jié)主義網(wǎng)絡(luò),以及能夠不斷學(xué)習(xí)和改進(jìn)環(huán)境表征和環(huán)境模型的系統(tǒng)。

他的科學(xué)出版物被引用超過7萬次。

他也是一名自由主義者,國(guó)際象棋選手和癌癥幸存者。


Andrew Barto (安德魯·巴圖)

馬薩諸塞大學(xué)阿默斯特分校信息與計(jì)算機(jī)科學(xué)學(xué)院名譽(yù)教授。1970年獲得密歇根大學(xué)數(shù)學(xué)專業(yè)的杰出學(xué)士學(xué)位,并于1975年獲該校計(jì)算機(jī)科學(xué)專業(yè)的博士學(xué)位。1977年他加入馬薩諸塞州阿默斯特大學(xué)計(jì)算機(jī)科學(xué)系。在2012年退休之前,他帶領(lǐng)了馬薩諸塞大學(xué)的自主學(xué)習(xí)實(shí)驗(yàn)室,該實(shí)驗(yàn)室培養(yǎng)了許多著名的機(jī)器學(xué)習(xí)研究者。

目前擔(dān)任Neural Computation (《神經(jīng)計(jì)算》)期刊的副主編,Journal of Machine Learning Research (《機(jī)器學(xué)習(xí)研究》)期刊的顧問委員會(huì)成員,以及Adaptive Behavior (《自適應(yīng)行為》)期刊的編委員會(huì)成員。

他是美國(guó)科學(xué)促進(jìn)會(huì)的會(huì)員,IEEE(國(guó)際電子電氣工程師協(xié)會(huì))的終身會(huì)士(Life Fellow),也是神經(jīng)科學(xué)學(xué)會(huì)的成員。

2004年,因強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)榮獲IEEE神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)先鋒獎(jiǎng),并因在強(qiáng)化學(xué)習(xí)理論和應(yīng)用方面的開創(chuàng)、富有影響力的研究獲得 IJCAI-17卓越研究獎(jiǎng);2019年獲得馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎(jiǎng)。

他在各類期刊、會(huì)議和研討會(huì)上發(fā)表了100多篇論文,參與撰寫多部圖書的相關(guān)章節(jié)。


譯者簡(jiǎn)介

俞凱

上海交通大學(xué)計(jì)算科學(xué)與工程系教授,思必馳公司創(chuàng)始人、首席科學(xué)家。清華大學(xué)自動(dòng)化系本科、碩士,劍橋大學(xué)工程系博士。青年千人,國(guó)家自然科學(xué)基金委優(yōu)青,上海市“東方學(xué)者”特聘教授。IEEE 高級(jí)會(huì)員,現(xiàn)任 IEEE Speech and Language Processing Technical Committee 委員,中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識(shí)產(chǎn)權(quán)組組長(zhǎng),中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話及聽覺專業(yè)組副主任。

長(zhǎng)期從事交互式人工智能,尤其是智能語(yǔ)音及自然語(yǔ)言處理的研究和產(chǎn)業(yè)化工作。發(fā)表國(guó)際期刊和會(huì)議論文 150 余篇,獲得Computer Speech and Language, Speech Communication 等多個(gè)國(guó)際期刊及InterSpeech等國(guó)際會(huì)議的優(yōu)論文獎(jiǎng),所搭建的工程系統(tǒng)曾獲美國(guó)國(guó)家標(biāo)準(zhǔn)局語(yǔ)音識(shí)別評(píng)測(cè)冠軍,對(duì)話系統(tǒng)國(guó)際研究挑戰(zhàn)賽冠軍等。

獲評(píng)2014“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”進(jìn)步獎(jiǎng),“2016科學(xué)中國(guó)人年度人物”,2018中國(guó)計(jì)算機(jī)學(xué)會(huì)“青竹獎(jiǎng)”。

精彩書評(píng)

  We are most pleased that Professor Kai Yu has produced this Chinese translation of our textbook, which we hope will enable more Chinese students to self-study reinforcement learning and lead to the development of new ideas within China that contribute to the diversity and vigour of worldwide reinforcement learning research.
  ——Richard Sutton and Andrew Barto
  
  
  我們非常高興俞凱教授將我們的教材翻譯成中文,希望這本教材能夠幫助更多的中國(guó)學(xué)生自學(xué)強(qiáng)化學(xué)習(xí),并且促進(jìn)更多的新思想在中國(guó)產(chǎn)生,為世界范圍的強(qiáng)化學(xué)習(xí)研究的多樣性和生機(jī)活力做出貢獻(xiàn)。
  ——理查德薩頓 安德魯巴圖
  
  
  一代又一代的強(qiáng)化學(xué)習(xí)研究人員都是在薩頓和巴圖的第1版書的啟發(fā)下成長(zhǎng)起來的。新老讀者都將從第2版中受益:這一新版本大大擴(kuò)展了覆蓋的主題范圍(新主題包括人工神經(jīng)網(wǎng)絡(luò)、蒙特卡洛樹搜索、平均收益大化以及關(guān)于強(qiáng)化學(xué)習(xí)的經(jīng)典應(yīng)用和新應(yīng)用的章節(jié)),不僅增加了內(nèi)容的廣度,同時(shí)作者也在嘗試用更加簡(jiǎn)潔的符號(hào)理清這些繁雜主題的各個(gè)方面,從而增加講解的深度。此外,新版本保留了解釋的簡(jiǎn)潔性和直觀性,使各種背景的讀者都能使用本書??傊?,這是一本很棒的書,我衷心推薦給那些對(duì)使用、開發(fā)或理解強(qiáng)化學(xué)習(xí)感興趣的人。
  ——喬鮑塞派什瓦里(Csaba Szepesvari)
   DeepMind研究科學(xué)家,阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授
  
  
  本書仍然是關(guān)于強(qiáng)化學(xué)習(xí)的開創(chuàng)性教材——強(qiáng)化學(xué)習(xí)作為日益重要的技術(shù),是當(dāng)今許多先進(jìn)的人工智能系統(tǒng)背后的技術(shù)基礎(chǔ)。本書是任何對(duì)人工智能科學(xué)抱有真正興趣的人的必讀書。
  ——杰米斯哈薩比斯(Demis Hassabis)
  DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官
  
  
  強(qiáng)化學(xué)習(xí)是極具發(fā)展前景的重要機(jī)器學(xué)習(xí)范式。近年來通過與深度學(xué)習(xí)的結(jié)合,強(qiáng)化學(xué)習(xí)在棋類游戲、機(jī)器人控制和人機(jī)對(duì)話等領(lǐng)域的重大進(jìn)展使得人們對(duì)它在人工智能未來發(fā)展中的作用極為關(guān)注和期待。本書是深入理解強(qiáng)化學(xué)習(xí)基本概念和算法的經(jīng)典之作,也是迄今為止系統(tǒng)完整地描述強(qiáng)化學(xué)習(xí)領(lǐng)域的教材。俞凱教授是將深度強(qiáng)化學(xué)習(xí)成功用于人機(jī)對(duì)話系統(tǒng)的優(yōu)秀研究者,具有豐富的強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的實(shí)踐經(jīng)驗(yàn)?,F(xiàn)在他將《強(qiáng)化學(xué)習(xí)》(第 2 版) 的這本英文原著的思想和內(nèi)容以符合中國(guó)人理解習(xí)慣的方式進(jìn)行了翻譯,忠于原著而又行文流暢,對(duì)促進(jìn)強(qiáng)化學(xué)習(xí)在中國(guó)的研究和應(yīng)用具有很大的價(jià)值。
  ——鄧力
  美國(guó)城堡基金首席人工智能官 (Chief AI Offiffifficer)
  美國(guó)微軟公司原首席人工智能科學(xué)家
  
  
  強(qiáng)化學(xué)習(xí)是 AlphaGo 采用的主要技術(shù),也是人工智能的主流領(lǐng)域之一。本書是所有想要深入了解強(qiáng)化學(xué)習(xí)的有志之士必讀的經(jīng)典。作者用嚴(yán)謹(jǐn)又深入淺出的方式建構(gòu)起強(qiáng)化學(xué)習(xí)的核心理論,并附以大量的實(shí)例幫助讀者理解。我衷心推薦這本好書給大家。
  ——黃士傑(Aja Huang)
  AlphaGo首席工程師(Lead Programmer of AlphaGo)
  
  
  這本書是強(qiáng)化學(xué)習(xí)的圣經(jīng)。該領(lǐng)域正蓬勃發(fā)展,新版的出版正當(dāng)其時(shí)。任何對(duì)學(xué)習(xí)決策問題感興趣的人——學(xué)生、研究者、實(shí)踐者或者其他感興趣的非專業(yè)人士都應(yīng)該擁有它。
  ——佩德羅多明戈斯(Pedro Domingos)
  華盛頓大學(xué)計(jì)算機(jī)科學(xué)教授,《終ji算法》作者
  
  
  強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域的一顆明珠。本書是強(qiáng)化學(xué)習(xí)領(lǐng)軍人物 Richad Sutton 所寫的經(jīng)典教材,不僅系統(tǒng)介紹了強(qiáng)化學(xué)習(xí)算法,討論了強(qiáng)化學(xué)習(xí)和心理學(xué)及神經(jīng)科學(xué)的關(guān)系,而且包括了強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)結(jié)合的新進(jìn)展與應(yīng)用。感謝俞凱等人的翻譯,感謝電子工業(yè)出版社的工作,把這本好書介紹給國(guó)內(nèi)的讀者們。強(qiáng)烈推薦!
  —— 漆遠(yuǎn)
  螞蟻金服副總裁,首席 AI 科學(xué)家
  
  
  我向所有想了解這個(gè)日益重要的機(jī)器學(xué)習(xí)分支的人推薦薩頓和巴圖的新版《強(qiáng)化學(xué)習(xí)》這一經(jīng)典著作。該第2版擴(kuò)展了廣為流行的第一版的內(nèi)容,涵蓋了當(dāng)今的關(guān)鍵算法和理論,并以真實(shí)世界的應(yīng)用為例講解了這些概念——從學(xué)習(xí)如何控制機(jī)器人,到如何編寫一個(gè)擊敗人類圍棋世界冠軍的程序。此外,第2版還討論了這些計(jì)算機(jī)算法與心理學(xué)和神經(jīng)科學(xué)中關(guān)于人類學(xué)習(xí)規(guī)律的研究成果之間的本質(zhì)性聯(lián)系。
  ——湯姆米切爾(Tom Mitchell)
  卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)教授
  
  
  記得在2018年的IJCAI大會(huì)上, 我作為國(guó)際人工智能聯(lián)合會(huì)的理事會(huì)主席給 Andrew Barto 教授頒發(fā)2018年杰出研究貢獻(xiàn)獎(jiǎng)(Research Excellence Award)。這個(gè)獎(jiǎng)每年頒發(fā)給一位長(zhǎng)期在人工智能界探索并做出杰出貢獻(xiàn)的科學(xué)家。我當(dāng)時(shí)問Barto教授,看到現(xiàn)在AlphaGo和AlphaZero憑強(qiáng)化學(xué)習(xí)橫掃圍棋界,有什么感受? 他說,一直到現(xiàn)在退休,強(qiáng)化學(xué)習(xí)都是小眾研究領(lǐng)域?,F(xiàn)在雖然已退休,但趕上AlphaGo/AlphaZero的成功,還是很感慨的!
  在人工智能界,Richard Sutton(Barto的學(xué)生)和 Andrew Barto 是公認(rèn)的強(qiáng)化學(xué)習(xí)的鼻祖,是他們師徒把強(qiáng)化學(xué)習(xí)作為一個(gè)機(jī)器學(xué)習(xí)的重要分支,搬上大雅之堂。這部《強(qiáng)化學(xué)習(xí)》(第2版)也凝聚了他們的心血。如文中所述,強(qiáng)化學(xué)習(xí)模擬人類學(xué)習(xí)的策略,利用積累的經(jīng)驗(yàn)來改進(jìn)決策系統(tǒng)的性能,就像國(guó)際象棋大師的走子一樣,其是通過反復(fù)考慮對(duì)手可能的反應(yīng)而進(jìn)行多步的判斷來給出的。這些觀察通過用數(shù)學(xué),特別是概率論對(duì)智能體、對(duì)手和環(huán)境進(jìn)行簡(jiǎn)練的表達(dá),可以解釋如何通過不斷的訓(xùn)練,逐步提高智能體的能力。
  全書對(duì)讀者的機(jī)器學(xué)習(xí)背景沒有做太多的假設(shè),從頭娓娓道來,不僅把強(qiáng)化學(xué)習(xí)重要的理念講得極為清晰,而且細(xì)致回顧了一些強(qiáng)化學(xué)習(xí)背后的科學(xué)家的小故事,生動(dòng)活潑。同時(shí),書中也不時(shí)地指出腦科學(xué)的新發(fā)現(xiàn)對(duì)強(qiáng)化學(xué)習(xí)研究的啟迪,讓讀者從多學(xué)科的角度得到全面的知識(shí)。書中還有無數(shù)的小例子,用以幫助讀者理解復(fù)雜的概念,比如井字棋游戲。此外,書中引用新的人工智能進(jìn)展,對(duì)強(qiáng)化學(xué)習(xí)的經(jīng)典算法(如蒙特卡洛搜索樹算法)加以系統(tǒng)的解釋,讓讀者理解這些算法如何應(yīng)用在著名的IBM的WATSON系統(tǒng)和AlphaGo/AlphaZero系統(tǒng)中。
  中文版特別值得一提的是上海交通大學(xué)俞凱教授及其團(tuán)隊(duì)所做的高質(zhì)量的中文翻譯。本書的翻譯涉及眾多強(qiáng)化學(xué)習(xí)概念的首次中文翻譯,這需要譯者同時(shí)具有深厚的機(jī)器學(xué)習(xí)和翻譯功底。毫不夸張地說,中文版的面世為機(jī)器學(xué)習(xí)領(lǐng)域的中國(guó)學(xué)者和學(xué)生架起了一座通往強(qiáng)化學(xué)習(xí)經(jīng)典知識(shí)寶庫(kù)的橋梁。
  ——楊強(qiáng)
  前海微眾銀行首席人工智能官,香港科技大學(xué)講座教授
  國(guó)際人工智能聯(lián)合會(huì)理事會(huì)主席(2017―2019)
  
  
  薩頓和巴圖合著的第2版《強(qiáng)化學(xué)習(xí)》的出版正當(dāng)其時(shí)。這個(gè)領(lǐng)域在過去20年里發(fā)生了巨大的變化,機(jī)器學(xué)習(xí)研究人員對(duì)強(qiáng)化學(xué)習(xí)的興趣從來沒有像現(xiàn)在這樣強(qiáng)烈。如果你想完整理解智能體學(xué)習(xí)的基本原理,你可以從這本教科書開始。第2版包括了許多深度強(qiáng)化學(xué)習(xí)的新進(jìn)展,同時(shí)也將該領(lǐng)域的學(xué)術(shù)歷史延伸到了當(dāng)前。我肯定會(huì)把它推薦給我所有的學(xué)生,以及其他想了解當(dāng)前強(qiáng)化學(xué)習(xí)熱潮的來龍去脈的研究生和科研人員。
  ——約舒亞本吉奧(Yoshua Bengio)
  蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)與運(yùn)籌學(xué)教授
  
  
  《強(qiáng)化學(xué)習(xí)》(第 2 版)旨在描述強(qiáng)化學(xué)習(xí)的核心概念與算法,以供所有相關(guān)學(xué)科的讀者學(xué)習(xí)。本書不僅包含機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等人工智能諸多方面的內(nèi)容,還涉及心理學(xué)與神經(jīng)科學(xué)等內(nèi)容,新概念、新詞匯很多,給翻譯帶來一定的困難。嚴(yán)復(fù)提出翻譯要做到“信、達(dá)、雅”,這部譯著達(dá)到了這些要求,即準(zhǔn)確、通順與自然,感謝譯者的努力與付出。我愿推薦此譯著給廣大對(duì)人工智能感興趣的中國(guó)讀者。
  ——張鈸
  中國(guó)科學(xué)院院士,清華大學(xué)人工智能研究院院長(zhǎng)
  
  
  第1版出版20年后,Sutton和Barto的這本經(jīng)典教科書終于出了第2版,篇幅約為第1版的兩倍,增加了AlphaGo圍棋等許多新內(nèi)容,值得所有關(guān)心強(qiáng)化學(xué)習(xí)的讀者閱讀收藏。
  ——周志華
  南京大學(xué)計(jì)算機(jī)系主任/人工智能學(xué)院院長(zhǎng),歐洲科學(xué)院外籍院士

目錄

第1章 導(dǎo)論 1

1.1 強(qiáng)化學(xué)習(xí) 1

1.2 示例 4

1.3 強(qiáng)化學(xué)習(xí)要素 5

1.4 局限性與適用范圍 7

1.5 擴(kuò)展實(shí)例:井字棋 8

1.6 本章小結(jié) 12

1.7 強(qiáng)化學(xué)習(xí)的早期歷史 13


第I部分 表格型求解方法 23


第2章 多臂賭博機(jī) 25

2.1 一個(gè) k 臂賭博機(jī)問題 25

2.2 動(dòng)作-價(jià)值方法 27

2.3 10 臂測(cè)試平臺(tái) 28

2.4 增量式實(shí)現(xiàn) 30

2.5 跟蹤一個(gè)非平穩(wěn)問題 32

2.6 樂觀初始值 34

2.7 基于置信度上界的動(dòng)作選擇 35

2.8 梯度賭博機(jī)算法 37

2.9 關(guān)聯(lián)搜索 (上下文相關(guān)的賭博機(jī)) 40

2.10 本章小結(jié) 41


第3章 有限馬爾可夫決策過程 45

3.1 “智能體-環(huán)境”交互接口 45

3.2 目標(biāo)和收益 51

3.3 回報(bào)和分幕 52

3.4 分幕式和持續(xù)性任務(wù)的統(tǒng)一表示法 54

3.5 策略和價(jià)值函數(shù) 55

3.6 最優(yōu)策略和最優(yōu)價(jià)值函數(shù) 60

3.7 最優(yōu)性和近似算法 65

3.8 本章小結(jié) 66


第4章 動(dòng)態(tài)規(guī)劃 71

4.1 策略評(píng)估 (預(yù)測(cè)) 72

4.2 策略改進(jìn) 75

4.3 策略迭代 78

4.4 價(jià)值迭代 80

4.5 異步動(dòng)態(tài)規(guī)劃 83

4.6 廣義策略迭代 84

4.7 動(dòng)態(tài)規(guī)劃的效率 85

4.8 本章小結(jié) 86


第5章 蒙特卡洛方法 89

5.1 蒙特卡洛預(yù)測(cè) 90

5.2 動(dòng)作價(jià)值的蒙特卡洛估計(jì) 94

5.3 蒙特卡洛控制 95

5.4 沒有試探性出發(fā)假設(shè)的蒙特卡洛控制 98

5.5 基于重要度采樣的離軌策略 101

5.6 增量式實(shí)現(xiàn) 107

5.7 離軌策略蒙特卡洛控制 108

5.8 ? 折扣敏感的重要度采樣 110

5.9 ? 每次決策型重要度采樣 112

5.10 本章小結(jié) 113


第 6 章 時(shí)序差分學(xué)習(xí) 117

6.1 時(shí)序差分預(yù)測(cè) 117

6.2 時(shí)序差分預(yù)測(cè)方法的優(yōu)勢(shì) 122

6.3 TD(0) 的最優(yōu)性 124

6.4 Sarsa:同軌策略下的時(shí)序差分控制 127

6.5 Q 學(xué)習(xí):離軌策略下的時(shí)序差分控制 129

6.6 期望 Sarsa 131

6.7 最大化偏差與雙學(xué)習(xí) 133

6.8 游戲、后位狀態(tài)和其他特殊例子 135

6.9 本章小結(jié) 136


第7章 n 步自舉法 139

7.1 n 步時(shí)序差分預(yù)測(cè) 140

7.2 n 步 Sarsa 144

7.3 n 步離軌策略學(xué)習(xí) 146

7.4 ? 帶控制變量的每次決策型方法 148

7.5 不需要使用重要度采樣的離軌策略學(xué)習(xí)方法:n 步樹回溯算法 150

7.6 ? 一個(gè)統(tǒng)一的算法:n 步 Q(σ) 153

7.7 本章小結(jié) 155


第8章 基于表格型方法的規(guī)劃和學(xué)習(xí) 157

8.1 模型和規(guī)劃 157

8.2 Dyna:集成在一起的規(guī)劃、動(dòng)作和學(xué)習(xí) 159

8.3 當(dāng)模型錯(cuò)誤的時(shí)候 164

8.4 優(yōu)先遍歷 166

8.5 期望更新與采樣更新的對(duì)比 170

8.6 軌跡采樣 173

8.7 實(shí)時(shí)動(dòng)態(tài)規(guī)劃 176

8.8 決策時(shí)規(guī)劃 179

8.9 啟發(fā)式搜索 180

8.10 預(yù)演算法 182

8.11 蒙特卡洛樹搜索 184

8.12 本章小結(jié) 187

8.13 第I部分總結(jié) 188


第II部分 表格型近似求解方法 193


第9章 基于函數(shù)逼近的同軌策略預(yù)測(cè) 195

9.1 價(jià)值函數(shù)逼近 195

9.2 預(yù)測(cè)目標(biāo) (VE ) 196

9.3 隨機(jī)梯度和半梯度方法 198

9.4 線性方法 202

9.5 線性方法的特征構(gòu)造 207

9.5.1 多項(xiàng)式基 208

9.5.2 傅立葉基 209

9.5.3 粗編碼 212

9.5.4 瓦片編碼 214

9.5.5 徑向基函數(shù) 218

9.6 手動(dòng)選擇步長(zhǎng)參數(shù) 219

9.7 非線性函數(shù)逼近:人工神經(jīng)網(wǎng)絡(luò) 220

9.8 最小二乘時(shí)序差分 225

9.9 基于記憶的函數(shù)逼近 227

9.10 基于核函數(shù)的函數(shù)逼近 229

9.11 深入了解同軌策略學(xué)習(xí):“興趣”與“強(qiáng)調(diào)” 230

9.12 本章小結(jié) 232


第10章 基于函數(shù)逼近的同軌策略控制 239

10.1 分幕式半梯度控制 239

10.2 半梯度 n 步 Sarsa 242

10.3 平均收益:持續(xù)性任務(wù)中的新的問題設(shè)定 245

10.4 棄用折扣 249

10.5 差分半梯度 n 步 Sarsa 251

10.6 本章小結(jié) 252


第11 章 ? 基于函數(shù)逼近的離軌策略方法 253

11.1 半梯度方法 254

11.2 離軌策略發(fā)散的例子 256

11.3 致命三要素 260

11.4 線性價(jià)值函數(shù)的幾何性質(zhì) 262

11.5 對(duì)貝爾曼誤差做梯度下降 266

11.6 貝爾曼誤差是不可學(xué)習(xí)的 270

11.7 梯度 TD 方法 274

11.8 強(qiáng)調(diào) TD 方法 278

11.9 減小方差 279

11.10 本章小結(jié) 280


第12章 資格跡 283

12.1 λ-回報(bào) 284

12.2 TD(λ) 287

12.3 n-步截?cái)?λ- 回報(bào)方法 291

12.4 重做更新:在線 λ-回報(bào)算法 292

12.5 真實(shí)的在線 TD(λ) 294

12.6 ? 蒙特卡洛學(xué)習(xí)中的荷蘭跡 296

12.7 Sarsa(λ) 298

12.8 變量 λ 和 γ 303

12.9 帶有控制變量的離軌策略資格跡 304

12.10 從 Watkins 的 Q(λ) 到樹回溯 TB(λ) 308

12.11 采用資格跡保障離軌策略方法的穩(wěn)定性 310

12.12 實(shí)現(xiàn)中的問題 312

12.13 本章小結(jié) 312


第13章 策略梯度方法 317

13.1 策略近似及其優(yōu)勢(shì) 318

13.2 策略梯度定理 320

13.3 REINFORCE:蒙特卡洛策略梯度 322

13.4 帶有基線的 REINFORCE 325

13.5 “行動(dòng)器-評(píng)判器”方法 327

13.6 持續(xù)性問題的策略梯度 329

13.7 針對(duì)連續(xù)動(dòng)作的策略參數(shù)化方法 332

13.8 本章小結(jié) 333


第III部分 表格型深入研究 337


第14章 心理學(xué) 339

14.1 預(yù)測(cè)與控制 340

14.2 經(jīng)典條件反射 341

14.2.1 阻塞與高級(jí)條件反射 342

14.2.2 Rescorla-Wagner 模型 344

14.2.3 TD 模型 347

14.2.4 TD 模型模擬 348

14.3 工具性條件反射 355

14.4 延遲強(qiáng)化 359

14.5 認(rèn)知圖 361

14.6 習(xí)慣行為與目標(biāo)導(dǎo)向行為 362

14.7 本章小結(jié) 366


第15章 神經(jīng)科學(xué) 373

15.1 神經(jīng)科學(xué)基礎(chǔ) 374

15.2 收益信號(hào)、強(qiáng)化信號(hào)、價(jià)值和預(yù)測(cè)誤差 375

15.3 收益預(yù)測(cè)誤差假說 377

15.4 多巴胺 379

15.5 收益預(yù)測(cè)誤差假說的實(shí)驗(yàn)支持 382

15.6 TD 誤差/多巴胺對(duì)應(yīng) 385

15.7 神經(jīng)“行動(dòng)器-評(píng)判器” 390

15.8 行動(dòng)器與評(píng)判器學(xué)習(xí)規(guī)則 393

15.9 享樂主義神經(jīng)元 397

15.10 集體強(qiáng)化學(xué)習(xí) 399

15.11 大腦中的基于模型的算法 402

15.12 成癮 403

15.13 本章小結(jié) 404


第 16 章 應(yīng)用及案例分析 413

16.1 TD-Gammon 413

16.2 Samuel 的跳棋程序 418

16.3 Watson 的每日雙倍投注 421

16.4 優(yōu)化內(nèi)存控制 424

16.5 人類級(jí)別的視頻游戲 428

16.6 主宰圍棋游戲 433

16.6.1 AlphaGo 436

16.6.2 AlphaGo Zero 439

16.7 個(gè)性化網(wǎng)絡(luò)服務(wù) 442

16.8 熱氣流滑翔 446


第17章 前沿技術(shù) 451

17.1 廣義價(jià)值函數(shù)和輔助任務(wù) 451

17.2 基于選項(xiàng)理論的時(shí)序摘要 453

17.3 觀測(cè)量和狀態(tài) 456

17.4 設(shè)計(jì)收益信號(hào) 460

17.5 遺留問題 464

17.6 人工智能的未來 467


參考文獻(xiàn) 473

查看全部↓

前言/序言

  本書第1版出版的20年以來,在機(jī)器學(xué)習(xí)(包括強(qiáng)化學(xué)習(xí)) 前沿技術(shù)發(fā)展的推動(dòng)下,人工智能取得了重大進(jìn)展。這些進(jìn)展不僅歸功于這些年迅猛發(fā)展起來的計(jì)算機(jī)強(qiáng)大的計(jì)算能力,也受益于許多理論和算法上的創(chuàng)新。面對(duì)這些進(jìn)展,我們?cè)缬袑?duì)1998年第1版書進(jìn)行更新再版的打算,但直到2012年才開始真正著手編纂。第2版的目標(biāo)與第1版一致:為強(qiáng)化學(xué)習(xí)的核心概念與算法提供清晰簡(jiǎn)明的解釋,以供所有相關(guān)學(xué)科的讀者學(xué)習(xí)。這一版仍然是一本概要介紹性的讀物,仍然關(guān)注最核心的在線學(xué)習(xí)算法,同時(shí)增加了一些近年來日趨重要的話題,并拓展了部分內(nèi)容,給出了更新的理解。強(qiáng)化學(xué)習(xí)領(lǐng)域可以延伸出很多不同的方向,但我們并不想包羅萬象,在此為可能出現(xiàn)的些許遺漏表示歉意。




  第2版記號(hào)變化

  和第1版一樣,我們沒有以最嚴(yán)謹(jǐn)?shù)男问交姆绞絹矶x強(qiáng)化學(xué)習(xí),也沒有采用特別抽象的術(shù)語(yǔ)表達(dá),但是為了大家能更


強(qiáng)化學(xué)習(xí)(第2版)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
长宁区| 乡宁县| 太谷县| 长宁县| 普安县| 临城县| 克拉玛依市| 泾源县| 隆德县| 江山市| 漠河县| 包头市| 基隆市| 白银市| 葵青区| 石首市| 丹东市| 延吉市| 酉阳| 历史| 株洲县| 虹口区| 凭祥市| 北宁市| 庄河市| 巴林右旗| 高尔夫| 赣榆县| 合川市| 绍兴县| 曲松县| 托克逊县| 如皋市| 含山县| 益阳市| 灌云县| 西吉县| 微山县| 磐安县| 祁阳县| 大宁县|