動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)
鏈接:https://pan.baidu.com/s/1FiZKGot7Znaq7-eTvdRuNA?pwd=egr1?
提取碼:egr1

編輯推薦
.名家作品:上海交通大學(xué)ACM班創(chuàng)始人俞勇教授、博士生導(dǎo)師張偉楠副教授、APEX實(shí)驗(yàn)室博士生沈鍵編寫;
.理論扎實(shí):基于上交大ACM班的人工智能專業(yè)課程構(gòu)建強(qiáng)化學(xué)習(xí)的學(xué)習(xí)體系;
.配套資源豐富:在線代碼運(yùn)行環(huán)境+在線視頻課程+在線討論區(qū)+在線習(xí)題+配套課件;
.多位業(yè)內(nèi)大咖力薦:字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室總監(jiān)李航、1986年圖靈獎(jiǎng)得主John Hopcroft、北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院統(tǒng)計(jì)學(xué)教授張志華、倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)系講席教授汪軍、亞馬遜資深科學(xué)家、《動(dòng)手學(xué)深度學(xué)習(xí)》作者李沐
內(nèi)容簡(jiǎn)介
本書系統(tǒng)地介紹了強(qiáng)化學(xué)習(xí)的原理和實(shí)現(xiàn),是一本理論扎實(shí)、落地性強(qiáng)的圖書。
本書包含3個(gè)部分:第一部分為強(qiáng)化學(xué)習(xí)基礎(chǔ),講解強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念和表格型強(qiáng)化學(xué)習(xí)方法;第二部分為強(qiáng)化學(xué)習(xí)進(jìn)階,討論深度強(qiáng)化學(xué)習(xí)的思維方式、深度價(jià)值函數(shù)和深度策略學(xué)習(xí)方法;第三部分為強(qiáng)化學(xué)習(xí)前沿,介紹學(xué)術(shù)界在深度強(qiáng)化學(xué)習(xí)領(lǐng)域的主要關(guān)注方向和前沿算法。同時(shí),本書提供配套的線上代碼實(shí)踐平臺(tái),展示源碼的編寫和運(yùn)行過程,讓讀者進(jìn)一步掌握強(qiáng)化學(xué)習(xí)算法的運(yùn)行機(jī)制。
本書理論與實(shí)踐并重,在介紹強(qiáng)化學(xué)習(xí)理論的同時(shí),輔之以線上代碼實(shí)踐平臺(tái),幫助讀者通過實(shí)踐加深對(duì)理論的理解。本書適合對(duì)強(qiáng)化學(xué)習(xí)感興趣的高校學(xué)生、教師,以及相關(guān)行業(yè)的開發(fā)和研究人員閱讀、實(shí)踐。
作者簡(jiǎn)介
張偉楠,上海交通大學(xué)副教授,博士生導(dǎo)師,ACM班機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)課程授課老師,吳文俊人工智能優(yōu)秀青年獎(jiǎng)、達(dá)摩院青橙獎(jiǎng)得主,獲得中國(guó)科協(xié)“青年人才托舉工程”支持。他的科研領(lǐng)域包括強(qiáng)化學(xué)習(xí)、數(shù)據(jù)挖掘、知識(shí)圖譜、深度學(xué)習(xí)以及這些技術(shù)在推薦系統(tǒng)、搜索引擎、文本分析等場(chǎng)景中的應(yīng)用。他在國(guó)際會(huì)議和期刊上發(fā)表了100余篇相關(guān)領(lǐng)域的學(xué)術(shù)論文,于2016年在英國(guó)倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)系獲得博士學(xué)位。
沈鍵,上海交通大學(xué)APEX實(shí)驗(yàn)室博士生,師從俞勇教授,研究方向?yàn)樯疃葘W(xué)習(xí)、強(qiáng)化學(xué)習(xí)和教育數(shù)據(jù)挖掘。在攻讀博士期間,他以第一作者身份發(fā)表機(jī)器學(xué)習(xí)國(guó)際會(huì)議NeurIPS、AAAI論文,參與發(fā)表多篇機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘國(guó)際會(huì)議(包括ICML、IJCAI、SIGIR、KDD、AISTATS等)論文,并擔(dān)任多個(gè)國(guó)際會(huì)議和SCI學(xué)術(shù)期刊的審稿人。
俞勇,享受國(guó)務(wù)院特殊津貼專家,教學(xué)名師,上海交通大學(xué)特聘教授,APEX實(shí)驗(yàn)室主任,上海交通大學(xué)ACM班創(chuàng)始人。俞勇教授曾獲得“國(guó)家高層次人才特殊支持計(jì)劃”教學(xué)名師、“上海市教學(xué)名師獎(jiǎng)”“全國(guó)師德標(biāo)兵”“上海交通大學(xué)校長(zhǎng)獎(jiǎng)”和“最受學(xué)生歡迎教師”等榮譽(yù)。他于2018年創(chuàng)辦了伯禹人工智能學(xué)院,在上海交通大學(xué)ACM班人工智能專業(yè)課程體系的基礎(chǔ)上,對(duì)AI課程體系進(jìn)行創(chuàng)新,致力于培養(yǎng)卓越的AI算法工程師和研究員。
精彩書評(píng)
本書系統(tǒng)地介紹了強(qiáng)化學(xué)習(xí)的基本技術(shù),能夠幫助讀者學(xué)習(xí)強(qiáng)化學(xué)習(xí)的基本概念及其代表性方法,并涉及模仿學(xué)習(xí)、多智能體強(qiáng)化學(xué)習(xí)等前沿技術(shù)。作者搭建了與本書內(nèi)容配套的在線實(shí)踐學(xué)習(xí)平臺(tái),讀者能夠在線運(yùn)行代碼并與同行交流、討論,加強(qiáng)對(duì)強(qiáng)化學(xué)習(xí)技術(shù)的理解和掌握。本書凝結(jié)了強(qiáng)化學(xué)習(xí)領(lǐng)域的知識(shí)精華,是人工智能算法工程師推薦的好書。
——李航 字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室總監(jiān)
本書的一個(gè)重要特點(diǎn)是實(shí)現(xiàn)了理論與代碼的有機(jī)結(jié)合,學(xué)生在學(xué)習(xí)強(qiáng)化學(xué)習(xí)的主要概念時(shí),可以方便地使用這些代碼。本書得到了上海交通大學(xué)學(xué)生的廣泛好評(píng)。
——John Hopcroft 1986年ACM圖靈獎(jiǎng)得主、上海交通大學(xué)校長(zhǎng)特別顧問
強(qiáng)化學(xué)習(xí)對(duì)初學(xué)者來說有較高的學(xué)習(xí)門檻,容易讓人卻步。本書給出了各個(gè)算法的可執(zhí)行代碼,幫助讀者快速上手嘗試,拉近了講授內(nèi)容與讀者的距離,是入門強(qiáng)化學(xué)習(xí)的參考教材。
——俞揚(yáng) 南京大學(xué)人工智能學(xué)院教授
本書源自上海交通大學(xué)ACM班的人工智能專業(yè)課程。上海交通大學(xué)ACM班創(chuàng)始人俞勇教授及其團(tuán)隊(duì)將其在人工智能領(lǐng)域多年深耕的成果匯集成書,并精心開發(fā)了滿足年輕人才學(xué)習(xí)需求的多種學(xué)習(xí)資源,將理論知識(shí)、在線代碼、項(xiàng)目實(shí)訓(xùn)有機(jī)融合,能夠幫助讀者從零搭建起強(qiáng)化學(xué)習(xí)的理論與工程體系。本書真正從社會(huì)需求出發(fā),為人工智能領(lǐng)域相關(guān)專業(yè)的人才培養(yǎng)提供了非常有價(jià)值的參考,也為高校學(xué)生和行業(yè)從業(yè)人員深入研究、創(chuàng)新強(qiáng)化學(xué)習(xí)技術(shù)指明了路徑。
——張志華 北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院統(tǒng)計(jì)學(xué)教授
在幾次舉辦RLChina強(qiáng)化學(xué)習(xí)暑期夏令營(yíng)的過程中,我感受到中國(guó)學(xué)生對(duì)強(qiáng)化學(xué)習(xí)這一學(xué)科的學(xué)習(xí)熱情十分高漲,每次活動(dòng)的參與人數(shù)都過萬。但是,目前中國(guó)在強(qiáng)化學(xué)習(xí)領(lǐng)域的專業(yè)教師資源緊缺,導(dǎo)致學(xué)生對(duì)強(qiáng)化學(xué)習(xí)理論知識(shí)的掌握不夠到位;強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室資源不足,學(xué)生在實(shí)驗(yàn)過程中容易遇到各種難以解決的問題,但缺少有效提升實(shí)驗(yàn)效率的標(biāo)程或溝通渠道。本書可以讓學(xué)生在理論學(xué)習(xí)與代碼實(shí)踐之間無縫銜接,這很好地解決了學(xué)習(xí)和研究強(qiáng)化學(xué)習(xí)的痛點(diǎn)。在此將本書推薦給每一位學(xué)習(xí)和研究強(qiáng)化學(xué)習(xí)的學(xué)生和教師。
——汪軍 倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)系講席教授
強(qiáng)化學(xué)習(xí)是近年來的熱門方向,突破性方法和亮眼應(yīng)用頻出。本書將理論與實(shí)踐相結(jié)合,既講解了算法,又展示了代碼實(shí)現(xiàn),是一本不可多得的強(qiáng)化學(xué)習(xí)教科書,強(qiáng)烈推薦!
——李沐 亞馬遜資深科學(xué)家
目錄
第 一部分 強(qiáng)化學(xué)習(xí)基礎(chǔ)
第 1 章 初探強(qiáng)化學(xué)習(xí) 2
1.1 簡(jiǎn)介 2
1.2 什么是強(qiáng)化學(xué)習(xí) 2
1.3 強(qiáng)化學(xué)習(xí)的環(huán)境 4
1.4 強(qiáng)化學(xué)習(xí)的目標(biāo) 4
1.5 強(qiáng)化學(xué)習(xí)中的數(shù)據(jù) 5
1.6 強(qiáng)化學(xué)習(xí)的獨(dú)特性 6
1.7 小結(jié) 6
第 2 章 多臂老虎機(jī)問題 7
2.1 簡(jiǎn)介 7
2.2 問題介紹 7
2.2.1 問題定義 7