強(qiáng)化學(xué)習(xí)(第2版)
鏈接:pan.baidu.com/s/1RX52pUPQGBKsbTCfe6TVaA?pwd=l27x?
提取碼:l27x

《強(qiáng)化學(xué)習(xí)(第2版)》被業(yè)界公認(rèn)為任何對人工智能領(lǐng)域感興趣的人員的必讀書。
《強(qiáng)化學(xué)習(xí)(第2版)》是被稱為“強(qiáng)化學(xué)習(xí)教父”的Richard Sutton在強(qiáng)化學(xué)習(xí)領(lǐng)域的開創(chuàng)性、奠基性著作。自1998年第1版出版以來,一直是強(qiáng)化學(xué)習(xí)領(lǐng)域的經(jīng)典導(dǎo)論性教材,培育了好幾代強(qiáng)化學(xué)習(xí)領(lǐng)域的研究人員。
在第2版中,隨著強(qiáng)化學(xué)習(xí)的蓬勃發(fā)展,作者補(bǔ)充了很多新的內(nèi)容:人工神經(jīng)網(wǎng)絡(luò)、蒙特卡洛樹搜索、平均收益大化……涵蓋了當(dāng)今關(guān)鍵的核心算法和理論。不僅如此,作者還以真實世界的應(yīng)用為例闡述了這些內(nèi)容。
內(nèi)容簡介
《強(qiáng)化學(xué)習(xí)(第2版)》作為強(qiáng)化學(xué)習(xí)思想的深度解剖之作,被業(yè)內(nèi)公認(rèn)為是一本強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的經(jīng)典著作。它從強(qiáng)化學(xué)習(xí)的基本思想出發(fā),深入淺出又嚴(yán)謹(jǐn)細(xì)致地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強(qiáng)化學(xué)習(xí)的基本概念和方法,并以大量的實例幫助讀者理解強(qiáng)化學(xué)習(xí)的問題建模過程以及核心的算法細(xì)節(jié)。
《強(qiáng)化學(xué)習(xí)(第2版)》適合所有對強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀、收藏。
作者簡介
Richard Sutton(理查德·薩頓)
埃德蒙頓 DeepMind 公司的杰出科學(xué)家,阿爾伯塔大學(xué)計算科學(xué)系教授。他于2003年加入阿爾伯塔大學(xué),2017年加入DeepMind。之前,曾在美國電話電報公司(AT&T)和通用電話電子公司(GTE)實驗室工作,在馬薩諸塞大學(xué)做學(xué)術(shù)研究。
1978年獲得斯坦福大學(xué)心理學(xué)學(xué)士學(xué)位,1984年獲得馬薩諸塞大學(xué)計算機(jī)科學(xué)博士學(xué)位,加拿大皇家學(xué)會院士和人工智能促進(jìn)會的會士。
主要研究興趣是在決策者與環(huán)境相互作用時所面臨的學(xué)習(xí)問題,他認(rèn)為這是智能的核心問題。其他研究興趣有:動物學(xué)習(xí)心理學(xué)、聯(lián)結(jié)主義網(wǎng)絡(luò),以及能夠不斷學(xué)習(xí)和改進(jìn)環(huán)境表征和環(huán)境模型的系統(tǒng)。
他的科學(xué)出版物被引用超過7萬次。
他也是一名自由主義者,國際象棋選手和癌癥幸存者。
Andrew Barto (安德魯·巴圖)
馬薩諸塞大學(xué)阿默斯特分校信息與計算機(jī)科學(xué)學(xué)院名譽(yù)教授。1970年獲得密歇根大學(xué)數(shù)學(xué)專業(yè)的杰出學(xué)士學(xué)位,并于1975年獲該校計算機(jī)科學(xué)專業(yè)的博士學(xué)位。1977年他加入馬薩諸塞州阿默斯特大學(xué)計算機(jī)科學(xué)系。在2012年退休之前,他帶領(lǐng)了馬薩諸塞大學(xué)的自主學(xué)習(xí)實驗室,該實驗室培養(yǎng)了許多著名的機(jī)器學(xué)習(xí)研究者。
目前擔(dān)任Neural Computation (《神經(jīng)計算》)期刊的副主編,Journal of Machine Learning Research (《機(jī)器學(xué)習(xí)研究》)期刊的顧問委員會成員,以及Adaptive Behavior (《自適應(yīng)行為》)期刊的編委員會成員。
他是美國科學(xué)促進(jìn)會的會員,IEEE(國際電子電氣工程師協(xié)會)的終身會士(Life Fellow),也是神經(jīng)科學(xué)學(xué)會的成員。
2004年,因強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)榮獲IEEE神經(jīng)網(wǎng)絡(luò)學(xué)會先鋒獎,并因在強(qiáng)化學(xué)習(xí)理論和應(yīng)用方面的開創(chuàng)、富有影響力的研究獲得 IJCAI-17卓越研究獎;2019年獲得馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎。
他在各類期刊、會議和研討會上發(fā)表了100多篇論文,參與撰寫多部圖書的相關(guān)章節(jié)。
譯者簡介
俞凱
上海交通大學(xué)計算科學(xué)與工程系教授,思必馳公司創(chuàng)始人、首席科學(xué)家。清華大學(xué)自動化系本科、碩士,劍橋大學(xué)工程系博士。青年千人,國家自然科學(xué)基金委優(yōu)青,上海市“東方學(xué)者”特聘教授。IEEE 高級會員,現(xiàn)任 IEEE Speech and Language Processing Technical Committee 委員,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識產(chǎn)權(quán)組組長,中國計算機(jī)學(xué)會語音對話及聽覺專業(yè)組副主任。
長期從事交互式人工智能,尤其是智能語音及自然語言處理的研究和產(chǎn)業(yè)化工作。發(fā)表國際期刊和會議論文 150 余篇,獲得Computer Speech and Language, Speech Communication 等多個國際期刊及InterSpeech等國際會議的優(yōu)論文獎,所搭建的工程系統(tǒng)曾獲美國國家標(biāo)準(zhǔn)局語音識別評測冠軍,對話系統(tǒng)國際研究挑戰(zhàn)賽冠軍等。
強(qiáng)化學(xué)習(xí)(第2版)的評論 (共 條)
