【斯坦福經(jīng)典書】強(qiáng)化學(xué)習(xí)在金融應(yīng)用,附414頁(yè)pdf
強(qiáng)化學(xué)習(xí)(RL)作為一種可行的、強(qiáng)大的技術(shù),用于解決各種復(fù)雜的跨行業(yè)業(yè)務(wù)問(wèn)題,包括在不確定性下的順序優(yōu)化決策。盡管RL被歸類為機(jī)器學(xué)習(xí)(ML)的一個(gè)分支,但它的看待和處理方式往往與機(jī)器學(xué)習(xí)的其他分支(監(jiān)督和非監(jiān)督學(xué)習(xí))非常不同。事實(shí)上,RL似乎掌握了開啟人工智能前景的關(guān)鍵——人工智能可以根據(jù)觀察到的信息的變化來(lái)調(diào)整決策,同時(shí)不斷朝著最優(yōu)結(jié)果前進(jìn)。RL算法在無(wú)人駕駛汽車、機(jī)器人和策略游戲等備受矚目的問(wèn)題上的滲透,預(yù)示著未來(lái)RL算法的決策能力將遠(yuǎn)超人類。
本書重點(diǎn)研究支撐RL的基礎(chǔ)理論。我們對(duì)這一理論的處理是基于本科水平的概率、優(yōu)化、統(tǒng)計(jì)和線性代數(shù)。我們強(qiáng)調(diào)嚴(yán)謹(jǐn)?shù)?jiǎn)單的數(shù)學(xué)符號(hào)和公式來(lái)發(fā)展理論,并鼓勵(lì)你把方程寫出來(lái),而不是僅僅從書中閱讀。偶爾,我們引用一些高等數(shù)學(xué)(如:隨機(jī)微積分),但本書的大部分是基于容易理解的數(shù)學(xué)。特別是,兩個(gè)基本的理論概念- Bellman最優(yōu)方程和廣義策略迭代-貫穿全書,因?yàn)樗鼈儤?gòu)成了我們?cè)赗L中所做的幾乎所有事情的基礎(chǔ),甚至在最先進(jìn)的算法中。
本書第二部分用動(dòng)態(tài)規(guī)劃或強(qiáng)化學(xué)習(xí)算法解決的金融應(yīng)用。作為隨機(jī)控制問(wèn)題的許多金融應(yīng)用的一個(gè)基本特征是,模型MDP的回報(bào)是效用函數(shù),以捕捉金融回報(bào)和風(fēng)險(xiǎn)之間的權(quán)衡。
