一種更具有生命力的方法論——強(qiáng)化學(xué)習(xí)理論

回顧歷史
基本概念
????為了在接下來能更清楚的把我要敘述的事情理解到,我需要在這里把一切前置知識說明:我們 人類在長期演變過程中、在和環(huán)境和社會(huì)生活交互的活動(dòng)過程可以抽象為三個(gè)階段——首先發(fā)現(xiàn)問 題?→形成解決問題的方法步驟?→根據(jù)方法步驟解決問題。?
????為了更好的理解上面我所抽象出的三個(gè)階段,我用人自身的一個(gè)具體活動(dòng)來說明。遙想幾萬年 前,你作為一個(gè)原始人,一個(gè)部落里的一個(gè)成年男性。你部落里已經(jīng)三天糧食短缺了(在這里我們就 形成了問題或者說我們發(fā)現(xiàn)了問題了)。為了解決這個(gè)問題,你需要找到獵物,然后追逐它,最后熱 耗耗死獵物或者用你的標(biāo)槍射死獵物(這就是解決問題的方法步驟)。某個(gè)下午你漫步在野外,遠(yuǎn)遠(yuǎn) 的看見一只野鹿,你悄咪咪的躲在它后面,用手上骨質(zhì)標(biāo)槍用力一射,射死了這只野鹿,帶回了部 落。這樣這給糧食短缺問題就解決了。?
????為了更進(jìn)一步說明,我對上述抽象更進(jìn)一步抽象,同樣也是三個(gè)過程:問題?→方法/步驟?→執(zhí) 行。人類或者生物所有的一切活動(dòng)都是這三個(gè)過程交互演變、相互獨(dú)立又相互影響。人類可以說是這 三個(gè)階段的集大成者。
5000千年的演變
????至今五千年內(nèi),我稱我們所有的偉大進(jìn)步都是發(fā)生在最后一個(gè)階段——執(zhí)行,上。?
????為了得到上述結(jié)論,我們要開始回顧一些歷史,一些在科技發(fā)展上的進(jìn)步。?
????青銅時(shí)代:青銅時(shí)代是距今約4000年前的一個(gè)時(shí)期。在這一時(shí)期,人類開始使用青銅制造工具和 武器。青銅是銅和錫的合金,具有更高的強(qiáng)度和耐用性。鐵器時(shí)代:鐵器時(shí)代開始于距今約3000年 前。在這一時(shí)期,人類開始使用鐵制造工具和武器。鐵制品的生產(chǎn)速度和質(zhì)量比青銅更高,因此它很 快取代了青銅。在這一時(shí)期,人類還發(fā)明了貨幣和銀行,這有助于促進(jìn)貿(mào)易和經(jīng)濟(jì)發(fā)展。在這一時(shí) 期,最著名的文明包括古代印度、古代中國和古希臘等。?
????我們觀察可以顯而易見的知道,不論是青銅器或者是鐵器,都只是在執(zhí)行階段提高了人類執(zhí)行方 法步驟的速度。并沒有改變一個(gè)事實(shí)——人類提出解決問題的方法步驟。那么最近幾百年的進(jìn)步有改 變這一點(diǎn)事實(shí)么?我們繼續(xù)回顧:?
????工業(yè)革命:工業(yè)革命是從18世紀(jì)末開始的一個(gè)時(shí)期,它標(biāo)志著人類生產(chǎn)力和技術(shù)水平的飛躍。在這一時(shí)期,人類發(fā)明了許多機(jī)械裝置,例如蒸汽機(jī)、紡織機(jī)、印刷機(jī)和蒸汽火車等,這些機(jī)械裝置大 大提高了生產(chǎn)效率和質(zhì)量。在這一時(shí)期,人類還發(fā)明了電池和電報(bào)等電子技術(shù),這標(biāo)志著電子時(shí)代的 開始?,F(xiàn)代時(shí)期:現(xiàn)代時(shí)期是指20世紀(jì)以后的時(shí)期。在這一時(shí)期,人類發(fā)明了許多重要的技術(shù)和發(fā) 明,例如電話、汽車、飛機(jī)、計(jì)算機(jī)、互聯(lián)網(wǎng)和智能手機(jī)等。?
????這些技術(shù)革命的演變,不管是蒸汽機(jī)、印刷機(jī)、或者說計(jì)算機(jī)這些都是在提高我們執(zhí)行部分的效 率,從來帶來生產(chǎn)力的巨大提高。我們的蒸汽機(jī)可以讓人類重復(fù)的機(jī)械動(dòng)作在瞬間被執(zhí)行幾百上千 次,計(jì)算機(jī)更是極大的提高了我們執(zhí)行的速度。?
????人類或者說生物的三大階段在過去5000千年的時(shí)間里,我們都在執(zhí)行階段產(chǎn)生變化,或者換句話 說,我們之前所有的理論都是建立在執(zhí)行這一階段上的。無論是數(shù)學(xué)、物理、化學(xué)、還是什么學(xué)課, 這些學(xué)課所形成的科學(xué)方法論,都是基于執(zhí)行部分,也就是說如何讓人類的執(zhí)行更具效率,更具破壞 力。物理學(xué)研究的內(nèi)燃機(jī)、蒸汽機(jī)或者說核物理,所產(chǎn)出的成果,汽車輪船原子彈這些,讓我們走的 更快,一個(gè)按鈕就可以讓原子彈爆炸破壞一片地區(qū)。
????但是近些年來,我們可以發(fā)現(xiàn)一點(diǎn)的是基礎(chǔ)學(xué)課的進(jìn)展如此緩慢,不論是數(shù)學(xué)還是物理。我們在
人自己提出問題的解決辦法上好像開始進(jìn)入的瓶頸,好像開始了收斂?;蛘邠Q句話說,這就意味著我
們需要在另一個(gè)解決尋求突破了,我們需要在另一階段思考了。那么一種呼之欲出或者說顯而易見
的方式可以出來了:我們是否能讓agent自己想出解決問題的方法?或者說我們能不能讓機(jī)器具有智
能,讓它自己去做解決問題?
人類智慧的延申
????何為人類智慧的延申?人類運(yùn)用自己的智慧去窺探智慧產(chǎn)生的規(guī)律,并運(yùn)用這些規(guī)律去誕生出了 一些在基于人類智慧下、人類觀測下才反應(yīng)出的智慧體現(xiàn)。換句話說,這些智慧體現(xiàn)離不開人人類的 觀察,并且這些智慧并不會(huì)自己延伸出新的智慧出來。人類的智慧延申就是在三大階段的第二階段產(chǎn) 生,或者換句話說,接下來的時(shí)間里,將會(huì)產(chǎn)生為這個(gè)階段服務(wù)的思想、理論,并且將會(huì)再一次極大 的解放人類的生產(chǎn)能力、生產(chǎn)關(guān)系。?
????那么人類智慧延申的體現(xiàn)有什么呢?最簡單或者說我認(rèn)為能追溯的最早的例子就是2012年 的AlexNet,它是人類在三大發(fā)展階段的第二階段——問題的解決方法/步驟,上首次取得巨大成功的 例子。它可以針對任務(wù)自行學(xué)習(xí)對應(yīng)的解決辦法/步驟,將人類從這一活動(dòng)中解放出來。那么研究這 種在人類智慧指導(dǎo)下的agent自行去解決問題的理論是什么呢?我的回答是強(qiáng)化學(xué)習(xí)理論或者說啥如 何像生物一樣在動(dòng)態(tài)變化的世界中與世界交互下連續(xù)決策的理論。
強(qiáng)化學(xué)習(xí)
????強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域(Sutton和Barto,2018)關(guān)注通過交互實(shí)現(xiàn)目標(biāo)導(dǎo)向?qū)W習(xí)的計(jì)算原理。雖 然最初被視為機(jī)器學(xué)習(xí)領(lǐng)域,但它有著跨越多個(gè)領(lǐng)域的豐富歷史。在心理學(xué)中,它可以用來模擬古典(巴甫洛夫)和操作(工具)條件反射。在神經(jīng)科學(xué)中,它被用來模擬大腦的多巴胺系統(tǒng)(Schultz等 人,1997)。在經(jīng)濟(jì)學(xué)中,它涉及有限理性等領(lǐng)域,而在工程中,它與最優(yōu)控制領(lǐng)域有著廣泛的重疊 (Bellman,1957)。眾多研究領(lǐng)域的研究,確保了RL繼續(xù)是一個(gè)令人興奮的、非常跨學(xué)科的領(lǐng)域。

強(qiáng)化學(xué)習(xí)理論框架
????如圖2所示,強(qiáng)化學(xué)習(xí)的基本組成結(jié)構(gòu)有兩個(gè)重要組成部分①agent ②environment,還有兩個(gè)從 屬部分,對應(yīng)為action和observation。在這基本結(jié)構(gòu)下構(gòu)建一個(gè)動(dòng)態(tài)交互過程,并將其構(gòu)建為一個(gè)馬 爾可夫過程。在這個(gè)動(dòng)態(tài)過程下agent可以通過價(jià)值和策略梯度兩種主要方式去學(xué)習(xí)自己的決策策略。

Agent和Environment

Observation和Action

馬爾可夫決策過程

策略和價(jià)值

Model-free方法
Prediction


價(jià)值函數(shù)指導(dǎo)下的控制

策略梯度方法


Model-based方法

深度強(qiáng)化學(xué)習(xí)

經(jīng)驗(yàn)回放

目標(biāo)網(wǎng)絡(luò)

離線強(qiáng)化學(xué)習(xí)



何為更具生命力的方法論

