最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

北大公開(kāi)課-人工智能基礎(chǔ) 62 機(jī)器學(xué)習(xí)的范型之強(qiáng)化學(xué)習(xí)范式

2023-04-05 15:08 作者:朝朝暮暮1895  | 我要投稿



強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,關(guān)注智能體與環(huán)境之間的交互,目標(biāo)是追求最大回報(bào)。強(qiáng)化學(xué)習(xí)的特點(diǎn)包括:無(wú)監(jiān)督,僅有獎(jiǎng)勵(lì)信號(hào);反饋有延遲,不是瞬時(shí)的;時(shí)間是重要的(由于是時(shí)序數(shù)據(jù),不是獨(dú)立同分布的);Agent的動(dòng)作會(huì)影響后續(xù)得到的數(shù)據(jù)等。


在強(qiáng)化學(xué)習(xí)中,回報(bào)值(reward)是智能體與環(huán)境交互的結(jié)果,是智能體在某個(gè)狀態(tài)下采取某個(gè)動(dòng)作后獲得的獎(jiǎng)勵(lì)或懲罰,是智能體行動(dòng)的目標(biāo)?;貓?bào)值承擔(dān)了以下作用:1)指導(dǎo)智能體學(xué)習(xí),2)定義任務(wù)目標(biāo),3)評(píng)估智能體的性能。在強(qiáng)化學(xué)習(xí)中,回報(bào)值是一個(gè)隨機(jī)變量,因此需要取期望來(lái)計(jì)算132。

有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)三者的區(qū)別

監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的三種主要方法。

——監(jiān)督學(xué)習(xí)是一種目的明確的訓(xùn)練方式,需要給數(shù)據(jù)打標(biāo)簽,你知道得到的是什么;

——無(wú)監(jiān)督學(xué)習(xí)則是沒(méi)有明確目的的訓(xùn)練方式,不需要給數(shù)據(jù)打標(biāo)簽,你無(wú)法提前知道結(jié)果是什么。

——強(qiáng)化學(xué)習(xí)是執(zhí)行多步之后才反饋,看重的是行為序列下的長(zhǎng)期收益。


總結(jié)一下區(qū)別:

- 監(jiān)督學(xué)習(xí)有反饋,無(wú)監(jiān)督學(xué)習(xí)無(wú)反饋,強(qiáng)化學(xué)習(xí)是執(zhí)行多步之后才反饋。

- 強(qiáng)化學(xué)習(xí)的目標(biāo)與監(jiān)督學(xué)習(xí)的目標(biāo)不一樣,即強(qiáng)化學(xué)習(xí)看重的是行為序列下的長(zhǎng)期收益,而監(jiān)督學(xué)習(xí)往往關(guān)注的是和標(biāo)簽或已知輸出的誤差。

【基于模型的強(qiáng)化學(xué)習(xí)】

基于模型的強(qiáng)化學(xué)習(xí)(Model-Based Reinforcement Learning)是強(qiáng)化學(xué)習(xí)的一個(gè)重要分支。在這種方法中,智能體通過(guò)與環(huán)境交互的信息學(xué)習(xí)一個(gè)環(huán)境動(dòng)力學(xué)模型,然后利用該模型生成數(shù)據(jù)優(yōu)化行動(dòng)策略,或者利用模型進(jìn)行規(guī)劃1。

具體來(lái)說(shuō),基于模型的強(qiáng)化學(xué)習(xí)方法,在內(nèi)部可以分為兩個(gè)階段:怎么學(xué)和怎么用。如果模型已知,也就是如何用,總體上有兩種方法:第一種policy based method,額外學(xué)出一個(gè)policy model去找到當(dāng)前最好的action;第二種value based method,直接在model上進(jìn)行value iteration。


【無(wú)模型的強(qiáng)化學(xué)習(xí)】

無(wú)模型的強(qiáng)化學(xué)習(xí)(Model-Free Reinforcement Learning)是強(qiáng)化學(xué)習(xí)的另一個(gè)重要分支。在這種方法中,智能體不需要先學(xué)習(xí)環(huán)境動(dòng)力學(xué)模型,而是直接從與環(huán)境交互的數(shù)據(jù)中學(xué)習(xí)最優(yōu)策略。這種方法通常屬于數(shù)據(jù)驅(qū)動(dòng)型方法,需要大量的采樣來(lái)估計(jì)狀態(tài)、動(dòng)作及獎(jiǎng)勵(lì)函數(shù),從而優(yōu)化動(dòng)作策略1。無(wú)模型強(qiáng)化學(xué)習(xí)方法可以分為兩類:基于價(jià)值的方法和基于策略的方法。

【DQN 深度Q值網(wǎng)絡(luò)】

Deep Q-Network (DQN)是一種基于深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法,它使用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)Q值函數(shù),實(shí)現(xiàn)對(duì)環(huán)境中的最優(yōu)行為的學(xué)習(xí)。DQN算法通過(guò)將經(jīng)驗(yàn)存儲(chǔ)在一個(gè)經(jīng)驗(yàn)回放緩沖區(qū)中,以解決Q值函數(shù)的相關(guān)性問(wèn)題,并使用固定的目標(biāo)網(wǎng)絡(luò)來(lái)穩(wěn)定學(xué)習(xí)。DQN算法已經(jīng)在Atari游戲1、圍棋2、星際爭(zhēng)霸3等領(lǐng)域取得了成功應(yīng)用。

Q值函數(shù)是一種用于衡量在某個(gè)狀態(tài)下采取某個(gè)動(dòng)作的價(jià)值的函數(shù)。在強(qiáng)化學(xué)習(xí)中,Q值函數(shù)是指智能體在某個(gè)狀態(tài)下采取某個(gè)動(dòng)作所能獲得的期望回報(bào)。Q值函數(shù)可以用來(lái)指導(dǎo)智能體在環(huán)境中采取行動(dòng),以最大化長(zhǎng)期回報(bào)。


【DPG 確定性策略梯度算法】

DPG確定性策略梯度算法(Deep Deterministic Policy Gradient)是一種可以解決連續(xù)性控制問(wèn)題的方法,屬于model-free,off-policy,policy-based的方法。它是基于Q值的確定性策略梯度算法(Deterministic Policy Gradient)的改進(jìn)版,可以用于解決連續(xù)動(dòng)作空間下的強(qiáng)化學(xué)習(xí)問(wèn)題。

DPG算法可以用于解決連續(xù)動(dòng)作空間下的強(qiáng)化學(xué)習(xí)問(wèn)題,例如機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域。


【A3C?異步的優(yōu)勢(shì)動(dòng)作評(píng)論家算法】

A3C算法是一種異步的優(yōu)勢(shì)動(dòng)作評(píng)論家算法(Asynchronous Advantage Actor-Critic,A3C),是一種輕量級(jí)的深度強(qiáng)化學(xué)習(xí)框架,可以使用異步的梯度下降法來(lái)優(yōu)化網(wǎng)絡(luò)控制器的參數(shù),并可以在多個(gè)CPU上并行運(yùn)行。12 A3C算法是一種基于Actor-Critic算法的改進(jìn)版,它使用了多個(gè)并行的智能體來(lái)加速訓(xùn)練過(guò)程。

A3C算法可以用于解決連續(xù)動(dòng)作空間下的強(qiáng)化學(xué)習(xí)問(wèn)題,例如機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域。

【NEC神經(jīng)情景控制】

NEC神經(jīng)情景控制算法是DeepMind研究團(tuán)隊(duì)提出的一種新算法,可以快速吸收新經(jīng)驗(yàn)和基于此采取行動(dòng)的深度強(qiáng)化學(xué)習(xí)代理。該算法使用了一種價(jià)值函數(shù)的半值表示:一種過(guò)去經(jīng)驗(yàn)的緩沖器,其包含了該價(jià)值函數(shù)的緩慢變化的狀態(tài)表示和一個(gè)快速變化的情景表示。這種方法可以在廣泛環(huán)境情景中顯著提高學(xué)習(xí)速度,并且能夠根據(jù)經(jīng)驗(yàn)快速選擇高度成功的策略。

NEC神經(jīng)情景控制算法可以用于解決深度強(qiáng)化學(xué)習(xí)的缺陷,例如DQN和A3C中需要經(jīng)過(guò)許多步驟才能選擇成功策略的問(wèn)題。

A3C算法解決游戲問(wèn)題

需要不斷通過(guò)外部反饋強(qiáng)化得到的學(xué)習(xí)情景




北大公開(kāi)課-人工智能基礎(chǔ) 62 機(jī)器學(xué)習(xí)的范型之強(qiáng)化學(xué)習(xí)范式的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
南部县| 固安县| 扎兰屯市| 融水| 东辽县| 克东县| 应用必备| 金川县| 通道| 临海市| 犍为县| 麟游县| 广丰县| 靖宇县| 勃利县| 东明县| 云龙县| 化州市| 沙洋县| 石阡县| 上饶市| 伊吾县| 镶黄旗| 正蓝旗| 新巴尔虎右旗| 永嘉县| 黄浦区| 昭觉县| 察雅县| 石首市| 清镇市| 会理县| 黑河市| 蒙自县| 体育| 襄垣县| 余姚市| 洞口县| 克东县| 罗定市| 大邑县|