散文網(wǎng) » 生活 »日常 » 2.強(qiáng)化學(xué)習(xí)如何建模序貫決策問題

2.強(qiáng)化學(xué)習(xí)如何建模序貫決策問題

2023-02-20 00:05 作者:李富貴bilibili 0人讀過 | 我要投稿

2.1給出了強(qiáng)化學(xué)習(xí)解決序貫決策問題的基本思路。2.2建立強(qiáng)化學(xué)習(xí)的數(shù)學(xué)模型MDP，最后也給出了強(qiáng)化學(xué)習(xí)的最優(yōu)化問題形式的描述(轉(zhuǎn)化成優(yōu)化問題，就可以采用已有最優(yōu)化方法進(jìn)行解決，屬于隨機(jī)優(yōu)化范疇)。2.3介紹了現(xiàn)實(shí)中很多序貫決策任務(wù)，無法很好進(jìn)行數(shù)學(xué)建模時，需要采用蒙特卡羅方法進(jìn)行解決（但同樣會用到2.2節(jié)的大量概念）。強(qiáng)化學(xué)習(xí)的精髓之一是解決無模型的馬爾科夫決策問題。

2.1.強(qiáng)化學(xué)習(xí)解決問題的基本框架

智能體通過動作與環(huán)境進(jìn)?交互時，環(huán)境會返給智能體?個當(dāng)前的回報，智能體則根據(jù)當(dāng)前的回報評估所采取的動作：有利于實(shí)現(xiàn)?標(biāo)的動作被保留，不利于實(shí)現(xiàn)?標(biāo)的動作被衰減。

編輯切換為居中

智能體在完成某任務(wù)時，首先通過動作A與周圍環(huán)境進(jìn)行交互，在動作A和環(huán)境的作用下，智能體產(chǎn)生新的狀態(tài)，同時環(huán)境會給出一個立即回報。如此循環(huán)下去，智能體與環(huán)境不斷地交互從而產(chǎn)生很多數(shù)據(jù)。強(qiáng)化學(xué)習(xí)算法利用產(chǎn)生的數(shù)據(jù)修改自身的動作策略，再與環(huán)境交互、產(chǎn)生新的數(shù)據(jù)，并利用新的數(shù)據(jù)進(jìn)一步改善自身的行為，經(jīng)過數(shù)次迭代學(xué)習(xí)后，智能體能最終學(xué)到完成相應(yīng)任務(wù)的最優(yōu)動作(最優(yōu)策略)。

2.2.通過馬爾科夫決策過程(MDP)建模序貫決策問題

無數(shù)學(xué)者通過幾十年不斷努力和探索，提出了一套可以解決大部分強(qiáng)化學(xué)習(xí)問題的框架，這個框架就是馬爾可夫決策過程，簡稱MDP。

2.2.1.數(shù)學(xué)描述

?爾科夫決策過程由元組（S，A，P，R，γ）描述，其中：

S 為有限的狀態(tài)集

A 為有限的動作集

P 為狀態(tài)轉(zhuǎn)移概率

R 為回報函數(shù)

γ 為折扣因?，?來計(jì)算累積回報。

注意，跟馬爾科夫過程不同的是，?爾科夫決策過程的狀態(tài)轉(zhuǎn)移概率是包含動作的，即

編輯

舉例說明:

編輯切換為居中

其中: 狀態(tài)集為S={s 1 ，s 2 ，s 3 ，s 4 ，s 5 }，動作集為A={玩，退出，學(xué)習(xí)，發(fā)表，睡覺}

2.2.2強(qiáng)化學(xué)習(xí)優(yōu)化變量和目標(biāo)函數(shù)

給定?個?爾科夫決策過程，尋找最優(yōu)策略(所謂策略是指狀態(tài)到動作的映射，為優(yōu)化問題的優(yōu)化變量)

編輯切換為居中

注: 強(qiáng)化學(xué)習(xí)為什么采用隨機(jī)策略？首先，采用隨機(jī)策略可以將探索耦合到采樣的過程中。所謂探索就是值機(jī)器人嘗試其他的工作以便找到更好的策略。其次，在實(shí)際中，存在各種噪聲，這些噪聲大都服從正態(tài)分布，如何去掉這些噪音也需要采用概率方法。

這?的最優(yōu)是指得到的總回報最?。當(dāng)給定?個策略時，通過計(jì)算累積回報進(jìn)行比較

編輯切換為居中

編輯切換為居中

由于策略 $π$ 是隨機(jī)的，因此累積回報也是隨機(jī)的。為了評估狀態(tài) $s1$ 的價值，我們定義一個確定量來描述狀態(tài) $s1$ 的價值，很自然的想法是利用累積回報期望來衡量狀態(tài) $s1$ 的價值。

a)狀態(tài)值函數(shù)(衡量每個狀態(tài)的價值)

當(dāng)智能體采?策略 $π$ 時，累積回報服從?個分布，累積回報在狀態(tài) $s$ 處的期望值定義為狀態(tài)值函數(shù)：

編輯切換為居中

注意：狀態(tài)值函數(shù)是與策略相對應(yīng)的，這是因?yàn)椴呗詻Q定了累積回報G的狀態(tài)分布。

編輯切換為居中

b)狀態(tài)-行為值函數(shù)

編輯切換為居中

c)狀態(tài)值函數(shù)與狀態(tài)-?為值函數(shù)的?爾曼?程

編輯切換為居中

同樣我們可以得到狀態(tài)-動作值函數(shù)的?爾曼?程:

編輯切換為居中

圖2和圖3分別為狀態(tài)值函數(shù)和?為值函數(shù)的具體計(jì)算過程.其中空?圓圈表?狀態(tài)，實(shí)?圓圈表?狀態(tài)-?為對。

編輯切換為居中

圖2為值函數(shù)的計(jì)算分解?意圖，圖2中B計(jì)算公式為

編輯切換為居中

圖2中B給出了狀態(tài)值函數(shù)與狀態(tài)-?為值函數(shù)的關(guān)系。圖2中C計(jì)算狀態(tài)-?為值函數(shù)為

編輯切換為居中

將上述兩式進(jìn)行合并,得出

編輯切換為居中

編輯切換為居中

編輯切換為居中

d)最優(yōu)狀態(tài)值函數(shù)和最優(yōu)狀態(tài)-?動值函數(shù)的?爾曼最優(yōu)?程

編輯切換為居中

編輯切換為居中

編輯切換為居中

e)強(qiáng)化學(xué)習(xí)最優(yōu)化問題描述

形式1：最優(yōu)狀態(tài)值函數(shù) $υ?(s)$ 為所有策略中值最大的值函數(shù)

$υ?(s)=?maxπ?υπ(s)$

形式2：最優(yōu)狀態(tài)-行為值函數(shù) $q?(s,a)$ 為所有策略中最大的狀態(tài)-行為值函數(shù)

$q?(s,a)=?maxπ?qπ(s,a)$

2.3基于蒙特卡羅的強(qiáng)化學(xué)習(xí)方法

?模型的強(qiáng)化學(xué)習(xí)算法要想利?策略評估和策略改善的框架，必須采?其他的?法評估當(dāng)前策略（計(jì)算值函數(shù)）.

在沒有模型時，可以采?蒙特卡羅的?法計(jì)算該期望，即利?隨機(jī)樣本估計(jì)期望。此處，有兩個詞需要理解：經(jīng)驗(yàn)和平均。

經(jīng)驗(yàn)

當(dāng)要評估智能體的當(dāng)前策略 $π$ 時，可以利用策略 $π$ 產(chǎn)生很多次試驗(yàn)，每次試驗(yàn)都是從任意的初始狀態(tài)開始直到終止，比如一次試驗(yàn)（episode）為 $S1,A1,R2,S2,A2,???,ST$ ,計(jì)算一次試驗(yàn)中狀態(tài) $s$ 處的折扣回報返回值為 $Gt(s)=Rt+1+γRt+2+???+γT?1RT$

“經(jīng)驗(yàn)”就是利用策略做很多次試驗(yàn)，產(chǎn)生很多幕數(shù)據(jù)（每幕為一次試驗(yàn)）。

平均

平均就是求均值。

由于智能體與環(huán)境交互的模型是未知的，蒙特卡羅?法是利?經(jīng)驗(yàn)平均來估計(jì)值函數(shù)，?能否得到正確的值函數(shù)，則取決于經(jīng)驗(yàn)——因此，如何獲得充?的經(jīng)驗(yàn)是?模型強(qiáng)化學(xué)習(xí)的核?所在(包括兩方面的原因:保證每個狀態(tài)都能被訪問到；生成的狀態(tài)序列盡可能貼近任務(wù)).

標(biāo)簽：