散文網(wǎng) » 科技 »學(xué)習(xí) » 一文了解多智能體強化學(xué)習(xí)：以道路駕駛為例

一文了解多智能體強化學(xué)習(xí)：以道路駕駛為例

2022-06-07 10:35 作者:西湖大學(xué)空中機器人 0人讀過 | 我要投稿

本文將以道路駕駛為例，一文帶你掌握多智能體深度強化學(xué)習(xí)的脈絡(luò)。

溫馨提示：本文動圖中的部分行為存在風(fēng)險，請勿輕易模仿。

從字面意思就可以理解，區(qū)別于單智能體強化學(xué)習(xí)，多智能體強化學(xué)習(xí)指代在一個世界中有多個智能體在一起進行學(xué)習(xí)和演化。這些智能體可以是同構(gòu)(homogeneous) 的，比如說不同的人，也可以是異構(gòu) (heterogeneous) 的，比如說人和車。

他們在這個世界中或合作 (cooperative)，或競爭 (competitive)，或既合作又競爭。一個生動的例子就是道路駕駛。假設(shè)你開車行駛在高速上，那么你不僅僅需要控制車輛使自身保持在車道線內(nèi)，也需要和同車道上的其他車輛形成合作的關(guān)系。這個合作關(guān)系就是如果前車減速，那么你也要相應(yīng)地減速以保持一百米的安全車距；與此同時，前車也要防止急剎車一類的動作，從而防止后車追尾。在這限速一百二的道路上，前方路況良好視野開闊，你們安心駕駛并且保持著一段時間的這種合作關(guān)系......

突然，你發(fā)現(xiàn)前車降速到了六十碼。你打了遠(yuǎn)光燈甚至按了喇叭提醒前車，但是對方卻無動于衷，于是你很生氣，想要超車：

溫馨提示：同一車道的后車，并到右側(cè)車道，超越前車，再并回原車道屬于違章駕駛。

但是當(dāng)你變道的時候前車也突然加速不想讓你超車。這時你的路怒癥就犯了（注意安全駕駛），你左右試探想找準(zhǔn)時機一腳油門別它。這個時候你們就形成了競爭關(guān)系。

順帶一句，這個競爭關(guān)系出現(xiàn)的原因在于人類非理性（human-irrationality）的存在。但是在強化學(xué)習(xí)中，我們一般都假設(shè)智能體是完全理性的。所以想用強化學(xué)習(xí)預(yù)測股市的朋友們可以放棄這一方案了，因為不存在完全理性的韭菜。

如果我們抹去人類的非理性，并假設(shè)未來的某一天所有車輛都是自動駕駛，那么這個城市道路上的所有車就是完全合作 (fully cooperative) 的關(guān)系。每一輛車根據(jù)自身感知的信息來做最優(yōu)決策。自身所感知的信息就是強化學(xué)習(xí)中狀態(tài) (state) 的概念。狀態(tài)可以包括目的地航向，前方道路的紅綠燈信息，前車車距和時速，自身時速，方向盤轉(zhuǎn)向，車側(cè)有無行人等等。決策就是強化學(xué)習(xí)中動作 (action) 的概念，可以是加速減速，轉(zhuǎn)左轉(zhuǎn)右，也可以是超車，緊急避讓，彎道漂移等這些宏動作 (macro-action).

當(dāng)然，人類或者自動駕駛系統(tǒng)一開始并不知道怎么開車。所以你得去駕校找教練帶你。那么駕校中的練習(xí)道路就是強化學(xué)習(xí)中的仿真環(huán)境 (simulation environment) 的概念。你在練習(xí)開車的時候如果連最基本的右邊是油門，左邊是剎車都不知道的話，教練可能會罵你，這就是強化學(xué)習(xí)中的獎勵 (reward) 的概念。每被罵一次，你受到心理傷害，獎勵就 -1。當(dāng)然，如果你不小心把剎車當(dāng)油門，一把猛沖把駕校的墻撞壞了：

那么就會導(dǎo)致練車回合 (episode) 的結(jié)束，并受到教練的語言暴力傷害，獎勵 -100，然后 return done = True. 這個時候不要氣餒，給教練買包煙，重新?lián)Q車開始即可。

我們小結(jié)一下，強化學(xué)習(xí)的基本概念，包括環(huán)境 (environment)，智能體(agent)，狀態(tài)(state)，動作(action)，獎勵(reward)可以由下面一張圖表述:

src: https://www.guru99.com/reinforcement-learning-tutorial.html

我們回到道路駕駛的例子，根據(jù)前面描述，我們知道在多智能體環(huán)境中，你的策略不僅取決于自身的開車習(xí)慣和道路環(huán)境信息，還取決于其他智能體（前車）策略的影響。但是問題在于你并不知道前車的駕駛習(xí)慣。針對這個問題，一般有三種主要的學(xué)習(xí)算法結(jié)構(gòu)。

第一種是不管其他人，我就在駕校中單獨訓(xùn)練，并把其他智能體看成環(huán)境的一部分。這種學(xué)習(xí)模式叫做獨立式學(xué)習(xí)(independent learning). 這種模式的好處是簡單快捷，即把單智能體的學(xué)習(xí)方法照搬到每一個單獨的智能體即可。但是缺點也很明顯，在同一個環(huán)境中，你在“補習(xí)”的同時，別人也在“補習(xí)”，從而打破了環(huán)境的穩(wěn)態(tài)性(stationarity)，結(jié)果就是誰都沒學(xué)好。這種強化學(xué)習(xí)方法在相對離散動作的小規(guī)模多智能體問題中具有一定效果，但是在高維度狀態(tài)-動作空間的復(fù)雜問題中，表現(xiàn)差強人意。
第二種學(xué)習(xí)模式就是集中式（centralized）學(xué)習(xí)，即把所有智能體的狀態(tài)和動作集中到一起，形成一個增廣 (augmented) 的狀態(tài)-動作空間，然后使用單智能體算法直接學(xué)習(xí)。這種學(xué)習(xí)方法的問題在于一旦智能體數(shù)量過于龐大，這個增廣空間的大小就會以指數(shù)級增長，以至于智能體無法進行充分的空間探索。與此同時，學(xué)的時候也很累，龐大的狀態(tài)-動作空間需要龐大的神經(jīng)網(wǎng)絡(luò)，訓(xùn)練起來費時費力費電。.
除了上述兩種，還有一種學(xué)習(xí)算法結(jié)構(gòu)叫做集中式訓(xùn)練-分布式執(zhí)行 (centralized training decentralized execution). 意思就是訓(xùn)練期間所有的智能體能看到全局信息，就是你也知道別人怎么開車；執(zhí)行的時候每個智能體智僅依靠局部的狀態(tài)信息做決策。這種算法結(jié)構(gòu)雖然在訓(xùn)練的時候比較費力，但是可以實際部署應(yīng)用，因為每個智能體僅依賴局部信息作決策，而不需要復(fù)雜的通訊網(wǎng)絡(luò)和所有其他智能體保持聯(lián)絡(luò)。集中式訓(xùn)練-分布式執(zhí)行的算法框架如下圖：

src: Lowe R, Wu Y I, Tamar A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[J]. Advances in neural information processing systems, 2017, 30.

多智能體強化學(xué)習(xí)也存在著諸多挑戰(zhàn)。我們回想一下道路駕駛的問題，其實就能窺見一二。

首先第一個挑戰(zhàn)就是環(huán)境的非穩(wěn)態(tài)性 (non-stationarity)。你學(xué)我學(xué)他也學(xué)，你卷我卷他更卷，使得整體的評價機制/回報函數(shù)的準(zhǔn)確性降低，原本學(xué)會的良好的策略會隨著學(xué)習(xí)過程的推進不斷變差，最終造成你學(xué)了的不再有用，他卷的也白卷。

第二個挑戰(zhàn)在于非完整觀測 (Partial observability), 在大部分的智能體系統(tǒng)中，每個智能體在執(zhí)行過程中無法獲得完整的全局信息，而只能根據(jù)觀測到的局部信息來做一個最優(yōu)決策，如下圖中司機的視野是有個范圍的：

這就是局部可觀測的馬爾科夫過程 (partially observable Markov decision process)。其難點在于整個過程的馬爾科夫性不再完整，使得環(huán)境表現(xiàn)出非馬爾科夫性(non-Markovian)。

第三個挑戰(zhàn)在于學(xué)習(xí)交流方式 (learn communication)。要合作完成某項任務(wù)的時候，智能體間可以通過通訊來交換觀測信息，策略參數(shù)等，比如夜晚雙方會車的時候需要暫時關(guān)閉遠(yuǎn)光燈“以示友好”，或者超車的時候閃幾下遠(yuǎn)光燈提醒前車注意，這種屬于指明通訊內(nèi)容的學(xué)習(xí)方法。

與此相反，現(xiàn)在假設(shè)我們并不知道會車的時候要關(guān)閉遠(yuǎn)光燈，我們的任務(wù)就是要嘗試學(xué)習(xí)一種通信策略，比如讓智能體被晃了幾次眼之后發(fā)現(xiàn)在適當(dāng)?shù)臅r候關(guān)閉遠(yuǎn)光燈可以降低翻車概率，這就是通信策略的學(xué)習(xí)，即根據(jù)當(dāng)前觀測給其他智能體發(fā)送什么信息，決定發(fā)送信息的種類，信息的內(nèi)容以及誰來接收這些信息。通訊這個行為也可以被認(rèn)為是一種動作用來建立信息渠道。

第四個就是算法的穩(wěn)定性和收斂性 (convergence) 挑戰(zhàn)。帶來這個挑戰(zhàn)的原因之一就是智能體數(shù)量的增長帶來的探索難度的增加，導(dǎo)致算法難以收斂。原因之二是過擬合問題帶來的收斂到局部最優(yōu)的問題。一個例子就是假設(shè)在某條道路上，除了你之外都是老司機，那么你隨便怎么開車其他老司機都能避讓你：

這種情況下你不再進行有效探索和學(xué)習(xí)，而陷入了一個局部最優(yōu)，導(dǎo)致你貌似學(xué)會了開車但好像又沒有學(xué)會，最終進入到“學(xué)了又好像沒學(xué)”的狀態(tài)。

最后我們回顧一下從道路駕駛的例子中，我們認(rèn)識到了哪些多智能體強化學(xué)習(xí)的概念。首先，我們了解了一種最常見的從合作競爭的角度來分類多智能系統(tǒng)的方法。其次，我們通過學(xué)車的例子認(rèn)識了強化學(xué)習(xí)的基本概念。然后我們從集中和分布的角度了解了學(xué)習(xí)算法結(jié)構(gòu)的分類，最后我們闡述了現(xiàn)階段面臨的幾個挑戰(zhàn)。多智能體深度強化學(xué)習(xí)的總體脈絡(luò)便是如此。各種科研論文就是在這些上面做文章，比如提出新的算法，新的架構(gòu)，新的通訊方式，來解決上述挑戰(zhàn)，或者應(yīng)用到或合作，或競爭，或既競爭又合作的各種場景中。