最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

一文了解多智能體強化學(xué)習(xí):以道路駕駛為例

2022-06-07 10:35 作者:西湖大學(xué)空中機器人  | 我要投稿

本文將以道路駕駛為例,一文帶你掌握多智能體深度強化學(xué)習(xí)的脈絡(luò)。

溫馨提示:本文動圖中的部分行為存在風(fēng)險,請勿輕易模仿。

從字面意思就可以理解,區(qū)別于單智能體強化學(xué)習(xí),多智能體強化學(xué)習(xí)指代在一個世界中有多個智能體在一起進行學(xué)習(xí)和演化。這些智能體可以是同構(gòu)(homogeneous) 的,比如說不同的人,也可以是異構(gòu) (heterogeneous) 的, 比如說人和車。

他們在這個世界中或合作 (cooperative),或競爭 (competitive),或既合作又競爭。一個生動的例子就是道路駕駛。假設(shè)你開車行駛在高速上,那么你不僅僅需要控制車輛使自身保持在車道線內(nèi),也需要和同車道上的其他車輛形成合作的關(guān)系。這個合作關(guān)系就是如果前車減速,那么你也要相應(yīng)地減速以保持一百米的安全車距;與此同時,前車也要防止急剎車一類的動作,從而防止后車追尾。在這限速一百二的道路上,前方路況良好視野開闊,你們安心駕駛并且保持著一段時間的這種合作關(guān)系......

突然,你發(fā)現(xiàn)前車降速到了六十碼。你打了遠(yuǎn)光燈甚至按了喇叭提醒前車,但是對方卻無動于衷,于是你很生氣,想要超車:

溫馨提示:同一車道的后車,并到右側(cè)車道,超越前車,再并回原車道屬于違章駕駛。

但是當(dāng)你變道的時候前車也突然加速不想讓你超車。這時你的路怒癥就犯了(注意安全駕駛),你左右試探想找準(zhǔn)時機一腳油門別它。這個時候你們就形成了競爭關(guān)系。

順帶一句,這個競爭關(guān)系出現(xiàn)的原因在于人類非理性(human-irrationality)的存在。但是在強化學(xué)習(xí)中,我們一般都假設(shè)智能體是完全理性的。所以想用強化學(xué)習(xí)預(yù)測股市的朋友們可以放棄這一方案了, 因為不存在完全理性的韭菜。

如果我們抹去人類的非理性,并假設(shè)未來的某一天所有車輛都是自動駕駛,那么這個城市道路上的所有車就是完全合作 (fully cooperative) 的關(guān)系。每一輛車根據(jù)自身感知的信息來做最優(yōu)決策。自身所感知的信息就是強化學(xué)習(xí)中狀態(tài) (state) 的概念。狀態(tài)可以包括目的地航向,前方道路的紅綠燈信息,前車車距和時速,自身時速,方向盤轉(zhuǎn)向,車側(cè)有無行人等等。決策就是強化學(xué)習(xí)中動作 (action) 的概念,可以是加速減速,轉(zhuǎn)左轉(zhuǎn)右,也可以是超車,緊急避讓,彎道漂移等這些宏動作 (macro-action).

當(dāng)然,人類或者自動駕駛系統(tǒng)一開始并不知道怎么開車。所以你得去駕校找教練帶你。那么駕校中的練習(xí)道路就是強化學(xué)習(xí)中的仿真環(huán)境 (simulation environment) 的概念。你在練習(xí)開車的時候如果連最基本的右邊是油門,左邊是剎車都不知道的話,教練可能會罵你,這就是強化學(xué)習(xí)中的獎勵 (reward) 的概念。每被罵一次,你受到心理傷害,獎勵就 -1。當(dāng)然,如果你不小心把剎車當(dāng)油門,一把猛沖把駕校的墻撞壞了:

那么就會導(dǎo)致練車回合 (episode) 的結(jié)束,并受到教練的語言暴力傷害,獎勵 -100,然后 return done = True. 這個時候不要氣餒,給教練買包煙,重新?lián)Q車開始即可。

我們小結(jié)一下,強化學(xué)習(xí)的基本概念,包括環(huán)境 (environment),智能體(agent),狀態(tài)(state),動作(action),獎勵(reward)可以由下面一張圖表述:

src: https://www.guru99.com/reinforcement-learning-tutorial.html


我們回到道路駕駛的例子,根據(jù)前面描述,我們知道在多智能體環(huán)境中,你的策略不僅取決于自身的開車習(xí)慣和道路環(huán)境信息,還取決于其他智能體(前車)策略的影響。但是問題在于你并不知道前車的駕駛習(xí)慣。針對這個問題,一般有三種主要的學(xué)習(xí)算法結(jié)構(gòu)。

  • 第一種是不管其他人,我就在駕校中單獨訓(xùn)練,并把其他智能體看成環(huán)境的一部分。這種學(xué)習(xí)模式叫做獨立式學(xué)習(xí)(independent learning). 這種模式的好處是簡單快捷,即把單智能體的學(xué)習(xí)方法照搬到每一個單獨的智能體即可。但是缺點也很明顯,在同一個環(huán)境中,你在“補習(xí)”的同時,別人也在“補習(xí)”,從而打破了環(huán)境的穩(wěn)態(tài)性(stationarity),結(jié)果就是誰都沒學(xué)好。這種強化學(xué)習(xí)方法在相對離散動作的小規(guī)模多智能體問題中具有一定效果,但是在高維度狀態(tài)-動作空間的復(fù)雜問題中,表現(xiàn)差強人意。

  • 第二種學(xué)習(xí)模式就是集中式(centralized)學(xué)習(xí),即把所有智能體的狀態(tài)和動作集中到一起,形成一個增廣 (augmented) 的狀態(tài)-動作空間,然后使用單智能體算法直接學(xué)習(xí)。這種學(xué)習(xí)方法的問題在于一旦智能體數(shù)量過于龐大,這個增廣空間的大小就會以指數(shù)級增長,以至于智能體無法進行充分的空間探索。與此同時,學(xué)的時候也很累,龐大的狀態(tài)-動作空間需要龐大的神經(jīng)網(wǎng)絡(luò),訓(xùn)練起來費時費力費電。.

  • 除了上述兩種,還有一種學(xué)習(xí)算法結(jié)構(gòu)叫做集中式訓(xùn)練-分布式執(zhí)行 (centralized training decentralized execution). 意思就是訓(xùn)練期間所有的智能體能看到全局信息,就是你也知道別人怎么開車;執(zhí)行的時候每個智能體智僅依靠局部的狀態(tài)信息做決策。這種算法結(jié)構(gòu)雖然在訓(xùn)練的時候比較費力,但是可以實際部署應(yīng)用,因為每個智能體僅依賴局部信息作決策,而不需要復(fù)雜的通訊網(wǎng)絡(luò)和所有其他智能體保持聯(lián)絡(luò)。集中式訓(xùn)練-分布式執(zhí)行的算法框架如下圖:

src: Lowe R, Wu Y I, Tamar A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[J]. Advances in neural information processing systems, 2017, 30.

多智能體強化學(xué)習(xí)也存在著諸多挑戰(zhàn)。我們回想一下道路駕駛的問題,其實就能窺見一二。

  • 首先第一個挑戰(zhàn)就是環(huán)境的非穩(wěn)態(tài)性 (non-stationarity)。你學(xué)我學(xué)他也學(xué),你卷我卷他更卷,使得整體的評價機制/回報函數(shù)的準(zhǔn)確性降低,原本學(xué)會的良好的策略會隨著學(xué)習(xí)過程的推進不斷變差,最終造成你學(xué)了的不再有用,他卷的也白卷。

  • 第二個挑戰(zhàn)在于非完整觀測 (Partial observability), 在大部分的智能體系統(tǒng)中,每個智能體在執(zhí)行過程中無法獲得完整的全局信息,而只能根據(jù)觀測到的局部信息來做一個最優(yōu)決策,如下圖中司機的視野是有個范圍的:


這就是局部可觀測的馬爾科夫過程 (partially observable Markov decision process)。其難點在于整個過程的馬爾科夫性不再完整,使得環(huán)境表現(xiàn)出非馬爾科夫性(non-Markovian)。

  • 第三個挑戰(zhàn)在于學(xué)習(xí)交流方式 (learn communication)。要合作完成某項任務(wù)的時候,智能體間可以通過通訊來交換觀測信息,策略參數(shù)等,比如夜晚雙方會車的時候需要暫時關(guān)閉遠(yuǎn)光燈“以示友好”,或者超車的時候閃幾下遠(yuǎn)光燈提醒前車注意,這種屬于指明通訊內(nèi)容的學(xué)習(xí)方法。


與此相反,現(xiàn)在假設(shè)我們并不知道會車的時候要關(guān)閉遠(yuǎn)光燈,我們的任務(wù)就是要嘗試學(xué)習(xí)一種通信策略,比如讓智能體被晃了幾次眼之后發(fā)現(xiàn)在適當(dāng)?shù)臅r候關(guān)閉遠(yuǎn)光燈可以降低翻車概率,這就是通信策略的學(xué)習(xí),即根據(jù)當(dāng)前觀測給其他智能體發(fā)送什么信息,決定發(fā)送信息的種類,信息的內(nèi)容以及誰來接收這些信息。通訊這個行為也可以被認(rèn)為是一種動作用來建立信息渠道。

  • 第四個就是算法的穩(wěn)定性和收斂性 (convergence) 挑戰(zhàn)。帶來這個挑戰(zhàn)的原因之一就是智能體數(shù)量的增長帶來的探索難度的增加,導(dǎo)致算法難以收斂。原因之二是過擬合問題帶來的收斂到局部最優(yōu)的問題。一個例子就是假設(shè)在某條道路上,除了你之外都是老司機,那么你隨便怎么開車其他老司機都能避讓你:

這種情況下你不再進行有效探索和學(xué)習(xí),而陷入了一個局部最優(yōu),導(dǎo)致你貌似學(xué)會了開車但好像又沒有學(xué)會,最終進入到“學(xué)了又好像沒學(xué)”的狀態(tài)。

最后我們回顧一下從道路駕駛的例子中,我們認(rèn)識到了哪些多智能體強化學(xué)習(xí)的概念。首先,我們了解了一種最常見的從合作競爭的角度來分類多智能系統(tǒng)的方法。其次,我們通過學(xué)車的例子認(rèn)識了強化學(xué)習(xí)的基本概念。然后我們從集中和分布的角度了解了學(xué)習(xí)算法結(jié)構(gòu)的分類,最后我們闡述了現(xiàn)階段面臨的幾個挑戰(zhàn)。多智能體深度強化學(xué)習(xí)的總體脈絡(luò)便是如此。各種科研論文就是在這些上面做文章,比如提出新的算法,新的架構(gòu),新的通訊方式,來解決上述挑戰(zhàn),或者應(yīng)用到或合作,或競爭,或既競爭又合作的各種場景中。

最后的溫馨提示:避免諸如強行超車,加塞等危險博弈動作,因為你僅擁有部分可觀性,且未知其他智能體是否完全理性。道路千萬條,安全第一條。


本文共2850字

由西湖大學(xué)智能無人系統(tǒng)實驗室博士生J L.原創(chuàng)

申請文章授權(quán)請聯(lián)系后臺相關(guān)運營人員

▌微信公眾號:空中機器人前沿

▌知乎:空中機器人前沿(本文鏈接:https://zhuanlan.zhihu.com/p/503103566)

▌Youtube:Aerial robotics @ Westlake University

▌實驗室網(wǎng)站:https://shiyuzhao.westlake.edu.cn/?


一文了解多智能體強化學(xué)習(xí):以道路駕駛為例的評論 (共 條)

分享到微博請遵守國家法律
滨海县| 象州县| 江油市| 沐川县| 绥阳县| 内江市| 驻马店市| 友谊县| 肇东市| 焦作市| 防城港市| 连城县| 绥中县| 福海县| 丹阳市| 砚山县| 原阳县| 乌海市| 六枝特区| 高青县| 通城县| 潞城市| 闻喜县| 叙永县| 康平县| 辽阳市| 隆回县| 张家川| 武威市| 红安县| 靖州| 察雅县| 黑龙江省| 定南县| 察隅县| 乌兰浩特市| 翁源县| 清原| 思茅市| 长沙县| 黎平县|