散文網(wǎng) » 科技 »學(xué)習(xí) » 麻省理工人工智能實(shí)驗(yàn)室新研究！有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法：能預(yù)知未來行為的AI智能體

麻省理工人工智能實(shí)驗(yàn)室新研究！有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法：能預(yù)知未來行為的AI智能體

2022-12-07 10:07 作者:BFT白芙堂機(jī)器人 0人讀過 | 我要投稿

原創(chuàng)/文 BFT機(jī)器人

近日，麻省理工學(xué)院的研究人員開發(fā)出一種新技術(shù)，讓AI智能體能夠思考更遠(yuǎn)的未來，尋找更合適的合作與競(jìng)爭(zhēng)長(zhǎng)期解決方案。

想象一個(gè)游戲規(guī)則：兩支足球隊(duì)在球場(chǎng)上PK，玩家們可以選擇相互合作合作來實(shí)現(xiàn)目標(biāo)，也可以選擇與其他玩家們競(jìng)爭(zhēng)，以取得游戲勝利。

創(chuàng)建一個(gè)可以像人類一樣高效地學(xué)習(xí)競(jìng)爭(zhēng)和合作的AI智能體并不容易，其中具有挑戰(zhàn)性的關(guān)鍵難點(diǎn)是：讓 AI 智能體能夠預(yù)測(cè)其他智能體的未來行為。由于這個(gè)問題的復(fù)雜性，目前的方法機(jī)器學(xué)習(xí)方法往往是短視的；AI智能體只能猜測(cè)隊(duì)友或?qū)κ纸酉聛淼膸讉€(gè)動(dòng)作。這并不利于他們的長(zhǎng)期發(fā)展。

為解決這一難點(diǎn)，來自麻省理工學(xué)院、MIT-IBM Watson人工智能實(shí)驗(yàn)室，和其他實(shí)驗(yàn)室的研究人員開發(fā)了一種新方法，為AI智能體提供了一個(gè)更長(zhǎng)遠(yuǎn)的學(xué)習(xí)視角。他們的機(jī)器學(xué)習(xí)框架能使AI智能體，不僅僅能夠考慮其他合作或競(jìng)爭(zhēng)的智能體接下來的幾個(gè)動(dòng)作，而是考慮到他們?cè)诟L(zhǎng)遠(yuǎn)時(shí)間范圍內(nèi)的更多行為。然后，AI智能體會(huì)根據(jù)預(yù)測(cè)到的結(jié)果，相應(yīng)地調(diào)整自身的行為，從而影響其他智能體接下來的行為，并得出最優(yōu)的長(zhǎng)期解決方案。

這個(gè)框架可以用于自動(dòng)無人機(jī)在茂密的森林中尋找迷路的徒步旅行者，或用于自動(dòng)駕駛汽車預(yù)測(cè)高速公路上行駛的其他車輛的動(dòng)線來保護(hù)乘客的安全。

“當(dāng) AI 智能體進(jìn)行合作或競(jìng)爭(zhēng)時(shí)，最重要的是它們的行為在未來的某個(gè)時(shí)刻融合。在這一過程中有很多暫時(shí)性的行為，從長(zhǎng)遠(yuǎn)來看并不重要?！拔覀冋嬲P(guān)心的是如何達(dá)到這種融合，現(xiàn)在正好有一種數(shù)學(xué)方法可以實(shí)現(xiàn)。”麻省理工學(xué)院信息與決策系統(tǒng)實(shí)驗(yàn)室 (LIDS) 研究生、一篇描述該框架論文的主要作者Dong-Ki Kim說。

該論文的高級(jí)作者是 Jonathan P. How，他是 Richard C. Maclaurin 航空航天學(xué)教授，也是MIT-IBM Watson人工智能實(shí)驗(yàn)室的成員。論文的共同作者包括MIT-IBM Watson人工智能實(shí)驗(yàn)室、IBM 研究院、Mila-Quebec人工智能研究所和牛津大學(xué)的其他人。這項(xiàng)研究將在神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表。

更多人工智能體，更多問題

研究人員專注于一個(gè)稱為多智能體強(qiáng)化學(xué)習(xí)的問題。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種形式，其中AI 智能體通過反復(fù)試驗(yàn)和試錯(cuò)來進(jìn)行學(xué)習(xí)。研究人員會(huì)對(duì)其幫助實(shí)現(xiàn)其目標(biāo)的“良好”行為給予獎(jiǎng)勵(lì)，AI智能體會(huì)調(diào)整其行為以獲得最大化獎(jiǎng)勵(lì)，直到它最終成為這項(xiàng)任務(wù)的專家。

但是當(dāng)許多合作或競(jìng)爭(zhēng)的AI智能體同時(shí)學(xué)習(xí)時(shí)，事情就會(huì)變得越來越復(fù)雜。隨著AI智能體考慮到更多其他同伴的未來行為，以及他們自己的行為如何影響他人，這個(gè)問題的有效解決就需要更多的計(jì)算能力。這就是為什么其他方法只關(guān)注短期，而忽視未來的原因。

AI真的很想預(yù)測(cè)游戲的結(jié)局，但他們不知道游戲什么時(shí)候結(jié)束。他們需要思考如何不斷地調(diào)整自己的行為，以便在未來某個(gè)遙遠(yuǎn)的時(shí)間點(diǎn)獲勝?！拔覀兊恼撐膶?shí)質(zhì)上提出了一個(gè)新目標(biāo)，使 AI 能夠思考無窮大” Kim說。

但是，由于不可能在算法中插入無窮大，研究人員設(shè)計(jì)了他們的系統(tǒng)，使AI智能體專注于他們的行為，將與其他AI智能體的行為趨同的一個(gè)未來點(diǎn)，稱為平衡點(diǎn)。一個(gè)平衡點(diǎn)決定了AI智能體的長(zhǎng)期表現(xiàn)，多智能體場(chǎng)景中可以存在多個(gè)平衡點(diǎn)。因此，一個(gè)有效的AI智能體會(huì)積極影響其他智能體的未來行為，從而使他們從智能體的角度來看達(dá)到一個(gè)理想的平衡點(diǎn)。如果所有智能體都相互影響，他們就會(huì)匯聚成一個(gè)一般的概念，研究人員稱之為“主動(dòng)均衡”。

他們開發(fā)的機(jī)器學(xué)習(xí)框架被稱為 FURTHER（代表通過平均獎(jiǎng)勵(lì)充分加強(qiáng)主動(dòng)影響），使智能體能夠?qū)W習(xí)如何在與其他智能體交互時(shí)調(diào)整自己的行為，以實(shí)現(xiàn)這種主動(dòng)平衡。

FURTHER進(jìn)一步使用兩個(gè)機(jī)器學(xué)習(xí)模塊來做到這一點(diǎn)。第一個(gè)是推理模塊，它使智能體能夠僅根據(jù)其他先前的行為，來猜測(cè)其他智能體的未來行為以及他們使用的學(xué)習(xí)算法。這一信息被輸入強(qiáng)化學(xué)習(xí)模塊，智能體利用該模塊調(diào)整其行為，并以最大化的回報(bào)方式來影響其他智能體。

“挑戰(zhàn)在于思考無限。我們必須使用許多不同的數(shù)學(xué)工具來實(shí)現(xiàn)這一點(diǎn)，并做出一些假設(shè)，才能使其在實(shí)踐中發(fā)揮作用，”Kim說。

勝利在遠(yuǎn)方

他們?cè)趲追N不同的場(chǎng)景中用他們的方法，針對(duì)其他多智能體強(qiáng)化學(xué)習(xí)框架進(jìn)行了測(cè)試，包括一對(duì)機(jī)器人的相撲式比賽，和兩個(gè) 25智能體團(tuán)隊(duì)的較量。在這兩種情況下，使用 FURTHER 的 AI智能體能更大概率贏得比賽。

Kim解釋說，由于他們的方法是去中心化的，這意味著AI智能體學(xué)會(huì)了獨(dú)立贏得比賽，因此它也比其他需要中央計(jì)算機(jī)控制AI智能體的方法更具可擴(kuò)展性。

研究人員使用游戲來測(cè)試他們的方法，但FURTHER可以用來解決任何類型的多智能體問題。例如，在許多相互作用的權(quán)利具有隨時(shí)間變化的行為和利益的情況下，經(jīng)濟(jì)學(xué)家可以應(yīng)用它來制定合理的政策。

更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào)：BFT機(jī)器人。

本文為原創(chuàng)文章，版權(quán)歸BFT機(jī)器人所有，如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問，請(qǐng)與我們聯(lián)系，將及時(shí)回應(yīng)。

標(biāo)簽：

麻省理工人工智能實(shí)驗(yàn)室新研究！有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法：能預(yù)知未來行為的AI智能體的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

麻省理工人工智能實(shí)驗(yàn)室新研究！有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法：能預(yù)知未來行為的AI智能體

麻省理工人工智能實(shí)驗(yàn)室新研究！有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法：能預(yù)知未來行為的AI智能體的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

麻省理工人工智能實(shí)驗(yàn)室新研究！有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法：能預(yù)知未來行為的AI智能體

本文作者的其他文章

麻省理工人工智能實(shí)驗(yàn)室新研究！有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法：能預(yù)知未來行為的AI智能體的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

麻省理工人工智能實(shí)驗(yàn)室新研究！有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法：能預(yù)知未來行為的AI智能體

麻省理工人工智能實(shí)驗(yàn)室新研究！有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法：能預(yù)知未來行為的AI智能體的評(píng)論 (共條)