最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

麻省理工人工智能實(shí)驗(yàn)室新研究!有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法:能預(yù)知未來行為的AI智能體

2022-12-07 10:07 作者:BFT白芙堂機(jī)器人  | 我要投稿

原創(chuàng)/文 BFT機(jī)器人

近日,麻省理工學(xué)院的研究人員開發(fā)出一種新技術(shù),讓AI智能體能夠思考更遠(yuǎn)的未來,尋找更合適的合作與競(jìng)爭(zhēng)長(zhǎng)期解決方案。

想象一個(gè)游戲規(guī)則:兩支足球隊(duì)在球場(chǎng)上PK,玩家們可以選擇相互合作合作來實(shí)現(xiàn)目標(biāo),也可以選擇與其他玩家們競(jìng)爭(zhēng),以取得游戲勝利。

創(chuàng)建一個(gè)可以像人類一樣高效地學(xué)習(xí)競(jìng)爭(zhēng)和合作的AI智能體并不容易,其中具有挑戰(zhàn)性的關(guān)鍵難點(diǎn)是:讓 AI 智能體能夠預(yù)測(cè)其他智能體的未來行為。由于這個(gè)問題的復(fù)雜性,目前的方法機(jī)器學(xué)習(xí)方法往往是短視的;AI智能體只能猜測(cè)隊(duì)友或?qū)κ纸酉聛淼膸讉€(gè)動(dòng)作。這并不利于他們的長(zhǎng)期發(fā)展。

為解決這一難點(diǎn),來自麻省理工學(xué)院、MIT-IBM Watson人工智能實(shí)驗(yàn)室,和其他實(shí)驗(yàn)室的研究人員開發(fā)了一種新方法,為AI智能體提供了一個(gè)更長(zhǎng)遠(yuǎn)的學(xué)習(xí)視角。他們的機(jī)器學(xué)習(xí)框架能使AI智能體,不僅僅能夠考慮其他合作或競(jìng)爭(zhēng)的智能體接下來的幾個(gè)動(dòng)作,而是考慮到他們?cè)诟L(zhǎng)遠(yuǎn)時(shí)間范圍內(nèi)的更多行為。然后,AI智能體會(huì)根據(jù)預(yù)測(cè)到的結(jié)果,相應(yīng)地調(diào)整自身的行為,從而影響其他智能體接下來的行為,并得出最優(yōu)的長(zhǎng)期解決方案。

這個(gè)框架可以用于自動(dòng)無人機(jī)在茂密的森林中尋找迷路的徒步旅行者,或用于自動(dòng)駕駛汽車預(yù)測(cè)高速公路上行駛的其他車輛的動(dòng)線來保護(hù)乘客的安全。

“當(dāng) AI 智能體進(jìn)行合作或競(jìng)爭(zhēng)時(shí),最重要的是它們的行為在未來的某個(gè)時(shí)刻融合。在這一過程中有很多暫時(shí)性的行為,從長(zhǎng)遠(yuǎn)來看并不重要?!拔覀冋嬲P(guān)心的是如何達(dá)到這種融合,現(xiàn)在正好有一種數(shù)學(xué)方法可以實(shí)現(xiàn)。”麻省理工學(xué)院信息與決策系統(tǒng)實(shí)驗(yàn)室 (LIDS) 研究生、一篇描述該框架論文的主要作者Dong-Ki Kim說。

該論文的高級(jí)作者是 Jonathan P. How,他是 Richard C. Maclaurin 航空航天學(xué)教授,也是MIT-IBM Watson人工智能實(shí)驗(yàn)室的成員。論文的共同作者包括MIT-IBM Watson人工智能實(shí)驗(yàn)室、IBM 研究院、Mila-Quebec人工智能研究所和牛津大學(xué)的其他人。這項(xiàng)研究將在神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表。


更多人工智能體,更多問題

研究人員專注于一個(gè)稱為多智能體強(qiáng)化學(xué)習(xí)的問題。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種形式,其中AI 智能體通過反復(fù)試驗(yàn)和試錯(cuò)來進(jìn)行學(xué)習(xí)。研究人員會(huì)對(duì)其幫助實(shí)現(xiàn)其目標(biāo)的“良好”行為給予獎(jiǎng)勵(lì),AI智能體會(huì)調(diào)整其行為以獲得最大化獎(jiǎng)勵(lì),直到它最終成為這項(xiàng)任務(wù)的專家。

但是當(dāng)許多合作或競(jìng)爭(zhēng)的AI智能體同時(shí)學(xué)習(xí)時(shí),事情就會(huì)變得越來越復(fù)雜。隨著AI智能體考慮到更多其他同伴的未來行為,以及他們自己的行為如何影響他人,這個(gè)問題的有效解決就需要更多的計(jì)算能力。這就是為什么其他方法只關(guān)注短期,而忽視未來的原因。

AI真的很想預(yù)測(cè)游戲的結(jié)局,但他們不知道游戲什么時(shí)候結(jié)束。他們需要思考如何不斷地調(diào)整自己的行為,以便在未來某個(gè)遙遠(yuǎn)的時(shí)間點(diǎn)獲勝?!拔覀兊恼撐膶?shí)質(zhì)上提出了一個(gè)新目標(biāo),使 AI 能夠思考無窮大” Kim說。

但是,由于不可能在算法中插入無窮大,研究人員設(shè)計(jì)了他們的系統(tǒng),使AI智能體專注于他們的行為,將與其他AI智能體的行為趨同的一個(gè)未來點(diǎn),稱為平衡點(diǎn)。一個(gè)平衡點(diǎn)決定了AI智能體的長(zhǎng)期表現(xiàn),多智能體場(chǎng)景中可以存在多個(gè)平衡點(diǎn)。因此,一個(gè)有效的AI智能體會(huì)積極影響其他智能體的未來行為,從而使他們從智能體的角度來看達(dá)到一個(gè)理想的平衡點(diǎn)。如果所有智能體都相互影響,他們就會(huì)匯聚成一個(gè)一般的概念,研究人員稱之為“主動(dòng)均衡”。

他們開發(fā)的機(jī)器學(xué)習(xí)框架被稱為 FURTHER(代表通過平均獎(jiǎng)勵(lì)充分加強(qiáng)主動(dòng)影響),使智能體能夠?qū)W習(xí)如何在與其他智能體交互時(shí)調(diào)整自己的行為,以實(shí)現(xiàn)這種主動(dòng)平衡。

FURTHER進(jìn)一步使用兩個(gè)機(jī)器學(xué)習(xí)模塊來做到這一點(diǎn)。第一個(gè)是推理模塊,它使智能體能夠僅根據(jù)其他先前的行為,來猜測(cè)其他智能體的未來行為以及他們使用的學(xué)習(xí)算法。這一信息被輸入強(qiáng)化學(xué)習(xí)模塊,智能體利用該模塊調(diào)整其行為,并以最大化的回報(bào)方式來影響其他智能體。

“挑戰(zhàn)在于思考無限。我們必須使用許多不同的數(shù)學(xué)工具來實(shí)現(xiàn)這一點(diǎn),并做出一些假設(shè),才能使其在實(shí)踐中發(fā)揮作用,”Kim說。


勝利在遠(yuǎn)方

他們?cè)趲追N不同的場(chǎng)景中用他們的方法,針對(duì)其他多智能體強(qiáng)化學(xué)習(xí)框架進(jìn)行了測(cè)試,包括一對(duì)機(jī)器人的相撲式比賽,和兩個(gè) 25智能體團(tuán)隊(duì)的較量。在這兩種情況下,使用 FURTHER 的 AI智能體能更大概率贏得比賽。

Kim解釋說,由于他們的方法是去中心化的,這意味著AI智能體學(xué)會(huì)了獨(dú)立贏得比賽,因此它也比其他需要中央計(jì)算機(jī)控制AI智能體的方法更具可擴(kuò)展性。

研究人員使用游戲來測(cè)試他們的方法,但FURTHER可以用來解決任何類型的多智能體問題。例如,在許多相互作用的權(quán)利具有隨時(shí)間變化的行為和利益的情況下, 經(jīng)濟(jì)學(xué)家可以應(yīng)用它來制定合理的政策。



更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人。

本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問,請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。


麻省理工人工智能實(shí)驗(yàn)室新研究!有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法:能預(yù)知未來行為的AI智能體的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
惠水县| 襄垣县| 太保市| 枣庄市| 吴堡县| 沅陵县| 鲁山县| 五寨县| 西乌| 清涧县| 五华县| 临海市| 六盘水市| 邢台市| 镇沅| 正阳县| 仙居县| 牡丹江市| 上饶市| 黑山县| 横峰县| 方正县| 香港| 鄯善县| 周宁县| 陆川县| 察隅县| 景宁| 罗源县| 克什克腾旗| 黄龙县| 庄河市| 上蔡县| 察隅县| 怀柔区| 哈尔滨市| 门源| 闽清县| 万源市| 日喀则市| 神农架林区|