最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

AI 大戰(zhàn) AI,一個(gè)深度強(qiáng)化學(xué)習(xí)多智能體競賽系統(tǒng)

2023-03-08 11:34 作者:HuggingFace  | 我要投稿

小伙伴們快看過來!這是一款全新打造的??? AI vs. AI ??——深度強(qiáng)化學(xué)習(xí)多智能體競賽系統(tǒng)。

這個(gè)工具托管在 Space 上,允許我們創(chuàng)建多智能體競賽。它包含三個(gè)元素:

  • 一個(gè)帶匹配算法的 Space,使用后臺(tái)任務(wù)運(yùn)行模型戰(zhàn)斗。

  • 一個(gè)包含結(jié)果的 Dataset。

  • 一個(gè)獲取匹配歷史結(jié)果和顯示模型 LEO 的 Leaderboard。

Hugging Face Space 地址:
https://hf.co/spaces

然后,當(dāng)用戶將一個(gè)訓(xùn)練好的模型推到 Hub 時(shí),它會(huì)獲取評(píng)估和排名。得益于此,我們可以在多智能體環(huán)境中對(duì)你的智能體與其他智能體進(jìn)行評(píng)估。

除了作為一個(gè)托管多智能體競賽的有用工具,我們認(rèn)為這個(gè)工具在多智能體設(shè)置中可以成為一個(gè)?健壯的評(píng)估技術(shù)。通過與許多策略對(duì)抗,你的智能體將根據(jù)廣泛的行為進(jìn)行評(píng)估。這應(yīng)該能讓你很好地了解你的策略的質(zhì)量。

讓我們看看它在我們的第一個(gè)競賽托管: SoccerTwos Challenge 上是如何工作的。

AI vs. AI是怎么工作的?

AI vs. AI 是一個(gè)在 Hugging Face 上開發(fā)的開源工具,對(duì)多智能體環(huán)境下強(qiáng)化學(xué)習(xí)模型的強(qiáng)度進(jìn)行排名。

其思想是通過讓模型之間持續(xù)比賽,并使用比賽結(jié)果來評(píng)估它們與所有其他模型相比的表現(xiàn),從而在不需要經(jīng)典指標(biāo)的情況下了解它們的策略質(zhì)量,從而獲得?對(duì)技能的相對(duì)衡量,而不是客觀衡量。

對(duì)于一個(gè)給定的任務(wù)或環(huán)境,提交的智能體越多,評(píng)分就越有代表性。

為了在一個(gè)競爭的環(huán)境里基于比賽結(jié)果獲得評(píng)分,我們決定根據(jù) ELO 評(píng)分系統(tǒng)進(jìn)行排名。

游戲的核心理念是,在比賽結(jié)束后,雙方玩家的評(píng)分都會(huì)根據(jù)比賽結(jié)果和他們?cè)诒荣惽暗脑u(píng)分進(jìn)行更新。當(dāng)一個(gè)擁有高評(píng)分的用戶打敗一個(gè)擁有低排名的用戶時(shí),他們便不會(huì)獲得太多分?jǐn)?shù)。同樣,在這種情況下,輸家也不會(huì)損失很多分。

相反地,如果一個(gè)低評(píng)級(jí)的玩家擊敗了一個(gè)高評(píng)級(jí)的玩家,這將對(duì)他們的評(píng)級(jí)產(chǎn)生更顯著的影響。

在我們的環(huán)境中,我們盡量保持系統(tǒng)的簡單性,不根據(jù)玩家的初始評(píng)分來改變獲得或失去的數(shù)量。因此,收益和損失總是完全相反的 (例如+10 / -10),平均 ELO 評(píng)分將保持在初始評(píng)分不變。選擇一個(gè)1200 ELO 評(píng)分啟動(dòng)完全是任意的。

如果你想了解更多關(guān)于 ELO 的信息并且查看一些計(jì)算示例,我們?cè)谏疃葟?qiáng)化學(xué)習(xí)課程里寫了一個(gè)解釋。

課程鏈接:
https://hf.co/deep-rl-course/unit7/self-play?fw=pt

使用此評(píng)級(jí),可以?自動(dòng)在具有可對(duì)比強(qiáng)度的模型之間進(jìn)行匹配。你可以有多種方法來創(chuàng)建匹配系統(tǒng),但在這里我們決定保持它相當(dāng)簡單,同時(shí)保證比賽的多樣性最小,并保持大多數(shù)比賽的對(duì)手評(píng)分相當(dāng)接近。

以下是該算法的工作原理:

  1. 從 Hub 上收集所有可用的模型。新模型獲得初始 1200 的評(píng)分,其他的模型保持在以前比賽中得到或失去的評(píng)分。

  2. 從所有這些模型創(chuàng)建一個(gè)隊(duì)列。

  3. 從隊(duì)列中彈出第一個(gè)元素 (模型),然后從 n 個(gè)模型中隨機(jī)抽取另一個(gè)與第一個(gè)模型評(píng)級(jí)最接近的模型。

  4. 通過在環(huán)境中 (例如一個(gè) Unity 可執(zhí)行文件) 加載這兩個(gè)模型來模擬這個(gè)比賽,并收集結(jié)果。對(duì)于這個(gè)實(shí)現(xiàn),我們將結(jié)果發(fā)送到 Hub上的 Hug Face Dataset。

  5. 根據(jù)收到的結(jié)果和 ELO 公式計(jì)算兩個(gè)模型的新評(píng)分。

  6. 繼續(xù)兩個(gè)兩個(gè)地彈出模型并模擬比賽,直到隊(duì)列中只有一個(gè)或零個(gè)模型。

  7. 保存結(jié)果評(píng)分,回到步驟 1。

為了持續(xù)運(yùn)行這個(gè)配對(duì)過程,我們使用?免費(fèi)的 Hug Face Spaces 硬件和一個(gè) Scheduler?來作為后臺(tái)任務(wù)持續(xù)運(yùn)行這個(gè)配對(duì)過程。

Space 還用于獲取每個(gè)以及比賽過的模型的 ELO 評(píng)分,并顯示一個(gè)排行榜,每個(gè)人都可以檢查模型的進(jìn)度。

該過程通常使用幾個(gè) Hugging Face Datasets 來提供數(shù)據(jù)持久性 (這里是匹配歷史和模型評(píng)分)。

因?yàn)檫@個(gè)過程也保存了比賽的歷史,因此可以精確地看到任意給定模型的結(jié)果。例如,這可以讓你檢查為什么你的模型與另一個(gè)模型搏斗,最顯著的是使用另一個(gè)演示 Space 來可視化匹配,就像這個(gè)。

示例地址:
https://hf.co/spaces/unity/ML-Agents-SoccerTwos

目前,這個(gè)實(shí)驗(yàn)是在 MLAgent 環(huán)境 SoccerTwos 下進(jìn)行的,用于 Hugging Face 深度強(qiáng)化學(xué)習(xí)課程,然而,這個(gè)過程和實(shí)現(xiàn)通常是?環(huán)境無關(guān)的,可以用來免費(fèi)評(píng)估廣泛的對(duì)抗性多智能體設(shè)置。

當(dāng)然,需要再次提醒的是,此評(píng)估是提交的智能體實(shí)力之間的相對(duì)評(píng)分,評(píng)分本身?與其他指標(biāo)相比沒有客觀意義。它只表示一個(gè)模型與模型池中其他模型相對(duì)的好壞。盡管如此,如果有足夠大且多樣化的模型池 (以及足夠多的比賽),這種評(píng)估將成為表示模型一般性能的可靠方法。

我們的第一個(gè) AI vs. AI 挑戰(zhàn)實(shí)驗(yàn): SoccerTwos Challenge ?

這個(gè)挑戰(zhàn)是我們免費(fèi)的深度強(qiáng)化學(xué)習(xí)課程的第 7 單元。它開始于 2 月 1 日,計(jì)劃于 4 月 30 日結(jié)束。

如果你感興趣,你不必參加課程就可以加入這個(gè)比賽。你可以在這里開始

???https://hf.co/deep-rl-course/unit7/introduction

在這個(gè)單元,讀者通過訓(xùn)練一個(gè)?2 vs 2 足球隊(duì)?學(xué)習(xí)多智能體強(qiáng)化學(xué)習(xí) (MARL) 的基礎(chǔ)。

用到的環(huán)境是 Unity ML-Agents 團(tuán)隊(duì)制作的。這個(gè)比賽的目標(biāo)是簡單的: 你的隊(duì)伍需要進(jìn)一個(gè)球。要做到這一點(diǎn),他們需要擊敗對(duì)手的團(tuán)隊(duì),并與隊(duì)友合作。

Unity ML-Agents 倉庫地址:
https://github.com/Unity-Technologies/ml-agents

除了排行榜,我們創(chuàng)建了一個(gè) Space 演示,人們可以選擇兩個(gè)隊(duì)伍并可視化它們的比賽。

???https://hf.co/spaces/unity/SoccerTwos

這個(gè)實(shí)驗(yàn)進(jìn)展順利,因?yàn)槲覀円呀?jīng)在排行榜上有 48 個(gè)模型了。

排行榜鏈接:
https://hf.co/spaces/huggingface-projects/AIvsAI-SoccerTwos

我們也創(chuàng)造了一個(gè)叫做 ai-vs-ai-competition 的 Discord 頻道,人們可以與他人交流并分享建議。

結(jié)論,以及下一步

因?yàn)槲覀冮_發(fā)的這個(gè)工具是?環(huán)境無關(guān)的,在未來我們想用 PettingZoo 舉辦更多的挑戰(zhàn)賽和多智能體環(huán)境。如果你有一些想做的環(huán)境或者挑戰(zhàn)賽,不要猶豫,與我們聯(lián)系。

聯(lián)系地址:
thomas.simonini@huggingface.co

在未來,我們將用我們創(chuàng)造的工具和環(huán)境來舉辦多個(gè)多智能體比賽,例如 SnowballFight。

除了稱為一個(gè)舉辦多智能體比賽的有用工具,我們考慮這個(gè)工具也可以在多智能體設(shè)置中成為?一項(xiàng)健壯的評(píng)估技術(shù): 通過與許多策略對(duì)抗,你的智能體將根據(jù)廣泛的行為進(jìn)行評(píng)估,并且你將很好地了解你的策略的質(zhì)量。

保持聯(lián)系的最佳方式是加入我們的 Discord與我們和社區(qū)進(jìn)行交流。

Discord 地址:
http://hf.co/discord/join

引用

引用: 如果你發(fā)現(xiàn)這對(duì)你的學(xué)術(shù)工作是有用的,請(qǐng)考慮引用我們的工作:

BibTeX 引用:

英文原文: https://huggingface.co/blog/aivsai

作者: Carl Cochet、Thomas Simonini

譯者: AIboy1993 (李旭東)

審校、排版: zhongdongy (阿東)


AI 大戰(zhàn) AI,一個(gè)深度強(qiáng)化學(xué)習(xí)多智能體競賽系統(tǒng)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
翁源县| 惠安县| 自治县| 南通市| 安义县| 嘉兴市| 资溪县| 温州市| 大理市| 白银市| 澜沧| 龙陵县| 阆中市| 龙山县| 中牟县| 卢湾区| 镇宁| 阳西县| 莒南县| 翼城县| 凤凰县| 巴青县| 田林县| 凭祥市| 榆林市| 武平县| 陇西县| 盐源县| 察哈| 富民县| 镇江市| 成安县| 荥阳市| 长汀县| 北流市| 舟山市| 广水市| 南昌市| 平舆县| 四川省| 易门县|