最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

ModaHub魔搭社區(qū):AI Agent在數(shù)字卡牌游戲場景下的AgentBench基準測試

2023-08-19 10:45 作者:bili_3493262857865840  | 我要投稿

近日,來自清華大學(xué)、俄亥俄州立大學(xué)和加州大學(xué)伯克利分校的研究者設(shè)計了一個測試工具——AgentBench,用于評估LLM在多維度開放式生成環(huán)境中的推理能力和決策能力。研究者對25個LLM進行了全面評估,包括基于API的商業(yè)模型和開源模型。

他們發(fā)現(xiàn),頂級商業(yè)LLM在復(fù)雜環(huán)境中表現(xiàn)出強大的能力,像GPT-4這樣的頂級模型能夠處理寬泛的現(xiàn)實任務(wù),明顯優(yōu)于開源模型。研究者還表示,AgentBench是一個多維動態(tài)基準測試,目前由8個不同的測試場景組成,未來將覆蓋更廣的范圍,更深入地對LLM進行系統(tǒng)性評估。

?圖源:arXiv官網(wǎng)

AgentBench官網(wǎng):www.agentbench.com.cn

?圖注:AgentBench上不同LLM的表現(xiàn)。雖然LLM開始表現(xiàn)出其愈發(fā)成熟的能力,但模型之間的差距很大,要實現(xiàn)實際應(yīng)用仍然任重而道遠。左圖,幾種常見的LLM在AgentBench提供的8種場景中的表現(xiàn)。右圖,AgentBench在8種場景中的總得分。虛線表示開源LLM(綠色)與基于API的LLM(橙色)的平均得分。圖源:來自論文

AgentBench評估哪些場景?

AgentBench包含8個不同的環(huán)境,其中5個是首次使用的環(huán)境:操作系統(tǒng)、數(shù)據(jù)庫、知識圖譜、數(shù)字卡牌游戲、橫向思維謎題(即所謂的“海龜湯”游戲)。其余3個環(huán)境是根據(jù)已發(fā)布的數(shù)據(jù)集重新編譯的,包括家務(wù)、網(wǎng)購、網(wǎng)絡(luò)瀏覽。

上述所有數(shù)據(jù)集都經(jīng)過設(shè)計與調(diào)整,來模擬交互式環(huán)境,使純文本LLM可以作為自主的智能體運行。此外,AgentBench可以系統(tǒng)地評估LLM的核心能力,包括執(zhí)行指令、編碼、獲取知識和邏輯推理能力。

?圖注:AgentBench基本構(gòu)想示意圖。圖源:來自論文

與現(xiàn)有的其他基準測試相比,AgentBench專注于通過思想鏈(Chain-of-Thought,CoT)對LLM進行以實際應(yīng)用為導(dǎo)向的評估。而這些數(shù)據(jù)集大多也代表了LLM未來可能的應(yīng)用前景與發(fā)展方向。

4. 數(shù)字卡牌游戲

游戲,尤其是那些需要策略和規(guī)劃的游戲,可以作為智能體開發(fā)的模擬環(huán)境。然而,之前研究中廣泛使用的是基于文本的游戲,其主要側(cè)重點在于基礎(chǔ)常識。最近的一些研究轉(zhuǎn)而采用現(xiàn)實世界的游戲(例如,MineDojo,一個基于游戲Minecraft的開放式通用人工智能體學(xué)習(xí)平臺)作為環(huán)境,但大多數(shù)需要超出現(xiàn)有LLM的多模式功能。相反,數(shù)字卡牌游戲(例如爐石傳說)則是純文本 LLM 評估的理想選擇。數(shù)字卡牌游戲通常涉及豐富的卡牌文字描述、回合制比賽以及深思熟慮的獲勝策略,這些都在考驗?zāi)P蛯τ螒蛞?guī)則的理解、操作的邏輯性,以及根據(jù)當前情況和過去的游戲經(jīng)驗形成策略決策的能力。在這項工作中,研究者采用了2021年清華大學(xué)智能體大賽(THUAC)中使用的簡化數(shù)字卡牌游戲系統(tǒng)(魚洋陷役,Aquawar),來評估LLM智能體。在“魚洋陷役”中,智能體作為玩家,管理一支具有不同天賦的魚組成的隊伍,以回合制形式與另一隊玩家(由基準智能體控制)作戰(zhàn)。

研究者的評估指標包括對游戲規(guī)則的理解,如完成率和平均非法行為次數(shù),也包括更高級別的戰(zhàn)略指標,如擊敗敵方魚的平均數(shù)量、造成的總傷害,還包括最重要的指標——游戲獲勝率。

?圖注:AgentBench場景示例。圖源:來自論文

數(shù)字卡牌游戲

任務(wù):“在魚洋陷役中使用四張‘魚’卡打敗其他玩家?!?/span>

動作空間:四張“魚”卡和斷言

觀測結(jié)果:戰(zhàn)斗過程、“魚”的狀態(tài)


ModaHub魔搭社區(qū):AI Agent在數(shù)字卡牌游戲場景下的AgentBench基準測試的評論 (共 條)

分享到微博請遵守國家法律
炎陵县| 浦县| 礼泉县| 宜春市| 清远市| 青州市| 福建省| 乌兰浩特市| 南京市| 景东| 杭州市| 寻甸| 财经| 紫云| 图木舒克市| 聊城市| 喀喇沁旗| 连云港市| 甘泉县| 武城县| 榆社县| 保定市| 隆化县| 营口市| 陵川县| 扎兰屯市| 探索| 通渭县| 镇雄县| 盐城市| 赫章县| 牙克石市| 锡林郭勒盟| 呼玛县| 宾阳县| 天祝| 区。| 阳东县| 漳平市| 衡山县| 文登市|