最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ModaHub魔搭社區(qū):AI Agent在 知識(shí)圖譜場(chǎng)景下的AgentBench基準(zhǔn)測(cè)試

2023-08-19 10:40 作者:bili_3493262857865840  | 我要投稿

近日,來(lái)自清華大學(xué)、俄亥俄州立大學(xué)和加州大學(xué)伯克利分校的研究者設(shè)計(jì)了一個(gè)測(cè)試工具——AgentBench,用于評(píng)估LLM在多維度開(kāi)放式生成環(huán)境中的推理能力和決策能力。研究者對(duì)25個(gè)LLM進(jìn)行了全面評(píng)估,包括基于API的商業(yè)模型和開(kāi)源模型。

他們發(fā)現(xiàn),頂級(jí)商業(yè)LLM在復(fù)雜環(huán)境中表現(xiàn)出強(qiáng)大的能力,像GPT-4這樣的頂級(jí)模型能夠處理寬泛的現(xiàn)實(shí)任務(wù),明顯優(yōu)于開(kāi)源模型。研究者還表示,AgentBench是一個(gè)多維動(dòng)態(tài)基準(zhǔn)測(cè)試,目前由8個(gè)不同的測(cè)試場(chǎng)景組成,未來(lái)將覆蓋更廣的范圍,更深入地對(duì)LLM進(jìn)行系統(tǒng)性評(píng)估。

?圖源:arXiv官網(wǎng)

AgentBench官網(wǎng):www.agentbench.com.cn

?圖注:AgentBench上不同LLM的表現(xiàn)。雖然LLM開(kāi)始表現(xiàn)出其愈發(fā)成熟的能力,但模型之間的差距很大,要實(shí)現(xiàn)實(shí)際應(yīng)用仍然任重而道遠(yuǎn)。左圖,幾種常見(jiàn)的LLM在AgentBench提供的8種場(chǎng)景中的表現(xiàn)。右圖,AgentBench在8種場(chǎng)景中的總得分。虛線表示開(kāi)源LLM(綠色)與基于API的LLM(橙色)的平均得分。圖源:來(lái)自論文

AgentBench評(píng)估哪些場(chǎng)景?

AgentBench包含8個(gè)不同的環(huán)境,其中5個(gè)是首次使用的環(huán)境:操作系統(tǒng)、數(shù)據(jù)庫(kù)、知識(shí)圖譜、數(shù)字卡牌游戲、橫向思維謎題(即所謂的“海龜湯”游戲)。其余3個(gè)環(huán)境是根據(jù)已發(fā)布的數(shù)據(jù)集重新編譯的,包括家務(wù)、網(wǎng)購(gòu)、網(wǎng)絡(luò)瀏覽。

上述所有數(shù)據(jù)集都經(jīng)過(guò)設(shè)計(jì)與調(diào)整,來(lái)模擬交互式環(huán)境,使純文本LLM可以作為自主的智能體運(yùn)行。此外,AgentBench可以系統(tǒng)地評(píng)估LLM的核心能力,包括執(zhí)行指令、編碼、獲取知識(shí)和邏輯推理能力。

?圖注:AgentBench基本構(gòu)想示意圖。圖源:來(lái)自論文

與現(xiàn)有的其他基準(zhǔn)測(cè)試相比,AgentBench專(zhuān)注于通過(guò)思想鏈(Chain-of-Thought,CoT)對(duì)LLM進(jìn)行以實(shí)際應(yīng)用為導(dǎo)向的評(píng)估。而這些數(shù)據(jù)集大多也代表了LLM未來(lái)可能的應(yīng)用前景與發(fā)展方向。

3. 知識(shí)圖譜

智能體需要具備廣泛的技能才能處理知識(shí)圖譜。首先,它需要理解自然語(yǔ)言及其復(fù)雜和微妙之處。它還應(yīng)該能夠?qū)?fù)雜的任務(wù)分解為更簡(jiǎn)單、更易于管理的模塊。此外,智能體還需要有能力制定計(jì)劃、制定策略并根據(jù)需要進(jìn)行調(diào)整。現(xiàn)在的知識(shí)圖譜通常規(guī)模巨大,致使智能體無(wú)法完全感知整個(gè)圖譜。在這種部分感知的環(huán)境下運(yùn)行,就要求智能體能夠利用不完整的信息做出決策并管理不確定性。這就更加需要智能體在決策中表現(xiàn)出足夠的靈活性和適應(yīng)性??紤]到上述挑戰(zhàn),知識(shí)圖譜可以作為代表性的測(cè)試場(chǎng)來(lái)評(píng)估人工智能體在復(fù)雜的現(xiàn)實(shí)環(huán)境中的決策能力。

為了衡量LLM的決策能力,特別是其在長(zhǎng)期規(guī)劃方面的熟練程度,研究者精心編制了一個(gè)數(shù)據(jù)集,該數(shù)據(jù)集源自FREEBASE上現(xiàn)有的知識(shí)庫(kù)問(wèn)答(KBQA)數(shù)據(jù)集,藉此為L(zhǎng)LM配置了一系列知識(shí)圖譜查詢工具。通過(guò)借助文獻(xiàn)(參考文獻(xiàn)18)中給出的方法,研究者可以為每個(gè)問(wèn)題建立相對(duì)應(yīng)的最佳應(yīng)用工具序列。同時(shí),為了保證任務(wù)的高難度,研究者僅保留那些至少需要調(diào)用5個(gè)工具的問(wèn)題,最終積累了一個(gè)包含1663個(gè)問(wèn)題的數(shù)據(jù)集,用以測(cè)試智能體。

研究者使用F1分?jǐn)?shù)作為主要評(píng)估指標(biāo),通過(guò)比較模型的預(yù)測(cè)答案與標(biāo)準(zhǔn)答案得出:

除了F1分?jǐn)?shù)外,研究者還評(píng)估了結(jié)果的精確匹配率,以及模型生成的動(dòng)作序列的可執(zhí)行性。如果模型的動(dòng)作序列在執(zhí)行時(shí)可產(chǎn)生任意一組答案,則其可執(zhí)行性得分為1.0;如果無(wú)法給出答案,則得分為0。

?圖注:AgentBench場(chǎng)景示例。圖源:來(lái)自論文

知識(shí)圖譜

任務(wù):“查找與颶風(fēng)瑪麗類(lèi)似并影響北美東部的熱帶氣旋?!?/span>

動(dòng)作空間:基本知識(shí)圖譜查詢工具

觀測(cè)結(jié)果:查詢結(jié)果


ModaHub魔搭社區(qū):AI Agent在 知識(shí)圖譜場(chǎng)景下的AgentBench基準(zhǔn)測(cè)試的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
虎林市| 青铜峡市| 象山县| 临漳县| 阿拉善右旗| 沭阳县| 庆元县| 宾川县| 潜江市| 阳朔县| 邵阳市| 远安县| 申扎县| 遵义县| 筠连县| 霍邱县| 康马县| 乾安县| 含山县| 政和县| 介休市| 临高县| 龙海市| 桦甸市| 安吉县| 高要市| 黔东| 隆子县| 如东县| 兴安盟| 资兴市| 固安县| 威宁| 抚松县| 青冈县| 镇原县| 司法| 天台县| 长沙市| 江华| 巴马|