最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ModaHub魔搭社區(qū):AI Agent在數(shù)據(jù)庫場(chǎng)景下的AgentBench基準(zhǔn)測(cè)試

2023-08-19 10:39 作者:bili_3493262857865840  | 我要投稿

近日,來自清華大學(xué)、俄亥俄州立大學(xué)和加州大學(xué)伯克利分校的研究者設(shè)計(jì)了一個(gè)測(cè)試工具——AgentBench,用于評(píng)估LLM在多維度開放式生成環(huán)境中的推理能力和決策能力。研究者對(duì)25個(gè)LLM進(jìn)行了全面評(píng)估,包括基于API的商業(yè)模型和開源模型。

他們發(fā)現(xiàn),頂級(jí)商業(yè)LLM在復(fù)雜環(huán)境中表現(xiàn)出強(qiáng)大的能力,像GPT-4這樣的頂級(jí)模型能夠處理寬泛的現(xiàn)實(shí)任務(wù),明顯優(yōu)于開源模型。研究者還表示,AgentBench是一個(gè)多維動(dòng)態(tài)基準(zhǔn)測(cè)試,目前由8個(gè)不同的測(cè)試場(chǎng)景組成,未來將覆蓋更廣的范圍,更深入地對(duì)LLM進(jìn)行系統(tǒng)性評(píng)估。

?圖源:arXiv官網(wǎng)

AgentBench官網(wǎng):www.agentbench.com.cn

?圖注:AgentBench上不同LLM的表現(xiàn)。雖然LLM開始表現(xiàn)出其愈發(fā)成熟的能力,但模型之間的差距很大,要實(shí)現(xiàn)實(shí)際應(yīng)用仍然任重而道遠(yuǎn)。左圖,幾種常見的LLM在AgentBench提供的8種場(chǎng)景中的表現(xiàn)。右圖,AgentBench在8種場(chǎng)景中的總得分。虛線表示開源LLM(綠色)與基于API的LLM(橙色)的平均得分。圖源:來自論文

AgentBench評(píng)估哪些場(chǎng)景?

AgentBench包含8個(gè)不同的環(huán)境,其中5個(gè)是首次使用的環(huán)境:操作系統(tǒng)、數(shù)據(jù)庫、知識(shí)圖譜、數(shù)字卡牌游戲、橫向思維謎題(即所謂的“海龜湯”游戲)。其余3個(gè)環(huán)境是根據(jù)已發(fā)布的數(shù)據(jù)集重新編譯的,包括家務(wù)、網(wǎng)購、網(wǎng)絡(luò)瀏覽。

上述所有數(shù)據(jù)集都經(jīng)過設(shè)計(jì)與調(diào)整,來模擬交互式環(huán)境,使純文本LLM可以作為自主的智能體運(yùn)行。此外,AgentBench可以系統(tǒng)地評(píng)估LLM的核心能力,包括執(zhí)行指令、編碼、獲取知識(shí)和邏輯推理能力。

?圖注:AgentBench基本構(gòu)想示意圖。圖源:來自論文

與現(xiàn)有的其他基準(zhǔn)測(cè)試相比,AgentBench專注于通過思想鏈(Chain-of-Thought,CoT)對(duì)LLM進(jìn)行以實(shí)際應(yīng)用為導(dǎo)向的評(píng)估。而這些數(shù)據(jù)集大多也代表了LLM未來可能的應(yīng)用前景與發(fā)展方向。

2.數(shù)據(jù)庫

數(shù)據(jù)庫是另一類典型的系統(tǒng),很多用戶都有利用人工智能自動(dòng)與之交互的需求。因此,檢查L(zhǎng)LM通過SQL操作真實(shí)數(shù)據(jù)庫的能力至關(guān)重要。先前的研究非常重視SQL和自然語言之間的轉(zhuǎn)換,或者回答給定單個(gè)小型數(shù)據(jù)庫表格中的問題。然而,在AgentBench中,研究者則是在真實(shí)的SQL接口和數(shù)據(jù)庫上評(píng)估LLM,來模擬現(xiàn)實(shí)世界中的場(chǎng)景。

研究者通過合并幾個(gè)已有的數(shù)據(jù)庫(WikiSQL、WikiTableQuestions、SQA、HybridaQA和FeTaQA)來獲取查詢(query)及數(shù)據(jù)庫相關(guān)信息,從而確保指令和數(shù)據(jù)的多樣性。為了進(jìn)一步豐富數(shù)據(jù)集并避免發(fā)生泄漏(leakage),研究者使用gpt-3.5-turbo來執(zhí)行數(shù)據(jù)增強(qiáng)。在提供表頭信息和原始行后,gpt-3.5-turbo會(huì)新生成10行數(shù)據(jù)。使用名稱、表頭信息和一些SQL示例,研究者要求gpt-3.5-turbo生成5個(gè)額外的SQL查詢。然后,將獲取的SQL語句依此輸入gpt-3.5-turbo中,并要求其在不改變?cè)己x的基礎(chǔ)上重寫這些語句。最終的數(shù)據(jù)集包含1599個(gè)條目,包含3種基本的數(shù)據(jù)庫操作:選擇、插入或更新。研究者最終統(tǒng)計(jì)LLM完成指令的成功率。總體成功率是上述3種操作成功率的平均值。

?圖注:AgentBench場(chǎng)景示例。圖源:來自論文

數(shù)據(jù)庫

任務(wù):已知奧運(yùn)獎(jiǎng)牌表,提問“美國的獎(jiǎng)牌總數(shù)是多少?”

動(dòng)作空間:任何有效的SQL命令

觀測(cè)結(jié)果:MySQL命令行界面輸出


ModaHub魔搭社區(qū):AI Agent在數(shù)據(jù)庫場(chǎng)景下的AgentBench基準(zhǔn)測(cè)試的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
定边县| 新龙县| 汽车| 仪征市| 金乡县| 山丹县| 琼结县| 会昌县| 得荣县| 屏东县| 玉田县| 洛宁县| 安化县| 嫩江县| 萨嘎县| 抚州市| 泗水县| 新田县| 玉环县| 治县。| 永靖县| 泰州市| 西丰县| 当涂县| 德惠市| 来安县| 沈阳市| 定西市| 合川市| 筠连县| 罗平县| 安顺市| 乐清市| 万盛区| 通城县| 天台县| 澳门| 盐津县| 安龙县| 开封县| 馆陶县|