最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

A Framework for Developing and Evaluating Retrieval-Augmented LL

2023-08-29 20:04 作者:三月phanta  | 我要投稿
  • Title: RALLE: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models (R-LLMs)

  • url:https://arxiv.org/abs/2308.10633v1


  • 論文簡要 :

  • 本文提出了一個名為RALLE的開源框架,用于開發(fā)和評估檢索增強的大型語言模型(R-LLMs),以提高事實問答的準確性。該框架允許開發(fā)人員輕松開發(fā)和評估R-LLMs,改進手工設計的提示,評估單獨的推理過程,并定量地測量整體系統(tǒng)性能。通過利用這些功能,開發(fā)人員可以在知識密集型生成任務中提高R-LLMs的性能和準確性。

  • 背景信息:

  • 論文背景: 大型語言模型(LLMs)在自然語言理解和生成任務中顯示出巨大潛力,但在回答事實性問題時面臨幻覺、過時的參數(shù)化知識和參數(shù)化知識的內(nèi)存效率等挑戰(zhàn)。為了解決這些限制,研究人員轉(zhuǎn)向了檢索增強方法,即將預訓練的大型語言模型(LLMs)與信息檢索系統(tǒng)結(jié)合起來,以提高事實問答的準確性。

  • 過去方案: 現(xiàn)有的用于構(gòu)建R-LLMs的庫提供了高級抽象,但在評估和優(yōu)化特定推理過程(如檢索和生成)中的提示時缺乏足夠的透明度。

  • 論文的Motivation: 為了填補這一空白,本文提出了RALLE,這是一個開源框架,旨在促進開發(fā)、評估和優(yōu)化用于知識密集型任務的R-LLMs。通過RALLE,開發(fā)人員可以輕松開發(fā)和評估R-LLMs,改進手工設計的提示,評估單獨的推理過程,并定量地測量整體系統(tǒng)性能。通過利用這些功能,開發(fā)人員可以在知識密集型生成任務中提高R-LLMs的性能和準確性。

方法:

  • a. 理論背景:

    • 本文介紹了檢索增強型大型語言模型(R-LLMs)的概念,并強調(diào)了當前用于構(gòu)建R-LLMs的庫的局限性。它強調(diào)了在特定推理過程(如檢索和生成)中評估和優(yōu)化提示的透明度的需求。作者提出了RALLE,這是一個開源框架,旨在促進知識密集型任務的R-LLMs的開發(fā)、評估和優(yōu)化。該框架旨在通過允許開發(fā)人員輕松開發(fā)和評估R-LLMs,改進手工制作的提示,評估單個推理過程,并定量衡量整體系統(tǒng)性能來提高R-LLMs的性能和準確性。

  • b. 技術(shù)路線:

    • 在實驗中,使用了檢索器和LLMs來構(gòu)建R-LLMs。R-LLMs中使用的LLMs是經(jīng)過指令調(diào)整的LLMs,溫度參數(shù)設置為零,以實現(xiàn)最佳性能和可重復性。

    • 實驗中使用了兩個LLM模型,Llama2-13B和Llama2-70B。

    • 用于文檔檢索的檢索器包括BM25、e5-large-v28(e5)和multilingual-e5-large9(m-e5)。

    • 使用頁面級R-precision和recall@5指標評估檢索性能。

    • 在KILT中,為每個數(shù)據(jù)集使用自定義的提示模板。

    • 對于實體鏈接任務,使用REWRITE-EL模板進行搜索查詢。

    • 將R-LLMs的下游性能與基準模型BART-large和RAG進行了比較。

    • 構(gòu)建的R-LLMs表現(xiàn)出可接受的準確性水平,并在HoPo和TQA數(shù)據(jù)集上超過了RAG模型的性能。

      模型的工作流程是這樣的:

    • 首先,根據(jù)任務和數(shù)據(jù)集的名稱,選擇一個合適的檢索器和LLM,以及一個提示模板。例如,對于事實檢查任務和FEVER數(shù)據(jù)集,可以選擇BM25作為檢索器,Llama2-70B作為LLM,以及"{claim}是真的嗎?"作為提示模板。

    • 然后,使用檢索器從維基百科段落中檢索出與輸入相關(guān)的文檔。例如,對于輸入"巴黎是法國的首都",可以檢索出包含"巴黎"和"法國"的文檔。

    • 接著,使用LLM根據(jù)提示模板生成輸出。例如,對于輸入"巴黎是法國的首都",可以生成"巴黎是法國的首都是真的。"作為輸出。

    • 最后,將生成的輸出返回給用戶,并報告檢索器和LLM的名稱、提示模板、檢索到的文檔數(shù)量、生成時間等信息。例如,對于輸入"巴黎是法國的首都",可以返回以下信息:巴黎是法國的首都是真的。這個答案是由BM25和Llama2-70B生成的,使用了"{claim}是真的嗎?"作為提示模板。檢索到了10個相關(guān)文檔,生成時間為0.5秒。

  • 結(jié)果:

  • a. 詳細的實驗設置:

    • 實驗結(jié)果顯示,本研究中使用的R-LLMs具有理解檢索文檔和在知識密集型任務上表現(xiàn)良好的能力。

    • 下游評估結(jié)果為改進提供了有價值的見解,例如檢索增強、增加模型規(guī)模和在生成過程中引用更多文檔。然而,一些數(shù)據(jù)集顯示了與這些趨勢相反的異常情況,或者在性能上低于其相應的has_answer百分比。

    • 開發(fā)人員可以通過優(yōu)化推理鏈和提示模板來改進R-LLM,RALLE為此提供了便利。

  • b. 詳細的實驗結(jié)果:

    • 本文介紹了RALLE,這是一個用于開發(fā)和評估檢索增強型語言模型(R-LLMs)的框架。報告了使用開源檢索器和LLMs構(gòu)建的幾個R-LLMs在知識密集型任務上的評估結(jié)果。RALLE在檢索增強型生成研究中提供了重要進展,能夠高效地開發(fā)、評估和改進R-LLMs。希望RALLE能為R-LLMs的最佳實踐的發(fā)展做出貢獻。



A Framework for Developing and Evaluating Retrieval-Augmented LL的評論 (共 條)

分享到微博請遵守國家法律
淳安县| 洛隆县| 平陆县| 碌曲县| 绥宁县| 永康市| 广灵县| 托克逊县| 拉萨市| 永福县| 舟曲县| 恩平市| 福鼎市| 曲阳县| 六盘水市| 滨州市| 通山县| 东莞市| 泸定县| 修武县| 长岛县| 新和县| 诸城市| 青海省| 松溪县| 湟源县| 浦城县| 平度市| 海原县| 安庆市| 云南省| 遂宁市| 互助| 宁陵县| 泰兴市| 徐闻县| 徐汇区| 紫云| 木兰县| 团风县| 拜泉县|