A Framework for Developing and Evaluating Retrieval-Augmented LL
Title: RALLE: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models (R-LLMs)
url:https://arxiv.org/abs/2308.10633v1
論文簡要 :
本文提出了一個名為RALLE的開源框架,用于開發(fā)和評估檢索增強的大型語言模型(R-LLMs),以提高事實問答的準確性。該框架允許開發(fā)人員輕松開發(fā)和評估R-LLMs,改進手工設計的提示,評估單獨的推理過程,并定量地測量整體系統(tǒng)性能。通過利用這些功能,開發(fā)人員可以在知識密集型生成任務中提高R-LLMs的性能和準確性。
背景信息:
論文背景: 大型語言模型(LLMs)在自然語言理解和生成任務中顯示出巨大潛力,但在回答事實性問題時面臨幻覺、過時的參數(shù)化知識和參數(shù)化知識的內(nèi)存效率等挑戰(zhàn)。為了解決這些限制,研究人員轉(zhuǎn)向了檢索增強方法,即將預訓練的大型語言模型(LLMs)與信息檢索系統(tǒng)結(jié)合起來,以提高事實問答的準確性。
過去方案: 現(xiàn)有的用于構(gòu)建R-LLMs的庫提供了高級抽象,但在評估和優(yōu)化特定推理過程(如檢索和生成)中的提示時缺乏足夠的透明度。
論文的Motivation: 為了填補這一空白,本文提出了RALLE,這是一個開源框架,旨在促進開發(fā)、評估和優(yōu)化用于知識密集型任務的R-LLMs。通過RALLE,開發(fā)人員可以輕松開發(fā)和評估R-LLMs,改進手工設計的提示,評估單獨的推理過程,并定量地測量整體系統(tǒng)性能。通過利用這些功能,開發(fā)人員可以在知識密集型生成任務中提高R-LLMs的性能和準確性。

方法:
a. 理論背景:
本文介紹了檢索增強型大型語言模型(R-LLMs)的概念,并強調(diào)了當前用于構(gòu)建R-LLMs的庫的局限性。它強調(diào)了在特定推理過程(如檢索和生成)中評估和優(yōu)化提示的透明度的需求。作者提出了RALLE,這是一個開源框架,旨在促進知識密集型任務的R-LLMs的開發(fā)、評估和優(yōu)化。該框架旨在通過允許開發(fā)人員輕松開發(fā)和評估R-LLMs,改進手工制作的提示,評估單個推理過程,并定量衡量整體系統(tǒng)性能來提高R-LLMs的性能和準確性。
b. 技術(shù)路線:
在實驗中,使用了檢索器和LLMs來構(gòu)建R-LLMs。R-LLMs中使用的LLMs是經(jīng)過指令調(diào)整的LLMs,溫度參數(shù)設置為零,以實現(xiàn)最佳性能和可重復性。
實驗中使用了兩個LLM模型,Llama2-13B和Llama2-70B。
用于文檔檢索的檢索器包括BM25、e5-large-v28(e5)和multilingual-e5-large9(m-e5)。
使用頁面級R-precision和recall@5指標評估檢索性能。
在KILT中,為每個數(shù)據(jù)集使用自定義的提示模板。
對于實體鏈接任務,使用REWRITE-EL模板進行搜索查詢。
將R-LLMs的下游性能與基準模型BART-large和RAG進行了比較。
構(gòu)建的R-LLMs表現(xiàn)出可接受的準確性水平,并在HoPo和TQA數(shù)據(jù)集上超過了RAG模型的性能。
模型的工作流程是這樣的:
首先,根據(jù)任務和數(shù)據(jù)集的名稱,選擇一個合適的檢索器和LLM,以及一個提示模板。例如,對于事實檢查任務和FEVER數(shù)據(jù)集,可以選擇BM25作為檢索器,Llama2-70B作為LLM,以及"{claim}是真的嗎?"作為提示模板。
然后,使用檢索器從維基百科段落中檢索出與輸入相關(guān)的文檔。例如,對于輸入"巴黎是法國的首都",可以檢索出包含"巴黎"和"法國"的文檔。
接著,使用LLM根據(jù)提示模板生成輸出。例如,對于輸入"巴黎是法國的首都",可以生成"巴黎是法國的首都是真的。"作為輸出。
最后,將生成的輸出返回給用戶,并報告檢索器和LLM的名稱、提示模板、檢索到的文檔數(shù)量、生成時間等信息。例如,對于輸入"巴黎是法國的首都",可以返回以下信息:巴黎是法國的首都是真的。這個答案是由BM25和Llama2-70B生成的,使用了"{claim}是真的嗎?"作為提示模板。檢索到了10個相關(guān)文檔,生成時間為0.5秒。
結(jié)果:
a. 詳細的實驗設置:
實驗結(jié)果顯示,本研究中使用的R-LLMs具有理解檢索文檔和在知識密集型任務上表現(xiàn)良好的能力。
下游評估結(jié)果為改進提供了有價值的見解,例如檢索增強、增加模型規(guī)模和在生成過程中引用更多文檔。然而,一些數(shù)據(jù)集顯示了與這些趨勢相反的異常情況,或者在性能上低于其相應的has_answer百分比。
開發(fā)人員可以通過優(yōu)化推理鏈和提示模板來改進R-LLM,RALLE為此提供了便利。
b. 詳細的實驗結(jié)果:
本文介紹了RALLE,這是一個用于開發(fā)和評估檢索增強型語言模型(R-LLMs)的框架。報告了使用開源檢索器和LLMs構(gòu)建的幾個R-LLMs在知識密集型任務上的評估結(jié)果。RALLE在檢索增強型生成研究中提供了重要進展,能夠高效地開發(fā)、評估和改進R-LLMs。希望RALLE能為R-LLMs的最佳實踐的發(fā)展做出貢獻。