Self-RAG:通過(guò)自我反思學(xué)習(xí)檢索、生成和批判
Basic Information:
Title: SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION (自我反思:通過(guò)自我反思學(xué)習(xí)檢索、生成和批判)
Authors: Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
Affiliation: University of Washington, Allen Institute for AI, IBM Research AI (華盛頓大學(xué), Allen人工智能研究所, IBM研究人工智能)
Keywords: large language models, retrieval-augmented generation, self-reflection, factuality, citation accuracy (大型語(yǔ)言模型, 檢索增強(qiáng)生成, 自我反思, 真實(shí)性, 引用準(zhǔn)確性)
URLs:?https://arxiv.org/abs/2310.11511v1
論文簡(jiǎn)要 :
本研究提出了一種名為SELF-RAG的新框架,通過(guò)檢索和自我反思來(lái)提高大型語(yǔ)言模型的質(zhì)量和真實(shí)性。實(shí)驗(yàn)證明,SELF-RAG在多個(gè)任務(wù)上顯著優(yōu)于現(xiàn)有模型,并在長(zhǎng)篇生成中改善了真實(shí)性和引用準(zhǔn)確性。
背景信息:
論文背景: 盡管大型語(yǔ)言模型具有出色的能力,但由于完全依賴其參數(shù)化知識(shí),常常會(huì)產(chǎn)生包含事實(shí)錯(cuò)誤的回答。檢索增強(qiáng)生成(RAG)方法通過(guò)檢索相關(guān)知識(shí)來(lái)減少這些問(wèn)題,但無(wú)論是否需要檢索或相關(guān)段落是否相關(guān),都會(huì)不加選擇地檢索和合并固定數(shù)量的檢索段落,從而降低了語(yǔ)言模型的多樣性或?qū)е聼o(wú)用的回答生成。
過(guò)去方案: 過(guò)去的RAG方法常常在生成之前只檢索一次,而且沒(méi)有明確訓(xùn)練模型利用提供的段落中的事實(shí)。這些方法在運(yùn)行效率、對(duì)無(wú)關(guān)上下文的魯棒性和缺乏歸因方面存在問(wèn)題。
論文的Motivation: 本研究旨在通過(guò)自我反思來(lái)提高大型語(yǔ)言模型的生成質(zhì)量和真實(shí)性,同時(shí)保持其多樣性。通過(guò)訓(xùn)練一個(gè)任意的語(yǔ)言模型,使其能夠根據(jù)任務(wù)需求自適應(yīng)地檢索段落,并使用特殊的反思標(biāo)記對(duì)檢索到的段落和自身生成的內(nèi)容進(jìn)行生成和反思。這種方法使得語(yǔ)言模型在推理階段具有可控性,能夠根據(jù)不同的任務(wù)要求調(diào)整其行為。實(shí)驗(yàn)證明,SELF-RAG在多個(gè)任務(wù)上顯著優(yōu)于現(xiàn)有模型,并在長(zhǎng)篇生成中改善了真實(shí)性和引用準(zhǔn)確性。
方法:
a. 理論背景:
本文介紹了一種名為自我反思檢索增強(qiáng)生成(Self-Reflective Retrieval-Augmented Generation, SELF-RAG)的新框架,通過(guò)檢索和自我反思來(lái)提高大型語(yǔ)言模型(Large Language Models, LLMs)的質(zhì)量和事實(shí)性。該框架訓(xùn)練一個(gè)單一的語(yǔ)言模型(LM),以自適應(yīng)地檢索段落、生成和反思檢索到的段落以及自身生成的文本,使用反思標(biāo)記。實(shí)驗(yàn)證明,SELF-RAG在各種任務(wù)上優(yōu)于最先進(jìn)的LLMs和檢索增強(qiáng)模型,提高了長(zhǎng)篇生成文本的事實(shí)性和引用準(zhǔn)確性。
b. 技術(shù)路線:
SELF-RAG框架包括兩個(gè)模型的訓(xùn)練過(guò)程:評(píng)論模型和生成模型。評(píng)論模型用于評(píng)估檢索到的段落和任務(wù)輸出的質(zhì)量,生成模型則通過(guò)訓(xùn)練來(lái)生成帶有反思標(biāo)記的文本。評(píng)論模型的訓(xùn)練過(guò)程涉及收集評(píng)論模型的監(jiān)督數(shù)據(jù),并使用條件語(yǔ)言建模目標(biāo)進(jìn)行訓(xùn)練。生成模型則使用傳統(tǒng)的語(yǔ)言模型目標(biāo)進(jìn)行訓(xùn)練,以便在推理時(shí)能夠生成反思標(biāo)記。
該研究旨在提高LLM輸出的事實(shí)性,以解決當(dāng)前存在的許多現(xiàn)實(shí)問(wèn)題,例如信息誤傳和提供不正確和危險(xiǎn)的建議。研究方法在性能、事實(shí)性和引用準(zhǔn)確性方面取得了顯著改進(jìn),但仍可能生成不完全由引用支持的輸出。
提出了一個(gè)新的框架,叫做
自反饋檢索增強(qiáng)生成
(SELF-RAG),它通過(guò)檢索和自我反思來(lái)提高語(yǔ)言模型的生成質(zhì)量和事實(shí)準(zhǔn)確性。
設(shè)計(jì)了一種特殊的
反思標(biāo)記
,用來(lái)指示檢索的需求和生成的質(zhì)量,包括相關(guān)性、支持度、完整度和效用。
采用了一種端到端的訓(xùn)練方法,讓一個(gè)任意的語(yǔ)言模型學(xué)習(xí)在生成過(guò)程中使用反思標(biāo)記,同時(shí)利用一個(gè)
批評(píng)模型
來(lái)離線地為原始語(yǔ)料插入反思標(biāo)記和檢索的文本片段。
提出了一種可定制的解碼算法,利用反思標(biāo)記的預(yù)測(cè)來(lái)滿足不同的任務(wù)要求,例如調(diào)節(jié)檢索的頻率和選擇最佳的生成結(jié)果。
在六個(gè)不同的任務(wù)上進(jìn)行了實(shí)驗(yàn),證明了SELF-RAG相比于現(xiàn)有的語(yǔ)言模型和檢索增強(qiáng)模型有顯著的優(yōu)勢(shì),尤其是在提高生成的事實(shí)準(zhǔn)確性和引用準(zhǔn)確性方面。
結(jié)果:
a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:
訓(xùn)練數(shù)據(jù)包括多樣的指令-輸出對(duì),共使用了150k個(gè)指令-輸出對(duì)進(jìn)行訓(xùn)練。生成模型的基礎(chǔ)語(yǔ)言模型是Llama2 7B和13B,評(píng)論模型的基礎(chǔ)語(yǔ)言模型是Llama2 7B。檢索模型使用Contriever-MS MARCO模型,并為每個(gè)輸入檢索最多十個(gè)文檔。實(shí)驗(yàn)評(píng)估了提出的SELF-RAG方法,并與各種基準(zhǔn)模型在不同的下游任務(wù)上進(jìn)行了比較。評(píng)估指標(biāo)包括準(zhǔn)確性、事實(shí)性、流暢性和其他任務(wù)特定的指標(biāo)。進(jìn)行了零樣本評(píng)估,即提供指令但沒(méi)有進(jìn)行少樣本演示。實(shí)驗(yàn)細(xì)節(jié)可以在附錄中找到。
b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:
實(shí)驗(yàn)結(jié)果表明,SELF-RAG在各種下游任務(wù)上優(yōu)于基準(zhǔn)模型。生成的輸出的準(zhǔn)確性、事實(shí)性和流暢性相比其他模型都有顯著提高。檢索增強(qiáng)的基準(zhǔn)模型相對(duì)于沒(méi)有檢索的基準(zhǔn)模型也顯示出了改進(jìn)的性能。同時(shí),使用檢索到的文本段落進(jìn)行訓(xùn)練的并行方法也取得了競(jìng)爭(zhēng)性的結(jié)果。具體的性能指標(biāo)和比較結(jié)果可以在附錄中找到。