Fine-tune the Entire RAG Architecture (including DPR retriever)
Title: Fine-tune the Entire RAG Architecture (including DPR retriever) for Question-Answering
論文簡(jiǎn)要 :
本文介紹了如何對(duì)檢索增強(qiáng)生成(RAG)架構(gòu)進(jìn)行端到端的微調(diào),包括DPR檢索器。通過解決工程挑戰(zhàn),實(shí)現(xiàn)了整個(gè)RAG架構(gòu)的端到端微調(diào),并與原始RAG架構(gòu)進(jìn)行了比較,證明了端到端RAG架構(gòu)在問答任務(wù)中的優(yōu)越性能。
背景信息:
論文背景: 本文介紹了一種名為Retrieval Augmented Generation(RAG)的NLP模型,該模型可以使用外部知識(shí)庫中的一組支持文檔作為潛在變量來生成最終輸出。RAG模型由輸入編碼器、神經(jīng)檢索器和輸出生成器組成,其中所有三個(gè)組件都使用預(yù)訓(xùn)練的transformers進(jìn)行初始化。
過去方案: 原始的Hugging Face實(shí)現(xiàn)只允許對(duì)輸入編碼器和輸出生成器進(jìn)行端到端微調(diào),而神經(jīng)檢索器需要單獨(dú)訓(xùn)練。迄今為止,尚不存在訓(xùn)練所有三個(gè)組件的端到端RAG實(shí)現(xiàn)。
論文的Motivation: 本文的動(dòng)機(jī)在于擴(kuò)展RAG實(shí)現(xiàn),實(shí)現(xiàn)對(duì)整個(gè)RAG架構(gòu)的端到端微調(diào)。雖然這看起來很簡(jiǎn)單,但需要解決許多工程挑戰(zhàn)。
方法:
a. 理論背景:
本文介紹了檢索增強(qiáng)生成(RAG)的概念,并強(qiáng)調(diào)了原始RAG實(shí)現(xiàn)的局限性。作者提出了一種新的方法,使整個(gè)RAG架構(gòu)可以以端到端的方式進(jìn)行訓(xùn)練。他們強(qiáng)調(diào)了對(duì)整個(gè)RAG檢索器進(jìn)行微調(diào)的重要性,并討論了實(shí)現(xiàn)這一目標(biāo)所涉及的工程挑戰(zhàn)。作者還比較了原始RAG和端到端RAG在問答任務(wù)上的性能,并提供了開源實(shí)現(xiàn)。
b. 技術(shù)路線:
作者重點(diǎn)關(guān)注RAG檢索器,該檢索器由預(yù)訓(xùn)練的Dense Passage Retrieval(DPR)模型組成。他們解釋說,在原始的RAG實(shí)現(xiàn)中,只有問題編碼器是可訓(xùn)練的,而段落編碼器是凍結(jié)的。然而,在他們的方法中,他們也使段落編碼器可訓(xùn)練。他們描述了使用段落編碼器對(duì)外部知識(shí)庫(KB)進(jìn)行編碼的過程,以及使用聚類等近似方法來加速檢索階段。他們還提到了對(duì)整個(gè)RAG檢索器進(jìn)行領(lǐng)域適應(yīng)的訓(xùn)練的重要性。
結(jié)果:
a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:
作者使用SQuAD數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),評(píng)估了他們的端到端訓(xùn)練擴(kuò)展的有效性。他們使用SQuAD數(shù)據(jù)集中的上下文段落創(chuàng)建了一個(gè)知識(shí)庫,并使用標(biāo)準(zhǔn)的訓(xùn)練和驗(yàn)證集對(duì)模型進(jìn)行了訓(xùn)練和評(píng)估。