REALM: Retrieval-Augmented Language Model Pre-Training
URLs:?https://arxiv.org/abs/2002.08909v1
論文簡(jiǎn)要 :
本文提出了一種增強(qiáng)檢索的語(yǔ)言模型預(yù)訓(xùn)練方法(REALM),通過(guò)引入一個(gè)學(xué)習(xí)的文本知識(shí)檢索器,使語(yǔ)言模型能夠從大規(guī)模語(yǔ)料庫(kù)中檢索和關(guān)注文檔,以提高其預(yù)測(cè)能力。在開放領(lǐng)域問(wèn)答任務(wù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明REALM在準(zhǔn)確性、可解釋性和模塊化性方面均優(yōu)于現(xiàn)有方法。
背景信息:
論文背景: 近年來(lái),語(yǔ)言模型預(yù)訓(xùn)練方法已經(jīng)顯示出對(duì)世界知識(shí)的驚人捕捉能力,這對(duì)于自然語(yǔ)言處理任務(wù)(如問(wèn)答)至關(guān)重要。然而,這種知識(shí)存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)的參數(shù)中,難以確定存儲(chǔ)的知識(shí)內(nèi)容和位置,并且網(wǎng)絡(luò)大小受限,無(wú)法涵蓋更多的世界知識(shí)。
過(guò)去方案: 為了更加模塊化和可解釋地捕捉知識(shí),本文提出了一種新穎的框架,即增強(qiáng)檢索的語(yǔ)言模型預(yù)訓(xùn)練(REALM),通過(guò)引入一個(gè)學(xué)習(xí)的文本知識(shí)檢索器,使語(yǔ)言模型能夠在推理過(guò)程中檢索和關(guān)注大規(guī)模語(yǔ)料庫(kù)中的文檔。以往的工作中,雖然也有將檢索步驟引入神經(jīng)網(wǎng)絡(luò)的研究,但并未應(yīng)用于語(yǔ)言模型預(yù)訓(xùn)練,并且使用的檢索器是非學(xué)習(xí)的,無(wú)法處理大規(guī)模文檔集合。
論文的Motivation: 本文的動(dòng)機(jī)是為了解決語(yǔ)言模型預(yù)訓(xùn)練中的知識(shí)存儲(chǔ)和檢索問(wèn)題。通過(guò)引入一個(gè)學(xué)習(xí)的文本知識(shí)檢索器,REALM能夠更加模塊化和可解釋地捕捉世界知識(shí),并且能夠在推理過(guò)程中檢索和關(guān)注大規(guī)模語(yǔ)料庫(kù)中的文檔,從而提高預(yù)測(cè)能力。
方法:
a. 理論背景:
本文介紹了檢索增強(qiáng)語(yǔ)言模型(Retrieval-Augmented Language Model,REALM)預(yù)訓(xùn)練的概念,將語(yǔ)言模型預(yù)訓(xùn)練與學(xué)習(xí)的文本知識(shí)檢索器相結(jié)合。作者強(qiáng)調(diào)了將知識(shí)隱式存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)參數(shù)中的局限性,并提出了一種更模塊化和可解釋的方法。他們描述了如何使用掩碼語(yǔ)言建模和通過(guò)檢索步驟進(jìn)行反向傳播的無(wú)監(jiān)督方式來(lái)訓(xùn)練檢索器。作者還提到了將大規(guī)模神經(jīng)檢索模塊納入計(jì)算的挑戰(zhàn),并解釋了他們?nèi)绾谓鉀Q這些挑戰(zhàn)。
b. 技術(shù)路線:
REALM的方法受到了檢索-預(yù)測(cè)范式的啟發(fā),并將其擴(kuò)展到語(yǔ)言模型預(yù)訓(xùn)練。它與兩種范式的最先進(jìn)系統(tǒng)進(jìn)行了比較。該方法將REALM的預(yù)訓(xùn)練和微調(diào)任務(wù)形式化為一個(gè)檢索-預(yù)測(cè)生成過(guò)程。它將生成過(guò)程分解為兩個(gè)步驟:檢索,然后預(yù)測(cè)。它從知識(shí)語(yǔ)料庫(kù)中檢索有用的文檔,并在生成輸出之前對(duì)檢索到的文檔和原始輸入進(jìn)行條件編碼。模型架構(gòu)包括一個(gè)神經(jīng)知識(shí)檢索器和一個(gè)知識(shí)增強(qiáng)編碼器。檢索器使用密集內(nèi)積模型來(lái)檢索相關(guān)文檔,而編碼器在預(yù)測(cè)輸出之前在輸入和檢索到的文檔之間執(zhí)行豐富的交叉注意力。訓(xùn)練過(guò)程涉及最大化正確輸出的對(duì)數(shù)似然,并使用top-k近似來(lái)近似知識(shí)語(yǔ)料庫(kù)中所有文檔的總和。通過(guò)使用最大內(nèi)積搜索(MIPS)算法來(lái)找到近似的top-k文檔來(lái)解決計(jì)算挑戰(zhàn)。MIPS索引異步刷新以保持與模型參數(shù)的一致性。
結(jié)果:
a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:
作者在實(shí)驗(yàn)中使用異步刷新進(jìn)行預(yù)訓(xùn)練,但不用于微調(diào)。為了簡(jiǎn)化,他們只構(gòu)建了一次MIPS索引,并且不更新Embeddoc。
REALM中的檢索器學(xué)習(xí)獎(jiǎng)勵(lì)改善預(yù)測(cè)準(zhǔn)確性的檢索。
分析了與知識(shí)檢索器參數(shù)θ相關(guān)的梯度,以了解梯度下降的單步如何改變分配給文檔的相關(guān)性分?jǐn)?shù)。
梯度鼓勵(lì)檢索器通過(guò)r(z)改變分?jǐn)?shù),如果使用文檔z預(yù)測(cè)正確輸出的概率高于不使用z預(yù)測(cè)的概率,則r(z)為正。
采用多種策略引導(dǎo)模型朝著有意義的檢索方向發(fā)展,包括顯著跨度掩碼、添加空文檔、禁止瑣碎檢索和熱啟動(dòng)嵌入。
作者使用NaturalQuestions-Open、WebQuestions和CuratedTrec等基準(zhǔn)測(cè)試了他們的方法在Open-QA任務(wù)上的性能。
他們將自己的方法與基于檢索的Open-QA系統(tǒng)和基于生成的Open-QA系統(tǒng)進(jìn)行了比較。
使用與先前研究相同的超參數(shù)進(jìn)行微調(diào),并從2018年12月20日的英文維基百科快照中獲取知識(shí)語(yǔ)料庫(kù)。
b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:
作者在NQ、WQ和CT三個(gè)Open-QA數(shù)據(jù)集上評(píng)估了他們的模型。
他們報(bào)告了每個(gè)模型的準(zhǔn)確性和參數(shù)數(shù)量。
他們將自己的模型與具有相同微調(diào)設(shè)置、超參數(shù)和訓(xùn)練數(shù)據(jù)的ORQA進(jìn)行了比較。
作者還將自己的模型與其他基于檢索的系統(tǒng)(如Asai等人和Min等人)進(jìn)行了比較。
他們表明他們的模型在性能上超過(guò)了所有先前的方法。