Generative Pseudo Labeling for Unsupervised Domain Adaptation of
Title: GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval (GPL: 用于密集檢索無監(jiān)督領(lǐng)域自適應(yīng)的生成偽標(biāo)簽方法)
論文簡要 :
本文提出了一種新穎的無監(jiān)督領(lǐng)域自適應(yīng)方法,稱為生成偽標(biāo)簽(GPL),通過將查詢生成器與交叉編碼器的偽標(biāo)簽相結(jié)合,可以在密集檢索任務(wù)中提高性能,特別是在缺乏大量標(biāo)注數(shù)據(jù)的領(lǐng)域中。
背景信息:
論文背景: 傳統(tǒng)的基于詞匯的信息檢索方法受到詞匯差異的限制,無法識別同義詞和區(qū)分多義詞。近年來,基于密集向量空間的密集檢索方法得到了廣泛應(yīng)用,可以克服這些挑戰(zhàn),但需要大量的訓(xùn)練數(shù)據(jù)才能發(fā)揮良好的性能。
過去方案: 過去的研究表明,密集檢索方法在領(lǐng)域轉(zhuǎn)移時(shí)性能嚴(yán)重下降,限制了其在只有少量訓(xùn)練數(shù)據(jù)的領(lǐng)域中的應(yīng)用。
論文的Motivation: 鑒于現(xiàn)有方法的局限性,本文提出了一種新的無監(jiān)督領(lǐng)域自適應(yīng)方法,通過生成偽標(biāo)簽的方式,結(jié)合查詢生成器和交叉編碼器,可以在缺乏大量標(biāo)注數(shù)據(jù)的領(lǐng)域中提高密集檢索方法的性能。
方法:
a. 理論背景:
傳統(tǒng)的信息檢索方法在詞匯差異和歧義詞辨別方面存在問題,無法識別同義詞和區(qū)分歧義詞。為了解決這些挑戰(zhàn),基于密集向量空間的密集檢索方法被提出。然而,這些方法需要大量的訓(xùn)練數(shù)據(jù),并且對領(lǐng)域轉(zhuǎn)移非常敏感。本文提出了一種名為Generative Pseudo Labeling(GPL)的無監(jiān)督領(lǐng)域自適應(yīng)技術(shù),用于密集檢索模型。
b. 技術(shù)路線:
GPL方法結(jié)合了查詢生成器和來自交叉編碼器的偽標(biāo)簽,以改善在領(lǐng)域轉(zhuǎn)移下密集檢索器的性能。該方法通過在目標(biāo)語料庫中為每個段落生成合成查詢,使用預(yù)先訓(xùn)練的檢索系統(tǒng)檢索負(fù)面段落,并使用交叉編碼器對查詢-段落對進(jìn)行標(biāo)記。然后,使用MarginMSE-Loss在這些標(biāo)記的查詢上訓(xùn)練領(lǐng)域自適應(yīng)的密集檢索器
框架流程:

首先,它使用一個預(yù)先訓(xùn)練好的T5編碼-解碼模型,為目標(biāo)領(lǐng)域的文本段落生成合適的查詢語句。
然后,它使用一個預(yù)先訓(xùn)練好的密集檢索模型,為每個生成的查詢語句檢索出50個負(fù)面的文本段落,即與查詢語句不相關(guān)的文本段落。
最后,它使用一個預(yù)先訓(xùn)練好的交叉編碼器,為每個(查詢語句,文本段落)對打上一個偽標(biāo)簽,即一個連續(xù)的相關(guān)性分?jǐn)?shù)。
用這些生成的、偽標(biāo)注的數(shù)據(jù),它訓(xùn)練一個新的密集檢索模型,使其能夠?qū)⒉樵冋Z句和文本段落映射到一個共享的、密集的向量空間中,從而實(shí)現(xiàn)目標(biāo)領(lǐng)域的適應(yīng)。
舉個例子,假設(shè)目標(biāo)領(lǐng)域是金融領(lǐng)域,一個文本段落是:
期貨合約是一種衍生金融工具,它是一種協(xié)議,要求買方在未來的某個日期以事先確定的價(jià)格從賣方購買一定數(shù)量的某種商品或金融資產(chǎn)。
那么,一個可能的生成的查詢語句是:
什么是期貨合約?
為了找到負(fù)面的文本段落,我們可以使用一個在MS MARCO數(shù)據(jù)集上訓(xùn)練好的密集檢索模型,根據(jù)查詢語句和文本段落的向量之間的余弦相似度,從目標(biāo)領(lǐng)域的文本庫中檢索出最不相似的50個文本段落。例如,一個可能的負(fù)面的文本段落是:
股票是一種所有權(quán)證券,它代表了對一家公司的所有權(quán)的一部分。股票的持有者可以從公司的利潤中獲得分紅,并在公司解散時(shí)獲得剩余資產(chǎn)的分配。
為了給每個(查詢語句,文本段落)對打上一個偽標(biāo)簽,我們可以使用一個在MS MARCO數(shù)據(jù)集上訓(xùn)練好的交叉編碼器,它可以根據(jù)查詢語句和文本段落的語義關(guān)系,輸出一個介于0到10之間的分?jǐn)?shù)。例如,對于上面的例子,一個可能的偽標(biāo)簽是:
(什么是期貨合約?,期貨合約是一種衍生金融工具…) -> 9.3 (什么是期貨合約?,股票是一種所有權(quán)證券…) -> 0.3
用這些生成的、偽標(biāo)注的數(shù)據(jù),我們可以使用MarginMSE損失函數(shù),訓(xùn)練一個新的密集檢索模型,使其能夠?qū)⒉樵冋Z句和文本段落映射到一個共享的、密集的向量空間中,從而實(shí)現(xiàn)目標(biāo)領(lǐng)域的適應(yīng)。這樣,當(dāng)我們在目標(biāo)領(lǐng)域的文本庫中進(jìn)行檢索時(shí),我們就可以得到更準(zhǔn)確和更相關(guān)的結(jié)果。
結(jié)果:
a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:
本文在BeIR基準(zhǔn)測試中使用了六個代表性的領(lǐng)域特定數(shù)據(jù)集對GPL進(jìn)行了評估。與僅在MS MARCO上訓(xùn)練的最先進(jìn)模型相比,GPL在nDCG@10上的性能提升高達(dá)9.3個百分點(diǎn)。
b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:
當(dāng)與TSDAE預(yù)訓(xùn)練方法相結(jié)合時(shí),GPL在nDCG@10上額外平均提高了1.4個百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,GPL在無監(jiān)督領(lǐng)域自適應(yīng)密集檢索中具有易用性、快速性和數(shù)據(jù)效率。