Generative Pseudo Labeling for Unsupervised Domain Adaptation of

2023-10-02 11:58 作者:三月phanta 0人讀過 | 我要投稿

Title: GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval (GPL: 用于密集檢索無監(jiān)督領(lǐng)域自適應(yīng)的生成偽標(biāo)簽方法)

論文簡要 :

本文提出了一種新穎的無監(jiān)督領(lǐng)域自適應(yīng)方法，稱為生成偽標(biāo)簽（GPL），通過將查詢生成器與交叉編碼器的偽標(biāo)簽相結(jié)合，可以在密集檢索任務(wù)中提高性能，特別是在缺乏大量標(biāo)注數(shù)據(jù)的領(lǐng)域中。

背景信息:

論文背景: 傳統(tǒng)的基于詞匯的信息檢索方法受到詞匯差異的限制，無法識別同義詞和區(qū)分多義詞。近年來，基于密集向量空間的密集檢索方法得到了廣泛應(yīng)用，可以克服這些挑戰(zhàn)，但需要大量的訓(xùn)練數(shù)據(jù)才能發(fā)揮良好的性能。
過去方案: 過去的研究表明，密集檢索方法在領(lǐng)域轉(zhuǎn)移時(shí)性能嚴(yán)重下降，限制了其在只有少量訓(xùn)練數(shù)據(jù)的領(lǐng)域中的應(yīng)用。
論文的Motivation: 鑒于現(xiàn)有方法的局限性，本文提出了一種新的無監(jiān)督領(lǐng)域自適應(yīng)方法，通過生成偽標(biāo)簽的方式，結(jié)合查詢生成器和交叉編碼器，可以在缺乏大量標(biāo)注數(shù)據(jù)的領(lǐng)域中提高密集檢索方法的性能。

方法:

a. 理論背景:

傳統(tǒng)的信息檢索方法在詞匯差異和歧義詞辨別方面存在問題，無法識別同義詞和區(qū)分歧義詞。為了解決這些挑戰(zhàn)，基于密集向量空間的密集檢索方法被提出。然而，這些方法需要大量的訓(xùn)練數(shù)據(jù)，并且對領(lǐng)域轉(zhuǎn)移非常敏感。本文提出了一種名為Generative Pseudo Labeling（GPL）的無監(jiān)督領(lǐng)域自適應(yīng)技術(shù)，用于密集檢索模型。

b. 技術(shù)路線:

GPL方法結(jié)合了查詢生成器和來自交叉編碼器的偽標(biāo)簽，以改善在領(lǐng)域轉(zhuǎn)移下密集檢索器的性能。該方法通過在目標(biāo)語料庫中為每個段落生成合成查詢，使用預(yù)先訓(xùn)練的檢索系統(tǒng)檢索負(fù)面段落，并使用交叉編碼器對查詢-段落對進(jìn)行標(biāo)記。然后，使用MarginMSE-Loss在這些標(biāo)記的查詢上訓(xùn)練領(lǐng)域自適應(yīng)的密集檢索器

框架流程：

首先，它使用一個預(yù)先訓(xùn)練好的T5編碼-解碼模型，為目標(biāo)領(lǐng)域的文本段落生成合適的查詢語句。
然后，它使用一個預(yù)先訓(xùn)練好的密集檢索模型，為每個生成的查詢語句檢索出50個負(fù)面的文本段落，即與查詢語句不相關(guān)的文本段落。
最后，它使用一個預(yù)先訓(xùn)練好的交叉編碼器，為每個（查詢語句，文本段落）對打上一個偽標(biāo)簽，即一個連續(xù)的相關(guān)性分?jǐn)?shù)。
用這些生成的、偽標(biāo)注的數(shù)據(jù)，它訓(xùn)練一個新的密集檢索模型，使其能夠?qū)⒉樵冋Z句和文本段落映射到一個共享的、密集的向量空間中，從而實(shí)現(xiàn)目標(biāo)領(lǐng)域的適應(yīng)。

舉個例子，假設(shè)目標(biāo)領(lǐng)域是金融領(lǐng)域，一個文本段落是：

期貨合約是一種衍生金融工具，它是一種協(xié)議，要求買方在未來的某個日期以事先確定的價(jià)格從賣方購買一定數(shù)量的某種商品或金融資產(chǎn)。

那么，一個可能的生成的查詢語句是：

什么是期貨合約？

為了找到負(fù)面的文本段落，我們可以使用一個在MS MARCO數(shù)據(jù)集上訓(xùn)練好的密集檢索模型，根據(jù)查詢語句和文本段落的向量之間的余弦相似度，從目標(biāo)領(lǐng)域的文本庫中檢索出最不相似的50個文本段落。例如，一個可能的負(fù)面的文本段落是：

股票是一種所有權(quán)證券，它代表了對一家公司的所有權(quán)的一部分。股票的持有者可以從公司的利潤中獲得分紅，并在公司解散時(shí)獲得剩余資產(chǎn)的分配。

為了給每個（查詢語句，文本段落）對打上一個偽標(biāo)簽，我們可以使用一個在MS MARCO數(shù)據(jù)集上訓(xùn)練好的交叉編碼器，它可以根據(jù)查詢語句和文本段落的語義關(guān)系，輸出一個介于0到10之間的分?jǐn)?shù)。例如，對于上面的例子，一個可能的偽標(biāo)簽是：

（什么是期貨合約？，期貨合約是一種衍生金融工具…） -> 9.3 （什么是期貨合約？，股票是一種所有權(quán)證券…） -> 0.3

用這些生成的、偽標(biāo)注的數(shù)據(jù)，我們可以使用MarginMSE損失函數(shù)，訓(xùn)練一個新的密集檢索模型，使其能夠?qū)⒉樵冋Z句和文本段落映射到一個共享的、密集的向量空間中，從而實(shí)現(xiàn)目標(biāo)領(lǐng)域的適應(yīng)。這樣，當(dāng)我們在目標(biāo)領(lǐng)域的文本庫中進(jìn)行檢索時(shí)，我們就可以得到更準(zhǔn)確和更相關(guān)的結(jié)果。

結(jié)果:

a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:

本文在BeIR基準(zhǔn)測試中使用了六個代表性的領(lǐng)域特定數(shù)據(jù)集對GPL進(jìn)行了評估。與僅在MS MARCO上訓(xùn)練的最先進(jìn)模型相比，GPL在nDCG@10上的性能提升高達(dá)9.3個百分點(diǎn)。

b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:

當(dāng)與TSDAE預(yù)訓(xùn)練方法相結(jié)合時(shí)，GPL在nDCG@10上額外平均提高了1.4個百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明，GPL在無監(jiān)督領(lǐng)域自適應(yīng)密集檢索中具有易用性、快速性和數(shù)據(jù)效率。

標(biāo)簽：