最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Generative Pseudo Labeling for Unsupervised Domain Adaptation of

2023-10-02 11:58 作者:三月phanta  | 我要投稿
  • Title: GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval (GPL: 用于密集檢索無監(jiān)督領(lǐng)域自適應(yīng)的生成偽標(biāo)簽方法)

論文簡要 :

  • 本文提出了一種新穎的無監(jiān)督領(lǐng)域自適應(yīng)方法,稱為生成偽標(biāo)簽(GPL),通過將查詢生成器與交叉編碼器的偽標(biāo)簽相結(jié)合,可以在密集檢索任務(wù)中提高性能,特別是在缺乏大量標(biāo)注數(shù)據(jù)的領(lǐng)域中。

背景信息:

  • 論文背景: 傳統(tǒng)的基于詞匯的信息檢索方法受到詞匯差異的限制,無法識別同義詞和區(qū)分多義詞。近年來,基于密集向量空間的密集檢索方法得到了廣泛應(yīng)用,可以克服這些挑戰(zhàn),但需要大量的訓(xùn)練數(shù)據(jù)才能發(fā)揮良好的性能。

  • 過去方案: 過去的研究表明,密集檢索方法在領(lǐng)域轉(zhuǎn)移時(shí)性能嚴(yán)重下降,限制了其在只有少量訓(xùn)練數(shù)據(jù)的領(lǐng)域中的應(yīng)用。

  • 論文的Motivation: 鑒于現(xiàn)有方法的局限性,本文提出了一種新的無監(jiān)督領(lǐng)域自適應(yīng)方法,通過生成偽標(biāo)簽的方式,結(jié)合查詢生成器和交叉編碼器,可以在缺乏大量標(biāo)注數(shù)據(jù)的領(lǐng)域中提高密集檢索方法的性能。

方法:

  • a. 理論背景:

    • 傳統(tǒng)的信息檢索方法在詞匯差異和歧義詞辨別方面存在問題,無法識別同義詞和區(qū)分歧義詞。為了解決這些挑戰(zhàn),基于密集向量空間的密集檢索方法被提出。然而,這些方法需要大量的訓(xùn)練數(shù)據(jù),并且對領(lǐng)域轉(zhuǎn)移非常敏感。本文提出了一種名為Generative Pseudo Labeling(GPL)的無監(jiān)督領(lǐng)域自適應(yīng)技術(shù),用于密集檢索模型。

  • b. 技術(shù)路線:

    • GPL方法結(jié)合了查詢生成器和來自交叉編碼器的偽標(biāo)簽,以改善在領(lǐng)域轉(zhuǎn)移下密集檢索器的性能。該方法通過在目標(biāo)語料庫中為每個段落生成合成查詢,使用預(yù)先訓(xùn)練的檢索系統(tǒng)檢索負(fù)面段落,并使用交叉編碼器對查詢-段落對進(jìn)行標(biāo)記。然后,使用MarginMSE-Loss在這些標(biāo)記的查詢上訓(xùn)練領(lǐng)域自適應(yīng)的密集檢索器

      框架流程:

    • 首先,它使用一個預(yù)先訓(xùn)練好的T5編碼-解碼模型,為目標(biāo)領(lǐng)域的文本段落生成合適的查詢語句。

    • 然后,它使用一個預(yù)先訓(xùn)練好的密集檢索模型,為每個生成的查詢語句檢索出50個負(fù)面的文本段落,即與查詢語句不相關(guān)的文本段落。

    • 最后,它使用一個預(yù)先訓(xùn)練好的交叉編碼器,為每個(查詢語句,文本段落)對打上一個偽標(biāo)簽,即一個連續(xù)的相關(guān)性分?jǐn)?shù)。

    • 用這些生成的、偽標(biāo)注的數(shù)據(jù),它訓(xùn)練一個新的密集檢索模型,使其能夠?qū)⒉樵冋Z句和文本段落映射到一個共享的、密集的向量空間中,從而實(shí)現(xiàn)目標(biāo)領(lǐng)域的適應(yīng)。

    舉個例子,假設(shè)目標(biāo)領(lǐng)域是金融領(lǐng)域,一個文本段落是:

    期貨合約是一種衍生金融工具,它是一種協(xié)議,要求買方在未來的某個日期以事先確定的價(jià)格從賣方購買一定數(shù)量的某種商品或金融資產(chǎn)。

    那么,一個可能的生成的查詢語句是:

    什么是期貨合約?

    為了找到負(fù)面的文本段落,我們可以使用一個在MS MARCO數(shù)據(jù)集上訓(xùn)練好的密集檢索模型,根據(jù)查詢語句和文本段落的向量之間的余弦相似度,從目標(biāo)領(lǐng)域的文本庫中檢索出最不相似的50個文本段落。例如,一個可能的負(fù)面的文本段落是:

    股票是一種所有權(quán)證券,它代表了對一家公司的所有權(quán)的一部分。股票的持有者可以從公司的利潤中獲得分紅,并在公司解散時(shí)獲得剩余資產(chǎn)的分配。

    為了給每個(查詢語句,文本段落)對打上一個偽標(biāo)簽,我們可以使用一個在MS MARCO數(shù)據(jù)集上訓(xùn)練好的交叉編碼器,它可以根據(jù)查詢語句和文本段落的語義關(guān)系,輸出一個介于0到10之間的分?jǐn)?shù)。例如,對于上面的例子,一個可能的偽標(biāo)簽是:

    (什么是期貨合約?,期貨合約是一種衍生金融工具…) -> 9.3 (什么是期貨合約?,股票是一種所有權(quán)證券…) -> 0.3

    用這些生成的、偽標(biāo)注的數(shù)據(jù),我們可以使用MarginMSE損失函數(shù),訓(xùn)練一個新的密集檢索模型,使其能夠?qū)⒉樵冋Z句和文本段落映射到一個共享的、密集的向量空間中,從而實(shí)現(xiàn)目標(biāo)領(lǐng)域的適應(yīng)。這樣,當(dāng)我們在目標(biāo)領(lǐng)域的文本庫中進(jìn)行檢索時(shí),我們就可以得到更準(zhǔn)確和更相關(guān)的結(jié)果。


結(jié)果:

  • a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:

    • 本文在BeIR基準(zhǔn)測試中使用了六個代表性的領(lǐng)域特定數(shù)據(jù)集對GPL進(jìn)行了評估。與僅在MS MARCO上訓(xùn)練的最先進(jìn)模型相比,GPL在nDCG@10上的性能提升高達(dá)9.3個百分點(diǎn)。

  • b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:

    • 當(dāng)與TSDAE預(yù)訓(xùn)練方法相結(jié)合時(shí),GPL在nDCG@10上額外平均提高了1.4個百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,GPL在無監(jiān)督領(lǐng)域自適應(yīng)密集檢索中具有易用性、快速性和數(shù)據(jù)效率。


Generative Pseudo Labeling for Unsupervised Domain Adaptation of的評論 (共 條)

分享到微博請遵守國家法律
绥滨县| 共和县| 仁化县| 香河县| 新干县| 县级市| 洞口县| 青浦区| 蚌埠市| 塘沽区| 宝山区| 德兴市| 绍兴县| 宣化县| 甘肃省| 阳东县| 新乡市| 始兴县| 和平区| 浏阳市| 新宾| 宣武区| 靖边县| 沈丘县| 盐山县| 威远县| 富宁县| 利津县| 桐柏县| 射洪县| 苍溪县| 蒙自县| 墨江| 宜阳县| 鲜城| 同江市| 蒙山县| 会昌县| 阿拉善右旗| 龙川县| 竹溪县|