Precise Zero-Shot Dense Retrieval without Relevance Labels
論文簡要 :
本文提出了一種無需相關(guān)標簽的精確零射密集檢索方法,通過使用假設文檔嵌入和指令跟隨語言模型,能夠在沒有相關(guān)標簽的情況下構(gòu)建有效的零射密集檢索系統(tǒng),并在各種任務和語言上取得了強大的性能。
背景信息:
論文背景: 密集檢索是一種使用語義嵌入相似性來檢索文檔的方法,在Web搜索、問答和事實驗證等任務中已經(jīng)被證明是有效的。然而,在沒有相關(guān)標簽的情況下構(gòu)建零射密集檢索系統(tǒng)仍然很困難。
過去方案: 過去的方法主要集中在監(jiān)督學習的密集檢索模型上,通過負采樣、蒸餾和任務特定的預訓練等方法來提高模型的效果。然而,零射密集檢索仍然面臨挑戰(zhàn),因為很難找到大規(guī)模的相關(guān)標簽數(shù)據(jù)集。
論文的Motivation: 鑒于監(jiān)督學習的限制,本文提出了一種新的方法,通過使用假設文檔嵌入和指令跟隨語言模型來解決零射密集檢索的問題。這種方法能夠在沒有相關(guān)標簽的情況下構(gòu)建有效的密集檢索系統(tǒng),并在各種任務和語言上取得了強大的性能。
方法:
a. 理論背景:
本文介紹了密集檢索的概念,即使用語義嵌入相似性檢索文檔的方法。它強調(diào)了零樣本密集檢索的挑戰(zhàn)以及現(xiàn)有監(jiān)督模型的局限性。
b. 技術(shù)路線:
本文提出了一種名為Hypothetical Document Embeddings (HyDE)的新方法,它利用生成式語言模型和對比編碼器來創(chuàng)建有效的零樣本密集檢索系統(tǒng),無需相關(guān)性標簽。
HyDE方法通過使用無監(jiān)督對比學習在僅文檔嵌入空間中進行搜索。該方法基于查詢和指令生成假設性文檔,然后使用文檔編碼器對其進行編碼。生成的文檔捕捉相關(guān)性模式并用于檢索。
實驗結(jié)果表明,HyDE在各種任務和語言上優(yōu)于先前的最先進模型。
結(jié)果:
a. 詳細的實驗設置:
本文在各種數(shù)據(jù)集上進行了網(wǎng)絡搜索任務的實驗。
將HyDE方法與基線系統(tǒng)(如Contriever和BM25)以及在大量相關(guān)性數(shù)據(jù)上微調(diào)的模型進行了比較。
b. 詳細的實驗結(jié)果:
實驗結(jié)果表明,HyDE在MAP、NDCG@10和recall@1k等指標上顯著改進了Contriever的性能。
在DL19/20的網(wǎng)絡搜索結(jié)果中,HyDE是最佳性能模型,無論是否考慮相關(guān)性。
在BEIR的低資源任務中,HyDE在ndcg和recall方面改進了Contriever的性能。
在Mr.Tydi的MRR@100結(jié)果中,HyDE改進了mContriever模型,并且在沒有相關(guān)性和整體上表現(xiàn)優(yōu)于非Contriever模型。
在更改不同指令語言模型和使用微調(diào)編碼器的情況下,所有模型都改進了無監(jiān)督的Contriever,較大的模型帶來了較大的改進。
使用微調(diào)編碼器的HyDE對微調(diào)檢索器的整體性能產(chǎn)生了負面影響,但性能下降仍然很小。
InstructGPT模型能夠進一步提高性能,特別是在DL19上。