Improving Neural Ranking Models with Traditional IR Methods

2023-08-30 21:20 作者:三月phanta 0人讀過 | 我要投稿

論文簡要 :

本文研究了一種低資源的替代方法，即使用詞袋嵌入模型進(jìn)行文檔檢索，并發(fā)現(xiàn)它在與信息檢索任務(wù)上微調(diào)的大型Transformer模型相比具有競爭力。實(shí)驗(yàn)結(jié)果表明，將傳統(tǒng)的關(guān)鍵詞匹配方法TF-IDF與淺層嵌入模型簡單結(jié)合，可以以較低的成本與復(fù)雜的神經(jīng)排序模型在三個(gè)數(shù)據(jù)集上競爭。此外，添加TF-IDF度量可以提高大規(guī)模微調(diào)模型在這些任務(wù)上的性能。

論文背景: 近年來，基于大型Transformer模型的神經(jīng)排序方法在信息檢索領(lǐng)域引起了廣泛關(guān)注，并被主要商業(yè)解決方案所采用。然而，這些方法在創(chuàng)建過程中計(jì)算成本高昂，并且需要大量標(biāo)記數(shù)據(jù)用于特定語料庫。
過去方案: 傳統(tǒng)的信息檢索方法如TF-IDF和BM25對基于關(guān)鍵詞的查詢非常有效，但對包含完整句子的自然語言查詢效果不佳。這些模型基于精確匹配的思想，要求查詢中的標(biāo)記必須在文檔中才被視為相關(guān)。文檔之間的相關(guān)性通過匹配標(biāo)記的頻率和重要性進(jìn)行比較。然而，對于包含完整句子的自然語言查詢，這種方法效果不佳。
論文的Motivation: 本文旨在探索一種低資源的替代方法，將傳統(tǒng)的關(guān)鍵詞匹配方法TF-IDF與淺層嵌入模型結(jié)合，以提供一種低成本的競爭性路徑，與在信息檢索任務(wù)上微調(diào)的復(fù)雜神經(jīng)排序模型的性能相媲美。通過將TF-IDF度量與大規(guī)模微調(diào)模型結(jié)合，進(jìn)一步提高了這些任務(wù)的性能。

本文探討了一種低資源的替代方法，用于文檔檢索中代替昂貴的神經(jīng)排序模型。作者發(fā)現(xiàn)，將傳統(tǒng)的TF-IDF關(guān)鍵詞匹配方法與淺層嵌入模型相結(jié)合，可以提供一種具有競爭力的成本效益方法，與復(fù)雜的神經(jīng)排序模型相媲美。他們還表明，添加TF-IDF度量可以提高大規(guī)模微調(diào)模型在信息檢索任務(wù)中的性能。

作者提出了一種檢索方法，將神經(jīng)檢索模型與關(guān)鍵詞匹配方法相結(jié)合，提供了一種弱監(jiān)督的方法，可以擴(kuò)展到數(shù)百萬個(gè)文檔。
作者訓(xùn)練了一個(gè)雙編碼器模型，用于匹配查詢和文章。該模型使用兩個(gè)相同的編碼器對查詢和文章進(jìn)行編碼，通過平均詞嵌入返回嵌入向量。使用余弦相似度計(jì)算查詢和文章之間的相似度得分。該模型使用邊界損失函數(shù)進(jìn)行訓(xùn)練，最大化正負(fù)對之間的分?jǐn)?shù)差異。

作者在三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)：Signal Media News數(shù)據(jù)集，維基百科語料庫和Google自然問題數(shù)據(jù)集。他們通過選擇文章的第一句作為查詢，將其余部分作為文章，形成查詢-文章對。數(shù)據(jù)集被洗牌并分為訓(xùn)練、驗(yàn)證和測試集。

作者在維基百科數(shù)據(jù)集上訓(xùn)練了20個(gè)epoch的嵌入模型，在新聞和自然問題數(shù)據(jù)集上訓(xùn)練了50個(gè)epoch。
嵌入維度設(shè)置為768，批量大小設(shè)置為1000，邊界參數(shù)δ根據(jù)驗(yàn)證集性能設(shè)置為0.5。
使用TF-IDF基線模型，在去除停用詞后使用了單個(gè)詞和雙詞，使用了scikit-learn實(shí)現(xiàn)。
使用BM25基線模型，使用網(wǎng)格搜索調(diào)整了參數(shù)k1在范圍[0.5:0.5:5]和b在范圍[0.3:0.1:0.9]。
使用Dirichlet語言模型基線，使用平滑參數(shù)μ從范圍{100, 200, 300, 400, 500, 1000, 1500, 2000, 2500, 3000}進(jìn)行調(diào)整。
使用預(yù)訓(xùn)練模型msmarco-distibert-base-v2，基于BERT，并在MSMARCO段落排序數(shù)據(jù)集上進(jìn)行了微調(diào)。
使用平均倒數(shù)排名（MRR）和前k個(gè)結(jié)果的平均精度（k = 1,3,10）評估了新聞、維基百科和自然問題數(shù)據(jù)集上的檢索性能。

標(biāo)簽：