Improving Neural Ranking Models with Traditional IR Methods
URLs:https://arxiv.org/abs/2308.15027v1
論文簡要 :
本文研究了一種低資源的替代方法,即使用詞袋嵌入模型進(jìn)行文檔檢索,并發(fā)現(xiàn)它在與信息檢索任務(wù)上微調(diào)的大型Transformer模型相比具有競爭力。實(shí)驗(yàn)結(jié)果表明,將傳統(tǒng)的關(guān)鍵詞匹配方法TF-IDF與淺層嵌入模型簡單結(jié)合,可以以較低的成本與復(fù)雜的神經(jīng)排序模型在三個(gè)數(shù)據(jù)集上競爭。此外,添加TF-IDF度量可以提高大規(guī)模微調(diào)模型在這些任務(wù)上的性能。
背景信息:
論文背景: 近年來,基于大型Transformer模型的神經(jīng)排序方法在信息檢索領(lǐng)域引起了廣泛關(guān)注,并被主要商業(yè)解決方案所采用。然而,這些方法在創(chuàng)建過程中計(jì)算成本高昂,并且需要大量標(biāo)記數(shù)據(jù)用于特定語料庫。
過去方案: 傳統(tǒng)的信息檢索方法如TF-IDF和BM25對基于關(guān)鍵詞的查詢非常有效,但對包含完整句子的自然語言查詢效果不佳。這些模型基于精確匹配的思想,要求查詢中的標(biāo)記必須在文檔中才被視為相關(guān)。文檔之間的相關(guān)性通過匹配標(biāo)記的頻率和重要性進(jìn)行比較。然而,對于包含完整句子的自然語言查詢,這種方法效果不佳。
論文的Motivation: 本文旨在探索一種低資源的替代方法,將傳統(tǒng)的關(guān)鍵詞匹配方法TF-IDF與淺層嵌入模型結(jié)合,以提供一種低成本的競爭性路徑,與在信息檢索任務(wù)上微調(diào)的復(fù)雜神經(jīng)排序模型的性能相媲美。通過將TF-IDF度量與大規(guī)模微調(diào)模型結(jié)合,進(jìn)一步提高了這些任務(wù)的性能。
方法:
a. 理論背景:
本文探討了一種低資源的替代方法,用于文檔檢索中代替昂貴的神經(jīng)排序模型。作者發(fā)現(xiàn),將傳統(tǒng)的TF-IDF關(guān)鍵詞匹配方法與淺層嵌入模型相結(jié)合,可以提供一種具有競爭力的成本效益方法,與復(fù)雜的神經(jīng)排序模型相媲美。他們還表明,添加TF-IDF度量可以提高大規(guī)模微調(diào)模型在信息檢索任務(wù)中的性能。
b. 技術(shù)路線:
作者提出了一種檢索方法,將神經(jīng)檢索模型與關(guān)鍵詞匹配方法相結(jié)合,提供了一種弱監(jiān)督的方法,可以擴(kuò)展到數(shù)百萬個(gè)文檔。
作者訓(xùn)練了一個(gè)雙編碼器模型,用于匹配查詢和文章。該模型使用兩個(gè)相同的編碼器對查詢和文章進(jìn)行編碼,通過平均詞嵌入返回嵌入向量。使用余弦相似度計(jì)算查詢和文章之間的相似度得分。該模型使用邊界損失函數(shù)進(jìn)行訓(xùn)練,最大化正負(fù)對之間的分?jǐn)?shù)差異。
結(jié)果:
a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:
作者在三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):Signal Media News數(shù)據(jù)集,維基百科語料庫和Google自然問題數(shù)據(jù)集。他們通過選擇文章的第一句作為查詢,將其余部分作為文章,形成查詢-文章對。數(shù)據(jù)集被洗牌并分為訓(xùn)練、驗(yàn)證和測試集。
b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:
作者在維基百科數(shù)據(jù)集上訓(xùn)練了20個(gè)epoch的嵌入模型,在新聞和自然問題數(shù)據(jù)集上訓(xùn)練了50個(gè)epoch。
嵌入維度設(shè)置為768,批量大小設(shè)置為1000,邊界參數(shù)δ根據(jù)驗(yàn)證集性能設(shè)置為0.5。
使用TF-IDF基線模型,在去除停用詞后使用了單個(gè)詞和雙詞,使用了scikit-learn實(shí)現(xiàn)。
使用BM25基線模型,使用網(wǎng)格搜索調(diào)整了參數(shù)k1在范圍[0.5:0.5:5]和b在范圍[0.3:0.1:0.9]。
使用Dirichlet語言模型基線,使用平滑參數(shù)μ從范圍{100, 200, 300, 400, 500, 1000, 1500, 2000, 2500, 3000}進(jìn)行調(diào)整。
使用預(yù)訓(xùn)練模型msmarco-distibert-base-v2,基于BERT,并在MSMARCO段落排序數(shù)據(jù)集上進(jìn)行了微調(diào)。
使用平均倒數(shù)排名(MRR)和前k個(gè)結(jié)果的平均精度(k = 1,3,10)評估了新聞、維基百科和自然問題數(shù)據(jù)集上的檢索性能。