最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

Improving Neural Ranking Models with Traditional IR Methods

2023-08-30 21:20 作者:三月phanta  | 我要投稿
  • URLs:https://arxiv.org/abs/2308.15027v1

論文簡要 :

  • 本文研究了一種低資源的替代方法,即使用詞袋嵌入模型進(jìn)行文檔檢索,并發(fā)現(xiàn)它在與信息檢索任務(wù)上微調(diào)的大型Transformer模型相比具有競爭力。實(shí)驗(yàn)結(jié)果表明,將傳統(tǒng)的關(guān)鍵詞匹配方法TF-IDF與淺層嵌入模型簡單結(jié)合,可以以較低的成本與復(fù)雜的神經(jīng)排序模型在三個(gè)數(shù)據(jù)集上競爭。此外,添加TF-IDF度量可以提高大規(guī)模微調(diào)模型在這些任務(wù)上的性能。

背景信息:

  • 論文背景: 近年來,基于大型Transformer模型的神經(jīng)排序方法在信息檢索領(lǐng)域引起了廣泛關(guān)注,并被主要商業(yè)解決方案所采用。然而,這些方法在創(chuàng)建過程中計(jì)算成本高昂,并且需要大量標(biāo)記數(shù)據(jù)用于特定語料庫。

  • 過去方案: 傳統(tǒng)的信息檢索方法如TF-IDF和BM25對基于關(guān)鍵詞的查詢非常有效,但對包含完整句子的自然語言查詢效果不佳。這些模型基于精確匹配的思想,要求查詢中的標(biāo)記必須在文檔中才被視為相關(guān)。文檔之間的相關(guān)性通過匹配標(biāo)記的頻率和重要性進(jìn)行比較。然而,對于包含完整句子的自然語言查詢,這種方法效果不佳。

  • 論文的Motivation: 本文旨在探索一種低資源的替代方法,將傳統(tǒng)的關(guān)鍵詞匹配方法TF-IDF與淺層嵌入模型結(jié)合,以提供一種低成本的競爭性路徑,與在信息檢索任務(wù)上微調(diào)的復(fù)雜神經(jīng)排序模型的性能相媲美。通過將TF-IDF度量與大規(guī)模微調(diào)模型結(jié)合,進(jìn)一步提高了這些任務(wù)的性能。

方法:

  • a. 理論背景:

    • 本文探討了一種低資源的替代方法,用于文檔檢索中代替昂貴的神經(jīng)排序模型。作者發(fā)現(xiàn),將傳統(tǒng)的TF-IDF關(guān)鍵詞匹配方法與淺層嵌入模型相結(jié)合,可以提供一種具有競爭力的成本效益方法,與復(fù)雜的神經(jīng)排序模型相媲美。他們還表明,添加TF-IDF度量可以提高大規(guī)模微調(diào)模型在信息檢索任務(wù)中的性能。

  • b. 技術(shù)路線:

    • 作者提出了一種檢索方法,將神經(jīng)檢索模型與關(guān)鍵詞匹配方法相結(jié)合,提供了一種弱監(jiān)督的方法,可以擴(kuò)展到數(shù)百萬個(gè)文檔。

    • 作者訓(xùn)練了一個(gè)雙編碼器模型,用于匹配查詢和文章。該模型使用兩個(gè)相同的編碼器對查詢和文章進(jìn)行編碼,通過平均詞嵌入返回嵌入向量。使用余弦相似度計(jì)算查詢和文章之間的相似度得分。該模型使用邊界損失函數(shù)進(jìn)行訓(xùn)練,最大化正負(fù)對之間的分?jǐn)?shù)差異。

結(jié)果:

  • a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:

    • 作者在三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):Signal Media News數(shù)據(jù)集,維基百科語料庫和Google自然問題數(shù)據(jù)集。他們通過選擇文章的第一句作為查詢,將其余部分作為文章,形成查詢-文章對。數(shù)據(jù)集被洗牌并分為訓(xùn)練、驗(yàn)證和測試集。

  • b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:

    • 作者在維基百科數(shù)據(jù)集上訓(xùn)練了20個(gè)epoch的嵌入模型,在新聞和自然問題數(shù)據(jù)集上訓(xùn)練了50個(gè)epoch。

    • 嵌入維度設(shè)置為768,批量大小設(shè)置為1000,邊界參數(shù)δ根據(jù)驗(yàn)證集性能設(shè)置為0.5。

    • 使用TF-IDF基線模型,在去除停用詞后使用了單個(gè)詞和雙詞,使用了scikit-learn實(shí)現(xiàn)。

    • 使用BM25基線模型,使用網(wǎng)格搜索調(diào)整了參數(shù)k1在范圍[0.5:0.5:5]和b在范圍[0.3:0.1:0.9]。

    • 使用Dirichlet語言模型基線,使用平滑參數(shù)μ從范圍{100, 200, 300, 400, 500, 1000, 1500, 2000, 2500, 3000}進(jìn)行調(diào)整。

    • 使用預(yù)訓(xùn)練模型msmarco-distibert-base-v2,基于BERT,并在MSMARCO段落排序數(shù)據(jù)集上進(jìn)行了微調(diào)。

    • 使用平均倒數(shù)排名(MRR)和前k個(gè)結(jié)果的平均精度(k = 1,3,10)評估了新聞、維基百科和自然問題數(shù)據(jù)集上的檢索性能。


Improving Neural Ranking Models with Traditional IR Methods的評論 (共 條)

分享到微博請遵守國家法律
当阳市| 周口市| 渝北区| 吴堡县| 年辖:市辖区| 平利县| 河津市| 屯留县| 德保县| 峨山| 长武县| 阳高县| 大丰市| 右玉县| 乌拉特前旗| 鸡泽县| 承德市| 和静县| 十堰市| 阳西县| 陇南市| 津市市| 垦利县| 安顺市| 资溪县| 凤阳县| 班戈县| 湖口县| 日喀则市| 沅江市| 海林市| 云浮市| 华宁县| 南丰县| 明水县| 西充县| 阿克苏市| 隆安县| 铜川市| 土默特右旗| 柏乡县|