Title: RankVicuna: Zero-Shot Listwise Document Reranking with Op
論文簡要 :
本研究提出了RankVicuna,這是第一個完全開源的大型語言模型,能夠在零樣本設(shè)置下進行高質(zhì)量的列表排序。實驗結(jié)果表明,我們可以使用比GPT3.5小得多的7B參數(shù)模型實現(xiàn)與GPT3.5相當?shù)牧銟颖九判蛐Ч?,盡管我們的效果略遜于GPT4。我們希望我們的工作為未來基于現(xiàn)代大型語言模型的重新排序研究奠定基礎(chǔ)。
背景信息:
論文背景: 近年來,大型語言模型在自然語言處理和信息檢索任務(wù)中得到了廣泛應(yīng)用。在文本檢索的背景下,已經(jīng)有多個研究致力于使用大型語言模型進行零樣本列表排序,但遺憾的是,迄今為止,它們都依賴于專有模型。這種方法雖然支持快速原型開發(fā),但基于這些模型的實驗結(jié)果的可重復(fù)性值得懷疑,這對于構(gòu)建在這種不穩(wěn)定基礎(chǔ)上的結(jié)果的真實性構(gòu)成了威脅。
過去方案: 以往的方法主要依賴于專有模型,這導(dǎo)致實驗結(jié)果不可重復(fù)且不確定,限制了研究的可靠性。
論文的Motivation: 為了解決這個問題,本研究提出了RankVicuna,這是第一個完全開源的大型語言模型,能夠在零樣本設(shè)置下進行高質(zhì)量的列表排序。通過在TREC 2019和2020 Deep Learning Tracks上的實驗驗證,我們證明了我們的模型的有效性與使用GPT3.5進行零樣本排序相當,但略遜于使用GPT4進行排序。我們的模型只使用了7B參數(shù),相比之下要小得多。我們分享了模型檢查點和相關(guān)代碼,為研究社區(qū)提供了寶貴的資源。
方法:
a. 理論背景:
本文討論了在信息檢索任務(wù)中使用大型語言模型(LLMs)進行重新排序的方法。作者強調(diào)了依賴專有模型的局限性,以及需要一個開源的LLM來實現(xiàn)可重復(fù)和確定性的結(jié)果。作者介紹了RankVicuna作為第一個完全開源的LLM,在zerp-shot設(shè)置下能夠進行高質(zhì)量的列表式重新排序。他們提到RankVicuna通過較小的7B參數(shù)模型實現(xiàn)了與GPT3.5相當?shù)男Ч?,盡管稍遜于GPT4。作者還強調(diào)了他們的工作對于未來基于現(xiàn)代LLM的重新排序研究的重要性。
b. 技術(shù)路線:
本研究基于之前的工作,該工作表明零-shot列表式重新排序器優(yōu)于點式重新排序器。目標是根據(jù)與用戶查詢相關(guān)性對候選文檔列表進行重新排序。提示設(shè)計類似于RankGPT,但考慮到Vicuna和GPT之間的差異。用于訓(xùn)練的模型RankVicuna是在RankGPT3.5生成的排序列表上進行訓(xùn)練的。采取了額外的步驟以確保更高質(zhì)量和更穩(wěn)健的訓(xùn)練模型。訓(xùn)練過程包括兩個epoch,有效批量大小為128,學習率為2 × 10?5(bfloat16)。初始權(quán)重使用的Vicuna模型是HuggingFace Hub中的lmsys/vicuna-7b-v1.5。
零樣本文檔重排:作者使用一個開源的大型語言模型(LLM)Vicuna,通過設(shè)計一個輸入提示模板,讓Vicuna根據(jù)用戶的查詢和候選文檔,生成一個按相關(guān)性降序排列的文檔標識符列表。這樣,作者不需要任何任務(wù)相關(guān)的監(jiān)督訓(xùn)練數(shù)據(jù),就可以對檢索到的文檔進行重排,提高搜索效果
提示設(shè)計:作者希望Vicuna能夠根據(jù)提示模板,輸出一個類似于[4] > [2] > [1] > [3] > [5]的排序結(jié)果,表示第4個文檔最相關(guān),第5個文檔最不相關(guān)。
蒸餾訓(xùn)練:作者使用RankGPT3.5作為教師模型,對Vicuna進行蒸餾訓(xùn)練。RankGPT3.5是一個使用GPT3.5作為基礎(chǔ)模型的零樣本文檔重排方法,它也使用了類似的輸入提示模板。作者使用了10萬個從MS MARCO v1數(shù)據(jù)集中隨機采樣的查詢,以及每個查詢對應(yīng)的用BM25檢索到的20個候選文檔。然后,作者用RankGPT3.5對這些候選文檔進行重排,并將其輸出作為Vicuna的訓(xùn)練目標。作者還使用了一些數(shù)據(jù)增強技術(shù),比如打亂輸入順序和變換輸出順序,來提高Vicuna的泛化能力和魯棒性。
結(jié)果:
a. 詳細的實驗設(shè)置:
RankVicuna的有效性與現(xiàn)有的無監(jiān)督排序方法(BM25和Contriever)以及其他提示解碼模型(LRL with GPT3.5,RankGPT with GPT3.5和GPT4,以及PRP-Sliding-10 with Vicuna)進行了比較。使用TREC 2019和2020 Deep Learning Tracks的測試集進行評估,使用來自段落檢索任務(wù)的查詢和相關(guān)性判斷。使用的數(shù)據(jù)集是DL19和DL20,其中包含來自MS MARCO v1段落語料庫的880萬個段落。使用的評估指標是nDCG@10和MAP@100。Vicuna和GPT3.5的上下文大小為4096,而GPT4的上下文大小為8192。使用滑動窗口方法對每個查詢的前100個候選文檔進行重新排序。
b. 詳細的實驗結(jié)果:
RankVicuna具有7B參數(shù),在有效性方面與RankGPT3.5相當,優(yōu)于基線方法(BM25和Contriever)。結(jié)果表明,所有LLM重新排序器都優(yōu)于基線方法。