使用預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行少樣本和零樣本事實(shí)驗(yàn)證

Title: Prompt to be Consistent is Better than Self-Consistent? Few-Shot and Zero-Shot Fact Verification with Pre-trained Language Models
論文簡(jiǎn)要 :
本文提出了一種名為ProToCo的新方法,通過(guò)使用預(yù)訓(xùn)練語(yǔ)言模型(PLMs)并構(gòu)建一致性機(jī)制,改進(jìn)了少樣本和零樣本事實(shí)驗(yàn)證任務(wù)的準(zhǔn)確性。實(shí)驗(yàn)證明,ProToCo在少樣本和零樣本驗(yàn)證任務(wù)中顯著優(yōu)于現(xiàn)有方法,并且在與大型PLMs的比較中也取得了更好的性能。
背景信息:
論文背景: 隨著信息誤導(dǎo)問(wèn)題的日益嚴(yán)重,事實(shí)驗(yàn)證成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。然而,少樣本和零樣本事實(shí)驗(yàn)證任務(wù)由于缺乏足夠的標(biāo)注數(shù)據(jù)而受到限制。
過(guò)去方案: 過(guò)去的方法主要依賴于預(yù)訓(xùn)練語(yǔ)言模型的隱式知識(shí),但沒(méi)有對(duì)模型參數(shù)進(jìn)行更新,因此無(wú)法改進(jìn)語(yǔ)言模型本身的性能。另一些方法則需要在目標(biāo)領(lǐng)域上進(jìn)行全面的微調(diào),或者通過(guò)生成特定任務(wù)的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練分類器。然而,這些方法在少樣本和零樣本任務(wù)上的性能有限。
論文的Motivation: 鑒于現(xiàn)有方法的局限性,本文旨在通過(guò)構(gòu)建一致性機(jī)制和使用預(yù)訓(xùn)練語(yǔ)言模型,提高少樣本和零樣本事實(shí)驗(yàn)證任務(wù)的性能。通過(guò)引入一致性約束和使用預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行參數(shù)更新,作者希望改進(jìn)模型的準(zhǔn)確性和泛化能力。
方法:
a. 理論背景:
本文解決了自然語(yǔ)言處理(NLP)中事實(shí)驗(yàn)證的問(wèn)題,并關(guān)注有限或無(wú)標(biāo)簽訓(xùn)練樣本的少樣本和零樣本場(chǎng)景。作者提出了一種名為ProToCo的方法,利用預(yù)訓(xùn)練語(yǔ)言模型(PLMs)來(lái)改進(jìn)事實(shí)性評(píng)估。ProToCo生成聲明的多個(gè)變體,并應(yīng)用一致性機(jī)制來(lái)確保這些變體之間的兼容預(yù)測(cè)。作者使用參數(shù)高效的微調(diào)(PEFT)來(lái)更新PLMs,并在少樣本和零樣本事實(shí)驗(yàn)證任務(wù)中實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。本文強(qiáng)調(diào)了一致性在事實(shí)驗(yàn)證中的重要性以及PLMs在將自我一致性轉(zhuǎn)移到下游任務(wù)中的局限性。作者旨在明確地對(duì)PLMs施加一致性,以提高它們?cè)谏贅颖竞土銟颖臼聦?shí)驗(yàn)證中的性能。
b. 技術(shù)路線:
ProToCo模型利用文本到文本的PLM(如T5)作為事實(shí)驗(yàn)證的基礎(chǔ)。每個(gè)實(shí)例的輸入和標(biāo)簽使用提示模板重新格式化,其中包括輸入模板和目標(biāo)模板。輸入模板填充了證據(jù)和聲明,而目標(biāo)模板將標(biāo)簽映射到特定的響應(yīng)鍵。模型使用自回歸生成預(yù)測(cè)目標(biāo)序列的概率。推理通過(guò)對(duì)所有類別的預(yù)測(cè)分?jǐn)?shù)進(jìn)行排名,并選擇排名最高的類別作為預(yù)測(cè)結(jié)果。一致性機(jī)制通過(guò)基于確認(rèn)、不確定性和否定關(guān)系構(gòu)建聲明的邏輯變體來(lái)建立。模型使用參數(shù)高效的微調(diào)(PEFT)方法(稱為(IA)3)進(jìn)行微調(diào),該方法更新了少量參數(shù)。使用多個(gè)損失函數(shù),包括標(biāo)準(zhǔn)的交叉熵?fù)p失,來(lái)更新新參數(shù)。
結(jié)果:
a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:
實(shí)驗(yàn)在三個(gè)公共事實(shí)驗(yàn)證數(shù)據(jù)集上進(jìn)行:FEVER、SciFACT和VitaminC。對(duì)于少樣本事實(shí)驗(yàn)證,主要結(jié)果報(bào)告了4個(gè)樣本的實(shí)驗(yàn),附加的K樣本實(shí)驗(yàn)(K = {1, 2, 4, 8, 16})作為補(bǔ)充結(jié)果。對(duì)于零樣本實(shí)驗(yàn),從每個(gè)訓(xùn)練集中隨機(jī)抽取每類30個(gè)實(shí)例進(jìn)行微調(diào)。
與ProToCo進(jìn)行比較的幾個(gè)基線包括Majority、RoBERTa-L、GPT2-PPL、SEED、T0和T-Few。每個(gè)基線的實(shí)驗(yàn)設(shè)置都有詳細(xì)描述。
使用T-Few的原始源代碼和其發(fā)布的預(yù)訓(xùn)練檢查點(diǎn)(3B參數(shù))作為基礎(chǔ)模型。對(duì)于少樣本和零樣本設(shè)置,設(shè)置相應(yīng)的訓(xùn)練步驟、批量大小和學(xué)習(xí)率。
b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:
實(shí)驗(yàn)結(jié)果以在隨機(jī)選擇的訓(xùn)練樣本和不同種子上平均的宏F1分?jǐn)?shù)報(bào)告。結(jié)果顯示了ProToCo在三個(gè)數(shù)據(jù)集(FEVER、SciFACT和VitaminC)上與基線的性能對(duì)比。最佳結(jié)果被突出顯示,并提供了標(biāo)準(zhǔn)差。