使用預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行少樣本和零樣本事實(shí)驗(yàn)證

2023-08-10 20:43 作者:三月phanta 0人讀過(guò) | 我要投稿

Title: Prompt to be Consistent is Better than Self-Consistent? Few-Shot and Zero-Shot Fact Verification with Pre-trained Language Models

本文提出了一種名為ProToCo的新方法，通過(guò)使用預(yù)訓(xùn)練語(yǔ)言模型（PLMs）并構(gòu)建一致性機(jī)制，改進(jìn)了少樣本和零樣本事實(shí)驗(yàn)證任務(wù)的準(zhǔn)確性。實(shí)驗(yàn)證明，ProToCo在少樣本和零樣本驗(yàn)證任務(wù)中顯著優(yōu)于現(xiàn)有方法，并且在與大型PLMs的比較中也取得了更好的性能。

論文背景: 隨著信息誤導(dǎo)問(wèn)題的日益嚴(yán)重，事實(shí)驗(yàn)證成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。然而，少樣本和零樣本事實(shí)驗(yàn)證任務(wù)由于缺乏足夠的標(biāo)注數(shù)據(jù)而受到限制。
過(guò)去方案: 過(guò)去的方法主要依賴于預(yù)訓(xùn)練語(yǔ)言模型的隱式知識(shí)，但沒(méi)有對(duì)模型參數(shù)進(jìn)行更新，因此無(wú)法改進(jìn)語(yǔ)言模型本身的性能。另一些方法則需要在目標(biāo)領(lǐng)域上進(jìn)行全面的微調(diào)，或者通過(guò)生成特定任務(wù)的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練分類器。然而，這些方法在少樣本和零樣本任務(wù)上的性能有限。
論文的Motivation: 鑒于現(xiàn)有方法的局限性，本文旨在通過(guò)構(gòu)建一致性機(jī)制和使用預(yù)訓(xùn)練語(yǔ)言模型，提高少樣本和零樣本事實(shí)驗(yàn)證任務(wù)的性能。通過(guò)引入一致性約束和使用預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行參數(shù)更新，作者希望改進(jìn)模型的準(zhǔn)確性和泛化能力。

本文解決了自然語(yǔ)言處理（NLP）中事實(shí)驗(yàn)證的問(wèn)題，并關(guān)注有限或無(wú)標(biāo)簽訓(xùn)練樣本的少樣本和零樣本場(chǎng)景。作者提出了一種名為ProToCo的方法，利用預(yù)訓(xùn)練語(yǔ)言模型（PLMs）來(lái)改進(jìn)事實(shí)性評(píng)估。ProToCo生成聲明的多個(gè)變體，并應(yīng)用一致性機(jī)制來(lái)確保這些變體之間的兼容預(yù)測(cè)。作者使用參數(shù)高效的微調(diào)（PEFT）來(lái)更新PLMs，并在少樣本和零樣本事實(shí)驗(yàn)證任務(wù)中實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。本文強(qiáng)調(diào)了一致性在事實(shí)驗(yàn)證中的重要性以及PLMs在將自我一致性轉(zhuǎn)移到下游任務(wù)中的局限性。作者旨在明確地對(duì)PLMs施加一致性，以提高它們?cè)谏贅颖竞土銟颖臼聦?shí)驗(yàn)證中的性能。

ProToCo模型利用文本到文本的PLM（如T5）作為事實(shí)驗(yàn)證的基礎(chǔ)。每個(gè)實(shí)例的輸入和標(biāo)簽使用提示模板重新格式化，其中包括輸入模板和目標(biāo)模板。輸入模板填充了證據(jù)和聲明，而目標(biāo)模板將標(biāo)簽映射到特定的響應(yīng)鍵。模型使用自回歸生成預(yù)測(cè)目標(biāo)序列的概率。推理通過(guò)對(duì)所有類別的預(yù)測(cè)分?jǐn)?shù)進(jìn)行排名，并選擇排名最高的類別作為預(yù)測(cè)結(jié)果。一致性機(jī)制通過(guò)基于確認(rèn)、不確定性和否定關(guān)系構(gòu)建聲明的邏輯變體來(lái)建立。模型使用參數(shù)高效的微調(diào)（PEFT）方法（稱為(IA)3）進(jìn)行微調(diào)，該方法更新了少量參數(shù)。使用多個(gè)損失函數(shù)，包括標(biāo)準(zhǔn)的交叉熵?fù)p失，來(lái)更新新參數(shù)。

實(shí)驗(yàn)在三個(gè)公共事實(shí)驗(yàn)證數(shù)據(jù)集上進(jìn)行：FEVER、SciFACT和VitaminC。對(duì)于少樣本事實(shí)驗(yàn)證，主要結(jié)果報(bào)告了4個(gè)樣本的實(shí)驗(yàn)，附加的K樣本實(shí)驗(yàn)（K = {1, 2, 4, 8, 16}）作為補(bǔ)充結(jié)果。對(duì)于零樣本實(shí)驗(yàn)，從每個(gè)訓(xùn)練集中隨機(jī)抽取每類30個(gè)實(shí)例進(jìn)行微調(diào)。
與ProToCo進(jìn)行比較的幾個(gè)基線包括Majority、RoBERTa-L、GPT2-PPL、SEED、T0和T-Few。每個(gè)基線的實(shí)驗(yàn)設(shè)置都有詳細(xì)描述。
使用T-Few的原始源代碼和其發(fā)布的預(yù)訓(xùn)練檢查點(diǎn)（3B參數(shù)）作為基礎(chǔ)模型。對(duì)于少樣本和零樣本設(shè)置，設(shè)置相應(yīng)的訓(xùn)練步驟、批量大小和學(xué)習(xí)率。

實(shí)驗(yàn)結(jié)果以在隨機(jī)選擇的訓(xùn)練樣本和不同種子上平均的宏F1分?jǐn)?shù)報(bào)告。結(jié)果顯示了ProToCo在三個(gè)數(shù)據(jù)集（FEVER、SciFACT和VitaminC）上與基線的性能對(duì)比。最佳結(jié)果被突出顯示，并提供了標(biāo)準(zhǔn)差。

標(biāo)簽：