Journalism Guided Adversarially Robust Detection of AI-generated

2023-10-13 20:36 作者:三月phanta 0人讀過 | 我要投稿

Title: J-Guard: Journalism Guided Adversarially Robust Detection of AI-generated News (J-Guard: 新聞引導(dǎo)的對抗魯棒性檢測AI生成新聞)
Keywords: AI-generated news, adversarial robustness, journalism, detection, stylistic cues (AI生成新聞, 對抗魯棒性, 新聞, 檢測, 文體線索)

論文簡要 :

本研究提出了一種名為J-Guard的框架，通過引入新聞領(lǐng)域的文體線索，增強(qiáng)了現(xiàn)有的AI文本檢測器對AI生成新聞的檢測能力，并提高了對對抗攻擊的魯棒性，實驗結(jié)果表明，在面對對抗攻擊時，J-Guard的性能下降平均僅為7%。

論文背景: 近年來，基于轉(zhuǎn)換器的生成模型的快速發(fā)展極大地提升了先進(jìn)對話型AI的自然語言生成能力，其中包括ChatGPT和BARD等。然而，這些AI工具的公開使用存在潛在的濫用風(fēng)險，惡意行為者可以利用這些模型傳播虛假信息，特別是生成虛假新聞文章，對信息生態(tài)系統(tǒng)造成嚴(yán)重破壞。
過去方案: 過去的研究已經(jīng)在檢測AI生成文本方面取得了一些進(jìn)展，但大多數(shù)方法并沒有專門針對AI生成新聞進(jìn)行研究?，F(xiàn)有的通用AI文本檢測器在檢測AI生成新聞方面存在一些挑戰(zhàn)，因為新聞文章具有獨特的寫作風(fēng)格和特點，應(yīng)用通用的AI文本檢測方法可能會產(chǎn)生誤報，損害新聞機(jī)構(gòu)的聲譽(yù)。
論文的Motivation: 鑒于AI生成新聞的潛在威脅和現(xiàn)有方法的局限性，本研究旨在開發(fā)一種能夠檢測AI生成新聞并提高對對抗攻擊魯棒性的框架。通過結(jié)合新聞領(lǐng)域的文體線索，我們可以有效區(qū)分真實的新聞和AI生成的新聞文章。實驗結(jié)果表明，J-Guard在面對各種AI模型生成的新聞文章時具有良好的檢測能力，并在面對對抗攻擊時仍然保持較高的魯棒性。

本文介紹了一個由跨學(xué)科團(tuán)隊開發(fā)的框架J-Guard，用于檢測AI生成的新聞文章并增強(qiáng)對抗性魯棒性。J-Guard結(jié)合了受新聞屬性啟發(fā)的文體線索，以區(qū)分真實世界的新聞報道和AI生成的新聞。實驗結(jié)果表明，J-Guard在檢測AI生成的新聞時具有很高的效果，并且在面對對抗性攻擊時性能下降很小。

J-Guard框架由兩個主要組件組成：基礎(chǔ)AI文本檢測器和新聞指導(dǎo)組件?；A(chǔ)AI文本檢測器是一個預(yù)訓(xùn)練的變壓器編碼器堆棧，用于學(xué)習(xí)輸入新聞文章的語義表示。新聞指導(dǎo)組件將輔助新聞線索注入到檢測流程中，將基礎(chǔ)檢測器轉(zhuǎn)變?yōu)锳I生成的新聞檢測器。最終的隱藏向量表示特殊標(biāo)記[CLS]被用作檢測AI生成的新聞的特征向量。

實驗使用了一個名為TuringBench的數(shù)據(jù)集進(jìn)行驗證，該數(shù)據(jù)集包含了人工撰寫的新聞文章和來自各種PLM的AI生成的新聞。使用邏輯回歸和詞袋模型以及Word2Vec特征的基線分類器來評估新聞特征的質(zhì)量。將J-Guard框架與基于最先進(jìn)的PLM的AI生成文本檢測方法進(jìn)行了比較。

實驗結(jié)果旨在回答兩個研究問題：確定新聞特征是否增強(qiáng)了對AI生成新聞的檢測，以及它們是否增強(qiáng)了對AI生成新聞檢測的對抗性魯棒性。實驗結(jié)果表明，J-Guard框架在檢測AI生成的新聞方面具有很高的準(zhǔn)確性，并且在面對對抗性攻擊時具有較好的魯棒性。

標(biāo)簽：