Journalism Guided Adversarially Robust Detection of AI-generated
Title: J-Guard: Journalism Guided Adversarially Robust Detection of AI-generated News (J-Guard: 新聞引導(dǎo)的對抗魯棒性檢測AI生成新聞)
Keywords: AI-generated news, adversarial robustness, journalism, detection, stylistic cues (AI生成新聞, 對抗魯棒性, 新聞, 檢測, 文體線索)
論文簡要 :
本研究提出了一種名為J-Guard的框架,通過引入新聞領(lǐng)域的文體線索,增強(qiáng)了現(xiàn)有的AI文本檢測器對AI生成新聞的檢測能力,并提高了對對抗攻擊的魯棒性,實驗結(jié)果表明,在面對對抗攻擊時,J-Guard的性能下降平均僅為7%。
背景信息:
論文背景: 近年來,基于轉(zhuǎn)換器的生成模型的快速發(fā)展極大地提升了先進(jìn)對話型AI的自然語言生成能力,其中包括ChatGPT和BARD等。然而,這些AI工具的公開使用存在潛在的濫用風(fēng)險,惡意行為者可以利用這些模型傳播虛假信息,特別是生成虛假新聞文章,對信息生態(tài)系統(tǒng)造成嚴(yán)重破壞。
過去方案: 過去的研究已經(jīng)在檢測AI生成文本方面取得了一些進(jìn)展,但大多數(shù)方法并沒有專門針對AI生成新聞進(jìn)行研究?,F(xiàn)有的通用AI文本檢測器在檢測AI生成新聞方面存在一些挑戰(zhàn),因為新聞文章具有獨特的寫作風(fēng)格和特點,應(yīng)用通用的AI文本檢測方法可能會產(chǎn)生誤報,損害新聞機(jī)構(gòu)的聲譽(yù)。
論文的Motivation: 鑒于AI生成新聞的潛在威脅和現(xiàn)有方法的局限性,本研究旨在開發(fā)一種能夠檢測AI生成新聞并提高對對抗攻擊魯棒性的框架。通過結(jié)合新聞領(lǐng)域的文體線索,我們可以有效區(qū)分真實的新聞和AI生成的新聞文章。實驗結(jié)果表明,J-Guard在面對各種AI模型生成的新聞文章時具有良好的檢測能力,并在面對對抗攻擊時仍然保持較高的魯棒性。

方法:
a. 理論背景:
本文介紹了一個由跨學(xué)科團(tuán)隊開發(fā)的框架J-Guard,用于檢測AI生成的新聞文章并增強(qiáng)對抗性魯棒性。J-Guard結(jié)合了受新聞屬性啟發(fā)的文體線索,以區(qū)分真實世界的新聞報道和AI生成的新聞。實驗結(jié)果表明,J-Guard在檢測AI生成的新聞時具有很高的效果,并且在面對對抗性攻擊時性能下降很小。
b. 技術(shù)路線:
J-Guard框架由兩個主要組件組成:基礎(chǔ)AI文本檢測器和新聞指導(dǎo)組件?;A(chǔ)AI文本檢測器是一個預(yù)訓(xùn)練的變壓器編碼器堆棧,用于學(xué)習(xí)輸入新聞文章的語義表示。新聞指導(dǎo)組件將輔助新聞線索注入到檢測流程中,將基礎(chǔ)檢測器轉(zhuǎn)變?yōu)锳I生成的新聞檢測器。最終的隱藏向量表示特殊標(biāo)記[CLS]被用作檢測AI生成的新聞的特征向量。
結(jié)果:
a. 詳細(xì)的實驗設(shè)置:
實驗使用了一個名為TuringBench的數(shù)據(jù)集進(jìn)行驗證,該數(shù)據(jù)集包含了人工撰寫的新聞文章和來自各種PLM的AI生成的新聞。使用邏輯回歸和詞袋模型以及Word2Vec特征的基線分類器來評估新聞特征的質(zhì)量。將J-Guard框架與基于最先進(jìn)的PLM的AI生成文本檢測方法進(jìn)行了比較。
b. 詳細(xì)的實驗結(jié)果:
實驗結(jié)果旨在回答兩個研究問題:確定新聞特征是否增強(qiáng)了對AI生成新聞的檢測,以及它們是否增強(qiáng)了對AI生成新聞檢測的對抗性魯棒性。實驗結(jié)果表明,J-Guard框架在檢測AI生成的新聞方面具有很高的準(zhǔn)確性,并且在面對對抗性攻擊時具有較好的魯棒性。