大語言模型能否識別假新聞?一項研究對ChatGPT等模型進行了評估
近年來,假新聞和網(wǎng)絡(luò)謠言成為了一個嚴重的社會問題,不僅影響了公眾的認知和判斷,也威脅了社會的穩(wěn)定和安全。為了應(yīng)對這一挑戰(zhàn),許多研究者和開發(fā)者嘗試利用人工智能(AI)技術(shù)來輔助事實核查和信息驗證。
美國威斯康星州立大學(xué)的研究者Kevin Matthe Caramancion最近進行了一項研究,評估了目前最知名的四個LLM,即Open AI的Chat GPT-3.0和Chat GPT-4.0、谷歌的Bard/LaMDA和微軟的Bing AI,在檢測新聞?wù)婕俜矫娴谋憩F(xiàn)。
他的研究結(jié)果發(fā)表在預(yù)印本服務(wù)器arXiv上,為未來利用這些先進的模型來對抗網(wǎng)絡(luò)謠言提供了寶貴的參考。
Caramancion在接受Tech Xplore采訪時表示:“我最近的論文靈感來源于理解各種LLM在對抗網(wǎng)絡(luò)謠言方面的能力和局限性的需求。我的目標是嚴格地測試這些模型在區(qū)分事實與虛構(gòu)方面的熟練程度,使用一個受控的模擬實驗和已建立的事實核查機構(gòu)作為基準?!?/p>
他說:“我們使用了一個由100個經(jīng)過獨立事實核查機構(gòu)核實過的新聞項目組成的測試套件,來評估這些大語言模型的性能。我們在受控條件下向這些模型呈現(xiàn)每一個新聞項目,然后將它們的回應(yīng)分為三類:真、假、部分真/假。我們根據(jù)這些模型與獨立機構(gòu)提供的核實事實相比較的準確度來衡量它們的有效性。”
Caramancion發(fā)現(xiàn),在100個測試項目中,四個LLM中只有Bing AI能夠正確地識別出所有真實新聞,并且沒有將任何假新聞?wù)`判為真實新聞。而其他三個LLM則表現(xiàn)出不同程度的錯誤率,其中Chat GPT-4.0是最差的一個,只能正確識別出67%的真實新聞,并且將23%的假新聞?wù)`判為真實新聞。
Caramancion認為,這些結(jié)果表明,目前的LLM還不能完全取代人類在事實核查方面的作用,而且需要更多的改進和優(yōu)化。他建議,在使用這些模型時,應(yīng)該結(jié)合其他來源和方法來驗證信息,并且要注意它們可能存在的偏見和局限性。
他說:“我希望我的研究能夠引起人們對LLM在識別假新聞方面潛力和挑戰(zhàn)的關(guān)注,以及對它們在社會中的影響和責(zé)任的思考。我也希望我的研究能夠激發(fā)更多的研究者和開發(fā)者來探索和改進這些模型,使它們能夠更好地服務(wù)于人類的福祉?!?/p>
#人工智能 #大語言模型 #假新聞 #事實核查 #ChatGPT