GPT-4數(shù)據(jù)造假,讓研究論文登上學(xué)術(shù)期刊
大家現(xiàn)在或許已經(jīng)對ChatGPT“睜著眼睛說瞎話”的行為見怪不怪了,但你可能想不到,如今GPT-4的造假能力已經(jīng)修煉到了“爐火純青”的境界,偽造的論文數(shù)據(jù)甚至騙過了國際學(xué)術(shù)期刊審核員的眼睛。

當(dāng)?shù)貢r間11月22日,Nature發(fā)文說明,一篇于11月9日發(fā)表在《JAMA Ophthalmology》(《JAMA 眼科學(xué)》)的論文中存在數(shù)據(jù)造假的現(xiàn)象,而造假的“幕后黑手”正是GPT-4。
據(jù)悉,《JAMA Ophthalmology》自1869年以來連續(xù)出版,至今已有百余年歷史,是同行評審的國際眼科和視覺科學(xué)期刊。
Nature介紹,這次論文造假已不是抄襲這么簡單,而是研究人員使用GPT-4的高級數(shù)據(jù)分析功能(ADA)生成了一個假數(shù)據(jù)集,準(zhǔn)確支撐了錯誤的論文觀點(diǎn),形成了誤導(dǎo)結(jié)果。
據(jù)報(bào)道,研究人員先是向GPT-4輸入了一些列數(shù)據(jù)生成要求,然后提供了一系列的提示詞,要求它創(chuàng)建一個關(guān)于圓錐角膜(keratoconus)眼部疾病患者的數(shù)據(jù)集。
目前治療圓錐角膜疾病的方式主要有兩種,一種是穿透性角膜移植(PK),另一種是深板層移植(DALK)。AI 隨即生成的數(shù)據(jù)包括 160 名男性和 140 名女性參與者,并表明接受 “DALK” 治療的人在視力和成像測試方面的得分都比接受 “PK” 治療方法的人更好。但經(jīng)驗(yàn)證發(fā)現(xiàn),這一發(fā)現(xiàn)與真正的臨床試驗(yàn)顯示的結(jié)果不一致。
為了驗(yàn)證 GPT-4 做出來的數(shù)據(jù)是否真的令人信服,Nature 特意請來了英國曼徹斯特大學(xué)生物統(tǒng)計(jì)學(xué)家杰克?威爾金森(Jack Wilkinson)和同事Zewen Lu來檢查數(shù)據(jù)可信度。
調(diào)查人員表示,數(shù)據(jù)集中許多“參與者”的性別與通常從名字中預(yù)期的性別不匹配(比如“Mary”是男性)。此外,術(shù)前和術(shù)后視力測量與眼部影像學(xué)測試之間沒有發(fā)現(xiàn)相關(guān)性?!彼麄冋J(rèn)為該數(shù)據(jù)集存在缺陷。
研究作者隨后承認(rèn)了該調(diào)查結(jié)果,并表示“如果只是快速地察看這個數(shù)據(jù)集,很難識別出他不是人做的?!?/p>
EMBO報(bào)告的主編Bernd Pulverer認(rèn)為這是一個令人擔(dān)憂的問題,因?yàn)楝F(xiàn)實(shí)中的評審人往往無法進(jìn)行全面的數(shù)據(jù)分析,并且不太容易發(fā)現(xiàn)人工智能精心設(shè)計(jì)的違規(guī)行為。他補(bǔ)充說,“期刊將需要更新質(zhì)量檢查的方法,以識別人工智能生成的合成數(shù)據(jù)?!?/p>
威爾金森也強(qiáng)調(diào),這是一個需要人們思考的問題,因?yàn)锳I一旦知道自己是哪里“露餡”了,很快將會進(jìn)步,并找出方法來規(guī)避這些問題,從而生成讓人類更難以識別的結(jié)果。
人工智能的發(fā)展為科學(xué)研究帶來了很多幫助,例如在數(shù)據(jù)分析及復(fù)雜運(yùn)算方面,它都是一個很好的工具。但目前為止,很大一部分科學(xué)家還是對其可信性表示擔(dān)憂。
邵逸夫生命科學(xué)與醫(yī)學(xué)獎得獎?wù)弑说谩ず诟衤≒eter Hegemann)曾對旺旺屋表示,“人工智能的確在一些研究工作上幫忙節(jié)省了很多時間,比如比對幾百個基因,人工做下來要很久,它卻可能在幾秒內(nèi)完成。但至少從生物學(xué)的角度看,人工智能構(gòu)建的模型還不完整,生成的結(jié)果還不足以讓人信賴?!?/p>