計(jì)算機(jī)領(lǐng)域驚爆論文“花式造假”
撰文 | 小葉
“撤稿觀(guān)察”(RetractionWatch.com)網(wǎng)站報(bào)道了一樁手法驚人的疑似學(xué)術(shù)不端事件。2021年7月中旬,國(guó)際學(xué)術(shù)出版商愛(ài)思唯爾(Elsevier)宣布調(diào)查旗下期刊《微處理器和微系統(tǒng)》(Microprocessors & Microsystems),對(duì)其發(fā)表過(guò)的400多篇論文進(jìn)行逐一“重新獨(dú)立評(píng)估”。而這些需要被調(diào)查的文章主要來(lái)自該期刊的6份“特刊”(Special Issues)[1]。
有別于常規(guī)正刊,特刊往往以更加明確細(xì)分的特定研究課題為主,邀請(qǐng)客座編輯監(jiān)督編撰。因此,發(fā)表在特刊上的文章有獨(dú)特優(yōu)勢(shì):在同一領(lǐng)域內(nèi)的可見(jiàn)度更高,出版速度也因文章獨(dú)立正刊發(fā)表而更快。
《微處理器和微系統(tǒng)》是一本什么期刊?數(shù)據(jù)顯示,其刊物影響因子1.525,是中科院工程技術(shù)及計(jì)算機(jī)科學(xué)四區(qū)期刊。該刊論文內(nèi)容涵蓋所有與嵌入式系統(tǒng)硬件相關(guān)的設(shè)計(jì)和架構(gòu),包括計(jì)算機(jī)、人工智能、通信、網(wǎng)絡(luò)技術(shù)等多個(gè)學(xué)科領(lǐng)域。該刊官網(wǎng)介紹稱(chēng),近5年來(lái),其刊物文章通訊作者的第一大來(lái)源國(guó)是中國(guó),緊隨其后的是印度。(如下圖)

來(lái)源:https://www.journals.elsevier.com/microprocessors-and-microsystems
愛(ài)思唯爾的發(fā)言人接受《自然》(Nature)采訪(fǎng)時(shí)表示,根據(jù)目前已知情況,需要被調(diào)查的400多篇文章的作者很可能使用了反向翻譯軟件來(lái)掩飾剽竊行為,但調(diào)查仍在進(jìn)行中。[2]
幾乎同時(shí),法國(guó)圖盧茲大學(xué)(University of Toulouse)的計(jì)算機(jī)科學(xué)家Guillaume Cabanac和他的同事們?cè)陬A(yù)印本網(wǎng)站arXiv.org上發(fā)布了一篇文章[3],揭示了一種偽造學(xué)術(shù)論文的新方式——用扭曲短語(yǔ)(tortured phrase)代替常規(guī)專(zhuān)業(yè)術(shù)語(yǔ),躲過(guò)查重,讓文章順利發(fā)表。而被發(fā)現(xiàn)有此問(wèn)題的文章多一半來(lái)自《微處理器和微系統(tǒng)》。
所謂“扭曲短語(yǔ)”是將約定俗成的英文專(zhuān)業(yè)術(shù)語(yǔ)通過(guò)軟件翻譯成某一門(mén)外語(yǔ),再翻譯回英語(yǔ),最終得到與原術(shù)語(yǔ)意思類(lèi)似,但看上去非常奇怪的同義詞短語(yǔ)。比如,研究人員親自試驗(yàn),將“artificial intelligence”(人工智能)在相關(guān)軟件內(nèi)多次替換之后,就順利出現(xiàn)了“counterfeit consciousness”(仿造意識(shí)),“man-made brainpower”(人造智力)或者“computerized reasoning”(計(jì)算推理)等由“artificial intelligence”扭曲而來(lái)的畫(huà)風(fēng)奇異的術(shù)語(yǔ)。

論文對(duì)比了30個(gè)正確的英文術(shù)語(yǔ)和發(fā)表在論文中的“扭曲短語(yǔ)”[3]
這些隱蔽的問(wèn)題是怎么發(fā)現(xiàn)的?
原來(lái),今年4月,Cabanac和他的同事們先是在一些計(jì)算機(jī)科學(xué)的論文中發(fā)現(xiàn)了些許長(zhǎng)相怪異的短語(yǔ),于是搜集了30個(gè)奇怪短語(yǔ)(如上圖所示)放入引文數(shù)據(jù)庫(kù)中搜索,結(jié)果一下子搜出860多篇文章!而其中500多篇來(lái)自同一本期刊:《微處理器和微系統(tǒng)》。
隨后,他們選取了《微處理器和微系統(tǒng)》以及其他期刊上已經(jīng)發(fā)表的一些論文摘要,使用自然語(yǔ)言處理模型GTP(生成預(yù)訓(xùn)練,Generative Pre-Training)檢測(cè)器對(duì)其進(jìn)行分析,篩查出可能是人工智能轉(zhuǎn)寫(xiě)出來(lái)的合成文本,并肉眼閱讀了其中幾篇,果然發(fā)現(xiàn)了不少公開(kāi)發(fā)表的論文中不該出現(xiàn)的問(wèn)題,包括:
- 重復(fù)使用文本/圖片,但未加標(biāo)注;- 引用根本不存在的文獻(xiàn);- 引用論文中并不存在的公式或變量;
- 文中摻雜著無(wú)法解釋、沒(méi)有意義的語(yǔ)句;
這種新的造假手段十分驚人。著名學(xué)術(shù)打假人Elisabeth Bik稱(chēng)其“非常新穎”而又“令人不安”。
除了這些“不可接受”的錯(cuò)誤之外,論文評(píng)審過(guò)程也疑點(diǎn)重重。研究人員下載了2018-2021年間發(fā)表于《微處理器和微系統(tǒng)》上的所有論文,發(fā)現(xiàn)從2021年2月起,論文平均接收時(shí)間比原來(lái)縮短了5倍,但發(fā)表數(shù)量卻比此前三年(2018年-2020年)發(fā)表的總數(shù)還多。此間,有404篇論文從提交到接收的整個(gè)過(guò)程不到30天,其中394篇(97.5%)的作者來(lái)自中國(guó)大陸。而在同行評(píng)審時(shí)間超過(guò)40天的615篇論文中,只有58篇(9.5%)的作者來(lái)自中國(guó)大陸。
另外一個(gè)可疑之處是,有些論文的提交日期、修改日期和接受日期均為同一天,其中大部分發(fā)表在特刊上。對(duì)此,Cabanac表示,如果評(píng)審、編輯過(guò)程符合規(guī)范操作,那便無(wú)法合理解釋這一現(xiàn)象。
而且,Cabanac和同事所調(diào)查的扭曲短語(yǔ)問(wèn)題論文,尤其是《微處理器和微系統(tǒng)》第80-83卷涉及的不少超速評(píng)審論文,行文結(jié)構(gòu)相當(dāng)統(tǒng)一、小標(biāo)題相似、圖表用色相同。因此,研究人員推測(cè),這些論文可能出自論文作坊,并且還使用了論文降重改寫(xiě)軟件,類(lèi)似于spinbot.com這樣的免費(fèi)或者付費(fèi)軟件/網(wǎng)站。Spinbot類(lèi)的軟件工作原理很簡(jiǎn)單,就是同義詞替換。既可以替換單詞,也可以替換整段文本。這樣,作假者就很容易隨意截取他人論文素材,用軟件反復(fù)替換為自己所用,并躲過(guò)論文查重。
所有案例和數(shù)據(jù)都是觸目驚心的!在論文的最后,研究人員寫(xiě)道:使用人工智能合成文本的欺騙行為嚴(yán)重危害了科研誠(chéng)信,所有問(wèn)題仍然脫離不了學(xué)術(shù)界長(zhǎng)久以來(lái)“不發(fā)表,就爛掉”(publish or perish)的不良風(fēng)氣。因此,他們呼吁各領(lǐng)域的同行共同深入調(diào)查這一偽造論文的新手段,監(jiān)督論文發(fā)表的生態(tài)環(huán)境。目前,他們的研究范圍僅限于計(jì)算機(jī)科學(xué),還沒(méi)有人檢查其他領(lǐng)域內(nèi)是否存在“扭曲短語(yǔ)”現(xiàn)象。
雖然此次大規(guī)模論文重新調(diào)查事件尚未定論,但據(jù)目前情況來(lái)看,學(xué)術(shù)不端行為的泛濫面臨兩個(gè)嚴(yán)重新問(wèn)題,值得警示:
首先,近年來(lái),人工智能技術(shù)逐步應(yīng)用在學(xué)術(shù)不端控制與預(yù)防方面,包括大數(shù)據(jù)智能檢索防止文字、數(shù)據(jù)和圖像FFP[指?jìng)卧欤‵abrication)、篡改(Falsification)和抄襲(Plagiarism)],AI輔助同行評(píng)審,智能身份識(shí)別等等,為提高科研誠(chéng)信做出了貢獻(xiàn)。然而,帶來(lái)利的人工智能技術(shù)也可為有心學(xué)術(shù)不端的人所利用。除了已揭發(fā)的“扭曲短語(yǔ)”造假手段之外,未來(lái)是否會(huì)繼續(xù)出現(xiàn)更加便捷的智能造假技術(shù),應(yīng)用在更多學(xué)科領(lǐng)域的研究中呢?果真如此,又該采取怎樣的措施來(lái)預(yù)防并打擊各種新花招呢?
其次,這次事件還暴露了正刊之外特刊出版中的潛在缺陷,讓學(xué)術(shù)不端趁虛而入。愛(ài)思唯爾為特刊推出了一種新的出版流程:特刊文章可獨(dú)立發(fā)表,這樣可避免文章出版的延遲,克服了傳統(tǒng)流程的缺點(diǎn),即必須等所有稿件都完成之后才能出版。所以,特刊文章發(fā)表速度更快些,不過(guò)即使再快,正如Cabanac研究所發(fā)現(xiàn)的,400多篇論文在30天內(nèi)即完成從投稿到接收的過(guò)程,其中有些文章同一天投稿、修改、接收,這一明顯“超載行為”讓人無(wú)法不去懷疑其流程中有什么“貓膩”。
從原則上說(shuō),無(wú)論正刊還是特刊,編輯們都遵循相同的編輯和同行評(píng)審政策。對(duì)此,愛(ài)思唯爾發(fā)言人向《自然》解釋?zhuān)骸熬庉嬒到y(tǒng)中出現(xiàn)了配置錯(cuò)誤(configuration error)”,也就是說(shuō),主編或者指定負(fù)責(zé)處理特刊論文的客座編輯在投稿沒(méi)有通過(guò)應(yīng)有審批的情況下直接收到了這些文章,不過(guò)這只是“系統(tǒng)遷移時(shí)的臨時(shí)問(wèn)題,一經(jīng)發(fā)現(xiàn)很快就會(huì)修正?!盵2]
盡管如此,愛(ài)思唯爾發(fā)言人曾回復(fù)《撤稿觀(guān)察》:“愛(ài)思唯爾對(duì)其所有主題特刊的整體流程進(jìn)行總體審查,除了現(xiàn)有的驗(yàn)證特刊提案和客座編輯身份和資格的流程外,我們會(huì)進(jìn)一步審查,以確保所有稿件接收的決定都得到主編或編輯委員會(huì)成員的一致確認(rèn),同時(shí)也會(huì)提醒員工注意特刊中的違規(guī)行為?!盵4]如此看來(lái),關(guān)于特刊和客座編輯,不可避免需要一些改革,堵上其中漏洞,防止學(xué)術(shù)不端“鉆空子”。
參考文獻(xiàn)
[1] https://retractionwatch.com/2021/07/19/tortured-phrases-lost-in-translation-sleuths-find-even-more-problems-at-journal-that-just-flagged-400-papers/#more-122688
[2] https://www.nature.com/articles/d41586-021-02134-0
[3] https://arxiv.org/abs/2107.0 6751
[4] https://retractionwatch.com/2021/07/12/elsevier-says-integrity-and-rigor-of-peer-review-for-400-papers-fell-beneath-the-high-standards-expected/