AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞

? 本文并非完全翻譯原文,而是用更本地化的語言進(jìn)行轉(zhuǎn)述,并添加更多論文中內(nèi)容。原文請參考以下鏈接:https://gigazine.net/news/20230614-feedback-loop/

? 在Adobe發(fā)表使用“完全沒有版權(quán)問題”的模型的AI圖像生成軟件「Firefly」,與最近接入Microsoft搜索引擎的「Chat GPT」活躍的背景下,據(jù)咨詢公司在世界范圍的調(diào)查,「有接近50%的在職人員開始在工作中使用生成式AI」。生成式人工智能已經(jīng)開始大規(guī)模的在社會中傳播。
? 但是,由于使用生成式AI(以下簡稱AI)生成并公開的內(nèi)容,與使用人數(shù)的急劇增加,新的問題「AI生成的內(nèi)容充斥在網(wǎng)絡(luò)上,而這些生成數(shù)據(jù)又再次被抓取并被AI學(xué)習(xí)的情況下可能會產(chǎn)生重大的問題與缺陷」被相關(guān)研究團(tuán)體指出。

The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content | VentureBeat
https://venturebeat.com/ai/the-ai-feedback-loop-researchers-warn-of-model-collapse-as-ai-trains-on-ai-generated-content/
? 輸入相應(yīng)tag進(jìn)行簡單數(shù)據(jù)調(diào)整后便可生成高精度圖像的「Stable Diffusion」或「Midjourney」與使用自然語言進(jìn)行對話生成高精度文章的「Chat GPT」等為代表的生成式人工智能夠短時(shí)間內(nèi)急速發(fā)展擴(kuò)張的最重要的原因是得益于大規(guī)模語言模型(LLM)。高適應(yīng)性與泛用性的LLM加上大量被收集的無視版權(quán)與相關(guān)網(wǎng)站規(guī)定與創(chuàng)作者意愿的數(shù)據(jù),使AI能夠?qū)W習(xí)文章與圖像的結(jié)構(gòu)與規(guī)律。
? 原本LLM所使用的訓(xùn)練數(shù)據(jù)都是來源于書籍、網(wǎng)絡(luò)上的文章與記事以及照片與插畫,這些人類在沒有生成式人工智能的情況下的創(chuàng)作。但是隨著生成式人工智能的發(fā)展,受使用AI生成相關(guān)內(nèi)容并在網(wǎng)絡(luò)上公開的人數(shù)激增的影響(其中大部分會刻意或無意不說明或注明發(fā)表內(nèi)容來源于AI)作為學(xué)習(xí)源頭的訓(xùn)練數(shù)據(jù)有很大的可能性會遭到巨大的影響。
? 2023年5月末,英國與加拿大的研究者團(tuán)體以《遞歸的詛咒》(The Curse of Recursion: Training on Generated Data Makes Models Forget)為題的論文在arXiv上發(fā)表,論文詳細(xì)敘述了「生成式人工智能技術(shù)的未來揭示了令人擔(dān)憂的事實(shí)」相關(guān)的內(nèi)容。

[2305.17493] The Curse of Recursion: Training on Generated Data Makes Models Forget
https://doi.org/10.48550/arXiv.2305.17493
全文:https://arxiv.org/pdf/2305.17493.pdf
在論文中作者們明確列出以下觀點(diǎn):
??實(shí)驗(yàn)證明了模型在使用AI生成內(nèi)容學(xué)習(xí)中存在退化學(xué)習(xí)行為,并將其命名為模型崩潰(Model collapse)。
??通過對不同類型模型的不同類型數(shù)據(jù)進(jìn)行實(shí)驗(yàn),證明模型崩壞現(xiàn)象在不同的AI模型中均有存在。
? 實(shí)驗(yàn)證明,避免模型崩潰的至關(guān)重要的一點(diǎn)就是使用真正的人工創(chuàng)作內(nèi)容進(jìn)行訓(xùn)練。
? 論文的主要作者之一的Ilia Shumailov(JRF牛津大學(xué),Vector Institute研究員,劍橋大學(xué)博士)指出「根據(jù)對文生文與圖生圖的AI模型的概率分布研究,即使長期AI學(xué)習(xí)出于幾乎完全理想的條件下,“數(shù)據(jù)分散(丟失)”的過程也難以避免,隨著訓(xùn)練數(shù)據(jù)與時(shí)間的增加,模型中的數(shù)據(jù)的錯(cuò)誤會逐漸增加,最終從生成的數(shù)據(jù)中學(xué)習(xí)會進(jìn)一步導(dǎo)致AI錯(cuò)誤的感知現(xiàn)實(shí)」(實(shí)驗(yàn)?zāi)P停篏MMs,VAE,LLMs)
『We show that over time we start losing information about the true distribution, which first starts with tails disappearing, and over the generations learned behaviours start converging to a point estimate with very small variance. Furthermore, we show that this process is inevitable, even for cases with almost ideal conditions for long-term learning i.e. no function estimation error.』
? Ilia Shumailov指出,學(xué)習(xí)模型在使用AI生成內(nèi)容進(jìn)行訓(xùn)練的情況下可能會立刻“遺忘”掉原始的訓(xùn)練數(shù)據(jù),“我們驚訝地觀察到模型是如此迅速的崩壞”她在文章中如是說道

?


要避免這種廣義上的模型坍塌,至關(guān)重要的的一點(diǎn)就是模型中原始數(shù)據(jù)(非AI生成內(nèi)容訓(xùn)練數(shù)據(jù))的分布,即 需要使用真實(shí)的人為創(chuàng)作的數(shù)據(jù)進(jìn)行訓(xùn)練。換句話說使用生成式AI在網(wǎng)絡(luò)上大規(guī)模發(fā)布相關(guān)內(nèi)容會不可避免的造成訓(xùn)練數(shù)據(jù)污染:這也意味著未來人類創(chuàng)作的數(shù)據(jù)反而會越來越具備高價(jià)值。
? 同時(shí)論文作者之一的Ross Anderson(劍橋大學(xué)于愛丁堡大學(xué)信息安全工程學(xué)教授)在自己的博客上針對論文中的模型崩壞相關(guān)研究與現(xiàn)象指出“這就好比我在海洋中亂扔塑料垃圾,在大氣中排放工業(yè)廢氣是一樣的,AI生成內(nèi)容也在徹底掩埋互聯(lián)網(wǎng)。LMM(大語言模型)好比火一樣的東西,在制造便利的同時(shí)也在摧毀污染環(huán)境”。
? 同時(shí)Ross?Anderson繼續(xù)指出,隨著網(wǎng)絡(luò)上的內(nèi)容被AI生成內(nèi)容大量填充,在網(wǎng)頁上抓?。╳eb scraping)用于新模型訓(xùn)練的數(shù)據(jù)將會極其困難,這將會導(dǎo)致已經(jīng)持有大量合適訓(xùn)練數(shù)據(jù)與人類創(chuàng)作內(nèi)容的公司企業(yè)將會在AI領(lǐng)域取得巨大的不可取代的優(yōu)勢。Internet Archive 博客記錄顯示,已經(jīng)有不少的AI初創(chuàng)公司向Internet Archive發(fā)出大量的訪問請求,以求獲取干凈的人類創(chuàng)作內(nèi)容以作訓(xùn)練數(shù)據(jù)

? AI內(nèi)容訓(xùn)練AI導(dǎo)致模型崩壞的其中一種機(jī)制原理,被Shumailov稱為「數(shù)據(jù)偏移」

? 此外即使為了避免這種情況大幅減少訓(xùn)練周期的多次迭代,因?yàn)槟P蜑榱吮苊鈹?shù)據(jù)頻繁重復(fù),錯(cuò)誤回應(yīng)上升,導(dǎo)致模型崩潰依然會發(fā)生。
? 作為模型崩潰的對策,論文中指出「對原始數(shù)據(jù)集保留并獨(dú)占,對人類創(chuàng)作內(nèi)容的數(shù)據(jù)集進(jìn)行高等級復(fù)制并保存,以用于定期的重新訓(xùn)練或者完全刷新它,以避免被AI生成的數(shù)據(jù)污染」同時(shí)「將新的確保完全由人類創(chuàng)作內(nèi)容引入數(shù)據(jù)集以用于新的訓(xùn)練」等措施。
? Shumailov指出,為了防止崩壞的產(chǎn)生,同時(shí)確保AI學(xué)習(xí)的量,能夠?qū)ι晌锏奶卣鬟M(jìn)行正確的描寫,能夠客觀的準(zhǔn)確的完全表現(xiàn)出數(shù)據(jù)集中的少數(shù)要素是十分重要的。在VentureBeat對其的采訪中她表示「我們原本以為在訓(xùn)練數(shù)據(jù)中包含10%的人類創(chuàng)作內(nèi)容數(shù)據(jù),其它部分使用AI生成數(shù)據(jù)進(jìn)行訓(xùn)練可以使模型崩潰的發(fā)生不那么快,但是崩潰依然發(fā)生了,雖然確實(shí)遲了些?!?/p>
譯者記:AI生成內(nèi)容對于AI訓(xùn)練的誤導(dǎo)是一方面,同時(shí)顯然它也會同樣作用于人類。因此不論是從AI發(fā)展還是人類自身發(fā)展來看,除了對AI的辨別鑒別外對AI生成內(nèi)容進(jìn)行標(biāo)識的強(qiáng)制化與義務(wù)化法律化都是緊迫且必須的。