散文網(wǎng) » 科技 »學(xué)習(xí) » AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞

AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞

2023-06-14 18:39 作者:鹽焗魚 0人讀過 | 我要投稿

? 本文并非完全翻譯原文，而是用更本地化的語言進(jìn)行轉(zhuǎn)述，并添加更多論文中內(nèi)容。原文請參考以下鏈接：https://gigazine.net/news/20230614-feedback-loop/

? 在Adobe發(fā)表使用“完全沒有版權(quán)問題”的模型的AI圖像生成軟件「Firefly」，與最近接入Microsoft搜索引擎的「Chat GPT」活躍的背景下，據(jù)咨詢公司在世界范圍的調(diào)查，「有接近50%的在職人員開始在工作中使用生成式AI」。生成式人工智能已經(jīng)開始大規(guī)模的在社會中傳播。

? 但是，由于使用生成式AI（以下簡稱AI）生成并公開的內(nèi)容，與使用人數(shù)的急劇增加，新的問題「AI生成的內(nèi)容充斥在網(wǎng)絡(luò)上，而這些生成數(shù)據(jù)又再次被抓取并被AI學(xué)習(xí)的情況下可能會產(chǎn)生重大的問題與缺陷」被相關(guān)研究團(tuán)體指出。

AI生成循環(huán)：研究人員警告，使用AI生成內(nèi)容進(jìn)行AI訓(xùn)練會導(dǎo)致模型崩潰

The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content | VentureBeat
https://venturebeat.com/ai/the-ai-feedback-loop-researchers-warn-of-model-collapse-as-ai-trains-on-ai-generated-content/

? 輸入相應(yīng)tag進(jìn)行簡單數(shù)據(jù)調(diào)整后便可生成高精度圖像的「Stable Diffusion」或「Midjourney」與使用自然語言進(jìn)行對話生成高精度文章的「Chat GPT」等為代表的生成式人工智能夠短時(shí)間內(nèi)急速發(fā)展擴(kuò)張的最重要的原因是得益于大規(guī)模語言模型（LLM）。高適應(yīng)性與泛用性的LLM加上大量被收集的無視版權(quán)與相關(guān)網(wǎng)站規(guī)定與創(chuàng)作者意愿的數(shù)據(jù)，使AI能夠?qū)W習(xí)文章與圖像的結(jié)構(gòu)與規(guī)律。

? 原本LLM所使用的訓(xùn)練數(shù)據(jù)都是來源于書籍、網(wǎng)絡(luò)上的文章與記事以及照片與插畫，這些人類在沒有生成式人工智能的情況下的創(chuàng)作。但是隨著生成式人工智能的發(fā)展，受使用AI生成相關(guān)內(nèi)容并在網(wǎng)絡(luò)上公開的人數(shù)激增的影響（其中大部分會刻意或無意不說明或注明發(fā)表內(nèi)容來源于AI）作為學(xué)習(xí)源頭的訓(xùn)練數(shù)據(jù)有很大的可能性會遭到巨大的影響。

? 2023年5月末，英國與加拿大的研究者團(tuán)體以《遞歸的詛咒》（The Curse of Recursion: Training on Generated Data Makes Models Forget）為題的論文在arXiv上發(fā)表，論文詳細(xì)敘述了「生成式人工智能技術(shù)的未來揭示了令人擔(dān)憂的事實(shí)」相關(guān)的內(nèi)容。

遞歸的詛咒：使用生成數(shù)據(jù)進(jìn)行訓(xùn)練會使AI模型產(chǎn)生“遺忘”

[2305.17493] The Curse of Recursion: Training on Generated Data Makes Models Forget
https://doi.org/10.48550/arXiv.2305.17493

全文：https://arxiv.org/pdf/2305.17493.pdf

在論文中作者們明確列出以下觀點(diǎn)：

??實(shí)驗(yàn)證明了模型在使用AI生成內(nèi)容學(xué)習(xí)中存在退化學(xué)習(xí)行為，并將其命名為模型崩潰（Model collapse）。

??通過對不同類型模型的不同類型數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，證明模型崩壞現(xiàn)象在不同的AI模型中均有存在。

? 實(shí)驗(yàn)證明，避免模型崩潰的至關(guān)重要的一點(diǎn)就是使用真正的人工創(chuàng)作內(nèi)容進(jìn)行訓(xùn)練。

? 論文的主要作者之一的Ilia Shumailov（JRF牛津大學(xué)，Vector Institute研究員，劍橋大學(xué)博士）指出「根據(jù)對文生文與圖生圖的AI模型的概率分布研究，即使長期AI學(xué)習(xí)出于幾乎完全理想的條件下，“數(shù)據(jù)分散（丟失）”的過程也難以避免，隨著訓(xùn)練數(shù)據(jù)與時(shí)間的增加，模型中的數(shù)據(jù)的錯(cuò)誤會逐漸增加，最終從生成的數(shù)據(jù)中學(xué)習(xí)會進(jìn)一步導(dǎo)致AI錯(cuò)誤的感知現(xiàn)實(shí)」（實(shí)驗(yàn)?zāi)Ｐ停篏MMs，VAE,LLMs）

『We show that over time we start losing information about the true distribution, which first starts with tails disappearing, and over the generations learned behaviours start converging to a point estimate with very small variance. Furthermore, we show that this process is inevitable, even for cases with almost ideal conditions for long-term learning i.e. no function estimation error.』

? Ilia Shumailov指出，學(xué)習(xí)模型在使用AI生成內(nèi)容進(jìn)行訓(xùn)練的情況下可能會立刻“遺忘”掉原始的訓(xùn)練數(shù)據(jù)，“我們驚訝地觀察到模型是如此迅速的崩壞”她在文章中如是說道

模型崩潰是指使用生成內(nèi)容訓(xùn)練導(dǎo)致的退化學(xué)習(xí)，模型開始“遺忘”不可能事件（improbable events），隨著時(shí)間推移，模型將會不可使用。

?

進(jìn)行自生成內(nèi)容訓(xùn)練迭代后一條“長尾巴”出現(xiàn)在后面，迭代訓(xùn)練的模型考試產(chǎn)生原始模型中沒有的樣本——這是基于原始數(shù)據(jù)的錯(cuò)誤數(shù)據(jù)積累。圖15以3D形式進(jìn)行了展現(xiàn)

要避免這種廣義上的模型坍塌，至關(guān)重要的的一點(diǎn)就是模型中原始數(shù)據(jù)（非AI生成內(nèi)容訓(xùn)練數(shù)據(jù)）的分布，即 需要使用真實(shí)的人為創(chuàng)作的數(shù)據(jù)進(jìn)行訓(xùn)練。換句話說使用生成式AI在網(wǎng)絡(luò)上大規(guī)模發(fā)布相關(guān)內(nèi)容會不可避免的造成訓(xùn)練數(shù)據(jù)污染：這也意味著未來人類創(chuàng)作的數(shù)據(jù)反而會越來越具備高價(jià)值。

? 同時(shí)論文作者之一的Ross Anderson（劍橋大學(xué)于愛丁堡大學(xué)信息安全工程學(xué)教授）在自己的博客上針對論文中的模型崩壞相關(guān)研究與現(xiàn)象指出“這就好比我在海洋中亂扔塑料垃圾，在大氣中排放工業(yè)廢氣是一樣的，AI生成內(nèi)容也在徹底掩埋互聯(lián)網(wǎng)。LMM（大語言模型）好比火一樣的東西，在制造便利的同時(shí)也在摧毀污染環(huán)境”。

? 同時(shí)Ross?Anderson繼續(xù)指出，隨著網(wǎng)絡(luò)上的內(nèi)容被AI生成內(nèi)容大量填充，在網(wǎng)頁上抓?。╳eb scraping）用于新模型訓(xùn)練的數(shù)據(jù)將會極其困難，這將會導(dǎo)致已經(jīng)持有大量合適訓(xùn)練數(shù)據(jù)與人類創(chuàng)作內(nèi)容的公司企業(yè)將會在AI領(lǐng)域取得巨大的不可取代的優(yōu)勢。Internet Archive 博客記錄顯示，已經(jīng)有不少的AI初創(chuàng)公司向Internet Archive發(fā)出大量的訪問請求，以求獲取干凈的人類創(chuàng)作內(nèi)容以作訓(xùn)練數(shù)據(jù)

此流程描繪了模型崩壞不可避免的已經(jīng)發(fā)生的現(xiàn)實(shí)原因：在互聯(lián)網(wǎng)中模型生成的數(shù)據(jù)無處不在

? AI內(nèi)容訓(xùn)練AI導(dǎo)致模型崩壞的其中一種機(jī)制原理，被Shumailov稱為「數(shù)據(jù)偏移」

? 此外即使為了避免這種情況大幅減少訓(xùn)練周期的多次迭代，因?yàn)槟Ｐ蜑榱吮苊鈹?shù)據(jù)頻繁重復(fù)，錯(cuò)誤回應(yīng)上升，導(dǎo)致模型崩潰依然會發(fā)生。

? 作為模型崩潰的對策，論文中指出「對原始數(shù)據(jù)集保留并獨(dú)占，對人類創(chuàng)作內(nèi)容的數(shù)據(jù)集進(jìn)行高等級復(fù)制并保存，以用于定期的重新訓(xùn)練或者完全刷新它，以避免被AI生成的數(shù)據(jù)污染」同時(shí)「將新的確保完全由人類創(chuàng)作內(nèi)容引入數(shù)據(jù)集以用于新的訓(xùn)練」等措施。

? Shumailov指出，為了防止崩壞的產(chǎn)生，同時(shí)確保AI學(xué)習(xí)的量，能夠?qū)ι晌锏奶卣鬟M(jìn)行正確的描寫，能夠客觀的準(zhǔn)確的完全表現(xiàn)出數(shù)據(jù)集中的少數(shù)要素是十分重要的。在VentureBeat對其的采訪中她表示「我們原本以為在訓(xùn)練數(shù)據(jù)中包含10%的人類創(chuàng)作內(nèi)容數(shù)據(jù)，其它部分使用AI生成數(shù)據(jù)進(jìn)行訓(xùn)練可以使模型崩潰的發(fā)生不那么快，但是崩潰依然發(fā)生了，雖然確實(shí)遲了些?！?/p>

譯者記：AI生成內(nèi)容對于AI訓(xùn)練的誤導(dǎo)是一方面，同時(shí)顯然它也會同樣作用于人類。因此不論是從AI發(fā)展還是人類自身發(fā)展來看，除了對AI的辨別鑒別外對AI生成內(nèi)容進(jìn)行標(biāo)識的強(qiáng)制化與義務(wù)化法律化都是緊迫且必須的。

標(biāo)簽：人工智能 AI模型生成式人工智能 Midjourney AI圖像生成 Stable Diffusion Chat GPT AI AI繪畫

AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞

AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞

本文作者的其他文章

AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞的評論 (共條)