最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞

2023-06-14 18:39 作者:鹽焗魚  | 我要投稿

? 本文并非完全翻譯原文,而是用更本地化的語言進(jìn)行轉(zhuǎn)述,并添加更多論文中內(nèi)容。原文請參考以下鏈接:https://gigazine.net/news/20230614-feedback-loop/


? 在Adobe發(fā)表使用“完全沒有版權(quán)問題”的模型的AI圖像生成軟件「Firefly」,與最近接入Microsoft搜索引擎的「Chat GPT」活躍的背景下,據(jù)咨詢公司在世界范圍的調(diào)查,「有接近50%的在職人員開始在工作中使用生成式AI」。生成式人工智能已經(jīng)開始大規(guī)模的在社會中傳播。

? 但是,由于使用生成式AI(以下簡稱AI)生成并公開的內(nèi)容,與使用人數(shù)的急劇增加,新的問題「AI生成的內(nèi)容充斥在網(wǎng)絡(luò)上,而這些生成數(shù)據(jù)又再次被抓取并被AI學(xué)習(xí)的情況下可能會產(chǎn)生重大的問題與缺陷」被相關(guān)研究團(tuán)體指出。

AI生成循環(huán):研究人員警告,使用AI生成內(nèi)容進(jìn)行AI訓(xùn)練會導(dǎo)致模型崩潰

The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content | VentureBeat
https://venturebeat.com/ai/the-ai-feedback-loop-researchers-warn-of-model-collapse-as-ai-trains-on-ai-generated-content/

? 輸入相應(yīng)tag進(jìn)行簡單數(shù)據(jù)調(diào)整后便可生成高精度圖像的「Stable Diffusion」或「Midjourney」與使用自然語言進(jìn)行對話生成高精度文章的「Chat GPT」等為代表的生成式人工智能夠短時(shí)間內(nèi)急速發(fā)展擴(kuò)張的最重要的原因是得益于大規(guī)模語言模型(LLM)。高適應(yīng)性與泛用性的LLM加上大量被收集的無視版權(quán)與相關(guān)網(wǎng)站規(guī)定與創(chuàng)作者意愿的數(shù)據(jù),使AI能夠?qū)W習(xí)文章與圖像的結(jié)構(gòu)與規(guī)律。

? 原本LLM所使用的訓(xùn)練數(shù)據(jù)都是來源于書籍、網(wǎng)絡(luò)上的文章與記事以及照片與插畫,這些人類在沒有生成式人工智能的情況下的創(chuàng)作。但是隨著生成式人工智能的發(fā)展,受使用AI生成相關(guān)內(nèi)容并在網(wǎng)絡(luò)上公開的人數(shù)激增的影響(其中大部分會刻意或無意不說明或注明發(fā)表內(nèi)容來源于AI)作為學(xué)習(xí)源頭的訓(xùn)練數(shù)據(jù)有很大的可能性會遭到巨大的影響。

? 2023年5月末,英國與加拿大的研究者團(tuán)體以《遞歸的詛咒》(The Curse of Recursion: Training on Generated Data Makes Models Forget)為題的論文在arXiv上發(fā)表,論文詳細(xì)敘述了「生成式人工智能技術(shù)的未來揭示了令人擔(dān)憂的事實(shí)」相關(guān)的內(nèi)容。


遞歸的詛咒:使用生成數(shù)據(jù)進(jìn)行訓(xùn)練會使AI模型產(chǎn)生“遺忘”


[2305.17493] The Curse of Recursion: Training on Generated Data Makes Models Forget
https://doi.org/10.48550/arXiv.2305.17493

全文:https://arxiv.org/pdf/2305.17493.pdf


在論文中作者們明確列出以下觀點(diǎn):

??實(shí)驗(yàn)證明了模型在使用AI生成內(nèi)容學(xué)習(xí)中存在退化學(xué)習(xí)行為,并將其命名為模型崩潰(Model collapse)。

??通過對不同類型模型的不同類型數(shù)據(jù)進(jìn)行實(shí)驗(yàn),證明模型崩壞現(xiàn)象在不同的AI模型中均有存在。

? 實(shí)驗(yàn)證明,避免模型崩潰的至關(guān)重要的一點(diǎn)就是使用真正的人工創(chuàng)作內(nèi)容進(jìn)行訓(xùn)練。


? 論文的主要作者之一的Ilia ShumailovJRF牛津大學(xué),Vector Institute研究員,劍橋大學(xué)博士)指出「根據(jù)對文生文與圖生圖的AI模型的概率分布研究,即使長期AI學(xué)習(xí)出于幾乎完全理想的條件下,“數(shù)據(jù)分散(丟失)”的過程也難以避免,隨著訓(xùn)練數(shù)據(jù)與時(shí)間的增加,模型中的數(shù)據(jù)的錯(cuò)誤會逐漸增加,最終從生成的數(shù)據(jù)中學(xué)習(xí)會進(jìn)一步導(dǎo)致AI錯(cuò)誤的感知現(xiàn)實(shí)」(實(shí)驗(yàn)?zāi)P停篏MMs,VAE,LLMs)

『We show that over time we start losing information about the true distribution, which first starts with tails disappearing, and over the generations learned behaviours start converging to a point estimate with very small variance. Furthermore, we show that this process is inevitable, even for cases with almost ideal conditions for long-term learning i.e. no function estimation error.』

? Ilia Shumailov指出,學(xué)習(xí)模型在使用AI生成內(nèi)容進(jìn)行訓(xùn)練的情況下可能會立刻“遺忘”掉原始的訓(xùn)練數(shù)據(jù),“我們驚訝地觀察到模型是如此迅速的崩壞”她在文章中如是說道

模型崩潰是指使用生成內(nèi)容訓(xùn)練導(dǎo)致的退化學(xué)習(xí),模型開始“遺忘”不可能事件(improbable events),隨著時(shí)間推移,模型將會不可使用。

?

進(jìn)行自生成內(nèi)容訓(xùn)練迭代后一條“長尾巴”出現(xiàn)在后面,迭代訓(xùn)練的模型考試產(chǎn)生原始模型中沒有的樣本——這是基于原始數(shù)據(jù)的錯(cuò)誤數(shù)據(jù)積累。圖15以3D形式進(jìn)行了展現(xiàn)
15

要避免這種廣義上的模型坍塌,至關(guān)重要的的一點(diǎn)就是模型中原始數(shù)據(jù)(非AI生成內(nèi)容訓(xùn)練數(shù)據(jù))的分布,即 需要使用真實(shí)的人為創(chuàng)作的數(shù)據(jù)進(jìn)行訓(xùn)練。換句話說使用生成式AI在網(wǎng)絡(luò)上大規(guī)模發(fā)布相關(guān)內(nèi)容會不可避免的造成訓(xùn)練數(shù)據(jù)污染:這也意味著未來人類創(chuàng)作的數(shù)據(jù)反而會越來越具備高價(jià)值

? 同時(shí)論文作者之一的Ross Anderson(劍橋大學(xué)于愛丁堡大學(xué)信息安全工程學(xué)教授)在自己的博客上針對論文中的模型崩壞相關(guān)研究與現(xiàn)象指出“這就好比我在海洋中亂扔塑料垃圾,在大氣中排放工業(yè)廢氣是一樣的,AI生成內(nèi)容也在徹底掩埋互聯(lián)網(wǎng)。LMM(大語言模型)好比火一樣的東西,在制造便利的同時(shí)也在摧毀污染環(huán)境”。

? 同時(shí)Ross?Anderson繼續(xù)指出,隨著網(wǎng)絡(luò)上的內(nèi)容被AI生成內(nèi)容大量填充,在網(wǎng)頁上抓?。╳eb scraping)用于新模型訓(xùn)練的數(shù)據(jù)將會極其困難,這將會導(dǎo)致已經(jīng)持有大量合適訓(xùn)練數(shù)據(jù)與人類創(chuàng)作內(nèi)容的公司企業(yè)將會在AI領(lǐng)域取得巨大的不可取代的優(yōu)勢。Internet Archive 博客記錄顯示,已經(jīng)有不少的AI初創(chuàng)公司向Internet Archive發(fā)出大量的訪問請求,以求獲取干凈的人類創(chuàng)作內(nèi)容以作訓(xùn)練數(shù)據(jù)


此流程描繪了模型崩壞不可避免的已經(jīng)發(fā)生的現(xiàn)實(shí)原因:在互聯(lián)網(wǎng)中模型生成的數(shù)據(jù)無處不在


? AI內(nèi)容訓(xùn)練AI導(dǎo)致模型崩壞的其中一種機(jī)制原理,被Shumailov稱為「數(shù)據(jù)偏移

GMM與VAE模型的模型崩壞

? 此外即使為了避免這種情況大幅減少訓(xùn)練周期的多次迭代,因?yàn)槟P蜑榱吮苊鈹?shù)據(jù)頻繁重復(fù),錯(cuò)誤回應(yīng)上升,導(dǎo)致模型崩潰依然會發(fā)生。

? 作為模型崩潰的對策,論文中指出「對原始數(shù)據(jù)集保留并獨(dú)占,對人類創(chuàng)作內(nèi)容的數(shù)據(jù)集進(jìn)行高等級復(fù)制并保存,以用于定期的重新訓(xùn)練或者完全刷新它,以避免被AI生成的數(shù)據(jù)污染」同時(shí)「將新的確保完全由人類創(chuàng)作內(nèi)容引入數(shù)據(jù)集以用于新的訓(xùn)練」等措施。

? Shumailov指出,為了防止崩壞的產(chǎn)生,同時(shí)確保AI學(xué)習(xí)的量,能夠?qū)ι晌锏奶卣鬟M(jìn)行正確的描寫,能夠客觀的準(zhǔn)確的完全表現(xiàn)出數(shù)據(jù)集中的少數(shù)要素是十分重要的。在VentureBeat對其的采訪中她表示「我們原本以為在訓(xùn)練數(shù)據(jù)中包含10%的人類創(chuàng)作內(nèi)容數(shù)據(jù),其它部分使用AI生成數(shù)據(jù)進(jìn)行訓(xùn)練可以使模型崩潰的發(fā)生不那么快,但是崩潰依然發(fā)生了,雖然確實(shí)遲了些?!?/p>


譯者記:AI生成內(nèi)容對于AI訓(xùn)練的誤導(dǎo)是一方面,同時(shí)顯然它也會同樣作用于人類。因此不論是從AI發(fā)展還是人類自身發(fā)展來看,除了對AI的辨別鑒別外對AI生成內(nèi)容進(jìn)行標(biāo)識的強(qiáng)制化與義務(wù)化法律化都是緊迫且必須的。






AI生成物急增導(dǎo)致數(shù)據(jù)污染「左腳踩右腳」的學(xué)習(xí)路徑導(dǎo)致模型崩壞的評論 (共 條)

分享到微博請遵守國家法律
焉耆| 南城县| 房产| 佛山市| 镇康县| 怀来县| 乌鲁木齐县| 玉龙| 廉江市| 怀安县| 赤城县| 台山市| 青川县| 乌海市| 衡阳县| 曲沃县| 昭平县| 天祝| 双柏县| 青神县| 苍梧县| 瑞安市| 阳山县| 田林县| 得荣县| 延川县| 报价| 大关县| 云和县| 仁布县| 图片| 娱乐| 舞阳县| 碌曲县| 神池县| 凤山市| 建瓯市| 文成县| 奉贤区| 娄底市| 马尔康县|