最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

AI生成信息污染:大模型命中注定有此一劫?

2023-06-28 08:30 作者:白熊觀察員  | 我要投稿


在人工智能AlphaGo時代,作為一個專注于下圍棋的判定式AI,AlphaGO的通過自我訓(xùn)練的方式,棋力飛速增長,先后戰(zhàn)勝了李世石、柯潔等人類的頂級棋手。當(dāng)時,曾有人預(yù)言,AI可以通過自我訓(xùn)練的方法不斷提升能力,甚至突破“技術(shù)奇點”,不過在當(dāng)前的生成式AI中,這一招卻無法奏效。

最近在預(yù)印本網(wǎng)站arXiv上發(fā)布的一篇題為《The Curse of Recursion: Training on Generated Data Makes Models Forget》(遞歸的詛咒:用AI生成的數(shù)據(jù)訓(xùn)練導(dǎo)致模型遺忘)的論文。論文指出:如果使用AI生成的內(nèi)容作為語料訓(xùn)練AI大模型,會導(dǎo)致“模型崩潰”現(xiàn)象發(fā)生。

AI生成的內(nèi)容可能會形成一種“信息污染”。然而,不知不覺間,互聯(lián)網(wǎng)空間已經(jīng)有大量AI生成的內(nèi)容,且隨著AIGC的發(fā)展,將越來越多。AI大模型的訓(xùn)練,又有賴于更多的網(wǎng)絡(luò)數(shù)據(jù)。這是否意味著,AI大模型有朝一日將不可避免地只能接受大量AI自己生成的內(nèi)容?


1

信模型崩潰:錯誤成為執(zhí)念


這篇論文為于5月27日首次提交arXiv網(wǎng)站,并于5月31日進行了更新。論文作者來自牛津大學(xué)、劍橋大學(xué)等高校。論文指出,在訓(xùn)練中使用模型生成的內(nèi)容會在結(jié)果模型中造成不可逆的缺陷。?網(wǎng)絡(luò)上越來越多的內(nèi)容正在做AI大模型生成,不僅是文字,也可能是聲音、畫面。目前,包括GPT-4在內(nèi)的大模型,主要是在人類生成的文本上進行訓(xùn)練,未來多數(shù)模型的數(shù)據(jù)訓(xùn)練也來自網(wǎng)絡(luò),它們將不可避免地接收到在其前任大模型生成的數(shù)據(jù)。然而,論文作者們觀察到了“模型崩潰”的現(xiàn)象,它是一種代際退化的過程,模型生成的數(shù)據(jù)污染了下一代模型的訓(xùn)練集,導(dǎo)致它們誤解了現(xiàn)實。——模型并沒遺忘之前的數(shù)據(jù),但是會把一些錯誤的信息誤認(rèn)為真實,并不斷加強認(rèn)知,最終形成“思想鋼印”,以至于完全無法糾錯。

2

為何會崩潰:統(tǒng)計誤差


為什么模型會“崩潰”?現(xiàn)階段,AI的“神經(jīng)網(wǎng)絡(luò)”還處在對人類思維活動的初級模仿中,它的核心仍然是一種統(tǒng)計程序。論文認(rèn)為,用AI生成內(nèi)容來訓(xùn)練AI,會產(chǎn)生“統(tǒng)計近似誤差”(Statistical approximation error?),因為在統(tǒng)計的過程中,越大概率的內(nèi)容被進一步強化,小概率的內(nèi)容被不斷忽視,這是模型崩潰的主要原因。此外,還會產(chǎn)生“函數(shù)近似誤差”(Functional approximation error?),這指的是模型的函數(shù)在計算過程中會不斷將計算的錯誤保留下來。這兩個原因?qū)е碌暮蠊褪请S著模型的不斷訓(xùn)練,錯誤也不斷一代又一代地累積起來,從而喪失了自我糾錯的能力。更重要的是,這種問題是無法避免的,因為根據(jù)論文給出的數(shù)據(jù)顯示,即使有非常大的數(shù)據(jù)樣本,這種錯誤仍然會產(chǎn)生。

3

崩潰的三種結(jié)果


模型崩潰可能產(chǎn)生以下的結(jié)果:一是多樣性喪失。模型崩潰會導(dǎo)致生成的文本多樣性喪失。大模型的長處是捕獲人類語言中的廣泛可能性,具備超強的“想象力”。然而,當(dāng)模型崩潰時,它往往會生成重復(fù)性很高且多樣性很低的內(nèi)容。二是準(zhǔn)確性下降。模型崩潰,生成的文本會越來越不準(zhǔn)確。模型可能會開始引入一些根本不應(yīng)該存在的或者無意義的信息,嚴(yán)重降低內(nèi)容質(zhì)量。三是影響微調(diào)效果。模型會自我強化認(rèn)知,會不斷經(jīng)過幾代人的模型傾向于從原始數(shù)據(jù)中生成更可能的序列,但可能會引入它們自己的錯誤,進一步妨礙了微調(diào)模型的準(zhǔn)確性和可靠性。總的來說,在大型語言模型的背景下,模型崩潰破壞了它們生成多樣化和準(zhǔn)確文本的能力,這對于各種自然語言處理應(yīng)用至關(guān)重要。除了模型崩潰現(xiàn)象之外,論文還提到了當(dāng)前研究中發(fā)現(xiàn)的兩個類似的現(xiàn)象,一個稱為“災(zāi)維性遺忘”,另一個是“數(shù)據(jù)投毒”。有意思的是,這兩個現(xiàn)象都與使用AI生成的數(shù)據(jù)訓(xùn)練AI有關(guān)。有媒體報道的時候,稱這種“AI訓(xùn)練AI”的方式為“糞口循環(huán)”。論文舉了一個“災(zāi)難性遺忘”的例子,這個例子也非常值得關(guān)注:

?

?

把這個例子翻譯成中文:

以下是一個受模型崩潰影響的OPT-125m模型文本輸出的例子——模型會隨著代數(shù)的增加而退化,每一代新模型都是基于前一代模型生成的數(shù)據(jù)進行訓(xùn)練的。

輸入:一些開始于1360年之前——通常由一位主建筑師和一小組流動石匠,加上當(dāng)?shù)亟虆^(qū)的勞動力完成,這是根據(jù)Poyntz Wright的說法。但是其他作者反駁了這個模型,他們建議主要的建筑師設(shè)計教區(qū)教堂塔樓是基于早期的垂直式樣例。

輸出:

第0代:如倫敦圣約翰大教堂的復(fù)興建筑。最早的垂直復(fù)興建筑樣例發(fā)現(xiàn)于18世紀(jì)的圣母教堂,位于根西島,可以追溯到19世紀(jì)晚期。垂直教堂有兩種類型:那些...

第1代:如羅馬的圣彼得大教堂或布宜諾斯艾利斯的圣彼得大教堂的建筑。沒有證據(jù)顯示這些建筑是在教皇英諾森三世統(tǒng)治期間建造的,但有可能在他的繼任者教皇英諾森的統(tǒng)治期間建造的。

第7代:英國的建筑。在接受《紐約時報》采訪時,賴特說:“我認(rèn)為我可以做我想做的事情沒有任何問題。只是對我來說并不適用?!彼a充說:“我不知道你是否可以稱之為有趣。

第9代:建筑。除了是世界上一些最大的黑尾野兔、白尾野兔、藍(lán)尾野兔、紅尾野兔、黃尾野兔的家園之外,

?

盡管論文里指出,“災(zāi)難性遺忘”的機制跟模型崩潰并不一樣,但呈現(xiàn)出的現(xiàn)象卻有某種相似之處。在這種自我循環(huán)訓(xùn)練的過程中,內(nèi)容開始逐漸離譜,當(dāng)內(nèi)容到第7代(也就是第7次循環(huán)訓(xùn)練)的時候,原始內(nèi)容已經(jīng)基本不見了,到了第9次循環(huán)時,已經(jīng)產(chǎn)生了一些風(fēng)馬牛不相及的內(nèi)容。

?


4

繞不開的信息污染?

?

信息污染無處不在,這并非危言聳聽,即使在當(dāng)AI還不太聰明的時代,低質(zhì)量的內(nèi)容已經(jīng)在充斥著互聯(lián)網(wǎng)空間。在大模型廣泛應(yīng)用之前,人類已經(jīng)通過標(biāo)題黨、惡意曲解、選擇性剪輯等方式,在網(wǎng)絡(luò)上制造了無數(shù)的信息污染,形成了各種大大小小的信息繭房。

論文認(rèn)為,要想避免模型崩潰的現(xiàn)象,需要區(qū)分由大模型生成的數(shù)據(jù)和其他數(shù)據(jù),最好能直接使用人類生成的原始數(shù)據(jù)。無論何時,都需要保證一個由人類生成的、多樣的和有代表性的數(shù)據(jù)集,作為大模型的訓(xùn)練數(shù)據(jù)。

特別強調(diào)的是,在訓(xùn)練一個大模型時,不僅要避免由本體生成的數(shù)據(jù),同時還要避免由其他模型生的數(shù)據(jù),因為這一樣會導(dǎo)致模型崩潰。

一個很危險之處在于,當(dāng)前隨著AI生成的內(nèi)容的應(yīng)用越來越廣,“失控”可能無法避免。AI生產(chǎn)內(nèi)容的效率仍然有很大的提升空間,“性價比”只會越來越高。在這種情況下,利用AI生產(chǎn)內(nèi)容將很快成為一個普遍的操作。盡管AI到底能不能生成精品內(nèi)容仍然存疑,但AI在內(nèi)容數(shù)量方面的優(yōu)勢恐怕將無可匹敵。

另一方面,當(dāng)前一些機構(gòu)正在利用各種技術(shù)手段對互聯(lián)網(wǎng)進行信息污染,AI會讓他們?nèi)缁⑻硪?。因此,這種動作不僅不會停下來,還幾乎必然會進一步加劇。

目前已經(jīng)有一些網(wǎng)站試圖識別由AI創(chuàng)作的內(nèi)容,這將是一場貓鼠游戲。不過,識別單一的內(nèi)容是否由AI生成,這或許在技術(shù)上可以實現(xiàn)。不過,這樣的內(nèi)容一旦超過一定的比例,有可能導(dǎo)致AI無法得到一個完整而“純凈”的語料庫。特別是對于除英語之外的其它語言,在互聯(lián)網(wǎng)上本來就只有較少的優(yōu)質(zhì)內(nèi)容可以作為語料。

這甚至可能產(chǎn)生一種“死亡循環(huán)”,AI大模型在迭代過程中將無法繞開這道難關(guān)——以當(dāng)前AI發(fā)展的速度來看,這種現(xiàn)象完全有可能在三到五年內(nèi)出現(xiàn)。

這恐怕是AI大模型研發(fā)路上命中注定有此一劫。如何破解,有待觀察。



5

額外的思考

?

近期,圖林獎得主,AI界名人Yann LeCunn認(rèn)為,包括ChatGPT在內(nèi)的自回歸模型有巨大的局限性。從這篇論文看,這類模型雖然是“生成式AI”,但并不能夠生成“新的內(nèi)容”,也就是說,沒有辦法產(chǎn)生真正意義上的“信息增量”。?

今年2月,著名科幻作家特德?姜(Ted Chiang)撰寫了一篇名為《ChatGPT只是互聯(lián)網(wǎng)的一張模糊縮略圖》的評論文章,文章認(rèn)為,ChatGPT等大語言模型,實質(zhì)是對互聯(lián)網(wǎng)語料庫的有損模糊壓縮,如同JPEG格式之于原始高清圖片。?

從這個角度上看,當(dāng)未來的某一天,AI大模型的生成能力達到一種新的境界,可以產(chǎn)生增量,甚至可以用來給AI自我訓(xùn)練時,也許也是AI的“技術(shù)奇點”到來的時刻。那時,我們實現(xiàn)AGI的愿景也將實現(xiàn)。

白熊觀察員(微信公眾號Baixiong42)的另一個思考,雖然這篇論文主要在研究AI被信息污染的危險,但對人類未必不是一處警醒。當(dāng)前,人類的大腦也無時不刻不被各種垃圾信息所沖擊。這些信息也在不斷給人創(chuàng)造信息繭房?,F(xiàn)實中,為什么有人會對“蜥蜴人”一類的傳說深信不疑,這也是一種“模型崩潰”的表現(xiàn)。

信息污染已經(jīng)嚴(yán)重影響互聯(lián)網(wǎng)信息的質(zhì)量——我們管現(xiàn)在的世界叫做“信息社會”,信息本身就是社會最重要的組成要素,盡管看不見摸不著,卻是社會的基石。如果信息的真實性、準(zhǔn)確性、多樣性被破壞,社會是否也會遭遇危機呢?

————————————

本文配圖:midjourney

白熊42號:白熊觀察員創(chuàng)始人永遠(yuǎn)對未來充滿好奇心


AI生成信息污染:大模型命中注定有此一劫?的評論 (共 條)

分享到微博請遵守國家法律
沂水县| 视频| 修武县| 宜城市| 越西县| 金平| 望城县| 海阳市| 苍溪县| 乐业县| 安溪县| 丹东市| 新竹市| 六枝特区| 祁东县| 舒城县| 涞源县| 萨嘎县| 江口县| 周口市| 鄂托克前旗| 武穴市| 莲花县| 深泽县| 新化县| 黔西| 竹溪县| 鲜城| 清丰县| 西吉县| 青岛市| 英吉沙县| 当阳市| 宜宾市| 乌兰察布市| 峨眉山市| 同德县| 满洲里市| 菏泽市| 龙川县| 西畴县|