AI數(shù)據(jù)“毒害”現(xiàn)象:模型崩潰與人工生成的數(shù)據(jù)
AI數(shù)據(jù)“毒害”現(xiàn)象:模型崩潰與人工生成的數(shù)據(jù)
人工智能生成的文本正逐漸蔓延,引發(fā)越來(lái)越多的關(guān)注。這種AI產(chǎn)生的數(shù)據(jù)“毒害”現(xiàn)象,有點(diǎn)類似于過(guò)去核試驗(yàn)引發(fā)的放射性塵埃問(wèn)題,對(duì)我們的文本模型產(chǎn)生了困擾,而目前尚缺乏有效的“解毒劑”。
就像人類在過(guò)去的核試驗(yàn)中,不斷釋放放射性塵埃污染了環(huán)境,AI模型在生成數(shù)據(jù)時(shí)也可能污染了自身。這讓我想到了核試驗(yàn)所導(dǎo)致的輻射對(duì)鋼材的影響。通過(guò)放射性塵埃污染的大氣,進(jìn)入了新鋼材中,導(dǎo)致其輻射性增加。而在AI生成數(shù)據(jù)方面,研究人員發(fā)現(xiàn),將一些由AI生成的語(yǔ)料作為訓(xùn)練數(shù)據(jù),再用這些數(shù)據(jù)來(lái)訓(xùn)練新模型,會(huì)導(dǎo)致模型每次迭代時(shí)錯(cuò)誤累積,末端產(chǎn)生錯(cuò)誤的輸出。
在英國(guó)牛津大學(xué)的研究中,舒邁洛夫和團(tuán)隊(duì)觀察到了這種“模型崩潰”現(xiàn)象,即模型的輸出變得混亂不清。這種現(xiàn)象也在其他研究中得到了證實(shí),不僅僅局限于語(yǔ)言模型,還包括生成手寫(xiě)數(shù)字和區(qū)分概率分布等模型。薩卡爾的實(shí)驗(yàn)也顯示,即使是部分由AI生成的數(shù)據(jù)集也會(huì)對(duì)模型產(chǎn)生影響。
這種現(xiàn)象可能與數(shù)據(jù)集中的“尾部”有關(guān),即出現(xiàn)頻率較低的數(shù)據(jù)元素。這些數(shù)據(jù)與“標(biāo)準(zhǔn)”數(shù)據(jù)差異較大,可能導(dǎo)致模型崩潰,失去了多樣性。這使得模型的輸出逐漸失去與人類數(shù)據(jù)相似的特點(diǎn)。
這種問(wèn)題可能會(huì)加劇模型對(duì)邊緣群體的偏見(jiàn),這讓人憂慮。為了遏制這一問(wèn)題,舒邁洛夫強(qiáng)調(diào),我們需要努力阻止模型崩潰的發(fā)生。雖然AI生成的內(nèi)容正逐漸滲透到訓(xùn)練數(shù)據(jù)領(lǐng)域,但在防止模型崩潰方面,我們可以采用一些方法。例如,薩卡爾提出了使用由人類策劃的“標(biāo)準(zhǔn)化”圖像數(shù)據(jù)集,這些數(shù)據(jù)集僅包含人類創(chuàng)作的內(nèi)容,可以供開(kāi)發(fā)人員使用。
然而,解決這一問(wèn)題并非易事。使用歷史數(shù)據(jù)或合成內(nèi)容來(lái)訓(xùn)練模型可能不是優(yōu)解決方案。歷史數(shù)據(jù)可能無(wú)法滿足不斷變化的模型需求,而合成內(nèi)容可能難以與人工生成的數(shù)據(jù)相區(qū)分。這意味著我們需要發(fā)展出能夠區(qū)分這些數(shù)據(jù)的技術(shù),以便過(guò)濾掉人工生成的數(shù)據(jù),確保模型輸出的準(zhǔn)確性。
總之,人工智能生成的文本“毒害”現(xiàn)象正逐漸顯現(xiàn),需要我們采取有效措施來(lái)應(yīng)對(duì)。與核試驗(yàn)釋放的放射性塵埃類似,這種問(wèn)題可能對(duì)模型的準(zhǔn)確性和多樣性產(chǎn)生深遠(yuǎn)影響。只有通過(guò)不斷的研究和創(chuàng)新,我們才能找到解決這一問(wèn)題的方法,確保人工智能技術(shù)的持續(xù)發(fā)展。