最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(14)——合成數(shù)據(jù)

2023-08-07 18:17 作者:花師小哲-中二  | 我要投稿

人工智能有三架馬車:數(shù)據(jù)、算法、算力。或許很多文章或資料都告訴你“現(xiàn)在的模型之所以一般都只能是千萬(wàn)億參數(shù)是因?yàn)橛布O限基本就在這里了”,但數(shù)據(jù)極限其實(shí)也快到了。本文我們就來(lái)簡(jiǎn)單聊聊合成數(shù)據(jù)(這里說(shuō)的合成數(shù)據(jù)不一定是AI模型生成的,也可以是一些其他算法合成的,主要是與真實(shí)數(shù)據(jù)區(qū)分)。

可以搭配這一篇食用:

【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(39)——人工人工智能?GPT-4背刺GPT-5?

1.需要合成數(shù)據(jù),且不得不用合成數(shù)據(jù)

其實(shí)到現(xiàn)在為止,互聯(lián)網(wǎng)上能夠爬的到的高質(zhì)量數(shù)據(jù)已經(jīng)快被用完了。雖然OpenAI已經(jīng)聲稱GPT-4通用人工智能(AGI)的曙光了,但下一步該怎么走依然是嚴(yán)重的問(wèn)題,數(shù)據(jù)就是一個(gè)限制因素了。

那么,有沒(méi)有另一種可能得數(shù)據(jù)來(lái)源呢?還是有的,那就是合成數(shù)據(jù)。雖然高質(zhì)量自然語(yǔ)言的合成存在很多問(wèn)題,但合成數(shù)據(jù)在人工智能領(lǐng)域的應(yīng)用其實(shí)并不少了。例如我想訓(xùn)練無(wú)人駕駛,但是數(shù)據(jù)不足,怎么辦呢?一個(gè)辦法就是用3D引擎來(lái)生成圖片?,F(xiàn)在很多3D引擎已經(jīng)能建模得比較真實(shí)了,我們就用這個(gè)引擎生成路上行駛可能會(huì)遇到的各種各樣的情況。

當(dāng)然,用模型生成的數(shù)據(jù)也可以看做是生成數(shù)據(jù)的來(lái)源,不過(guò)目前數(shù)據(jù)質(zhì)量自動(dòng)化保證還有一定的困難。不管怎么說(shuō),用合成數(shù)據(jù)都是以后不得不考慮的一個(gè)選項(xiàng)了。


另一方面,現(xiàn)在使用合成數(shù)據(jù)已經(jīng)是不可避免的了。原因很簡(jiǎn)單,因?yàn)?strong>AIGC的發(fā)展,現(xiàn)在的互聯(lián)網(wǎng)上早就充滿了各種各樣AI生成的內(nèi)容了,而現(xiàn)在又沒(méi)有準(zhǔn)確率特別高的算法區(qū)分人工生成的內(nèi)容和AI生成的內(nèi)容,往后再爬取新的數(shù)據(jù)的時(shí)候就不可避免的會(huì)混入大量的合成數(shù)據(jù)。


那么,問(wèn)題就很多了。例如合成數(shù)據(jù)有沒(méi)有應(yīng)用,以及可能帶來(lái)的危害。

2.合成數(shù)據(jù)的應(yīng)用

實(shí)際上,合成數(shù)據(jù)已經(jīng)被用到很多地方了,特別是來(lái)自ChatGPTGPT-4(后續(xù)就統(tǒng)稱GPT了)生成的數(shù)據(jù)已經(jīng)用來(lái)訓(xùn)練很多模型了,例如用GPT生成“教科書級(jí)別”的代碼數(shù)據(jù)用以訓(xùn)練模型;用GPT生成兒童故事數(shù)據(jù)集來(lái)訓(xùn)練盡可能小但仍然能流暢輸出英文的模型等等。(之前舉例的)

另一個(gè)很可能的應(yīng)用就是用代碼數(shù)據(jù)來(lái)增強(qiáng)現(xiàn)有語(yǔ)言模型。畢竟代碼的一個(gè)好處是(至少是不分)可以驗(yàn)證正誤,也更容易(相較于自然語(yǔ)言)判斷質(zhì)量。不過(guò)這種用人工語(yǔ)言反向強(qiáng)化元語(yǔ)言的操作估計(jì)也存在很多問(wèn)題。

3.合成數(shù)據(jù)面臨的問(wèn)題

一個(gè)基本的問(wèn)題是,合成數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布是不同的,或者說(shuō)合成域域真實(shí)域存在區(qū)別。這個(gè)其實(shí)很好理解,你像ChatGPT因?yàn)樽隽巳祟悆r(jià)值觀的對(duì)齊,生成的文本往往毒性比較低,但是真實(shí)數(shù)據(jù)必然是充斥著大量的有毒文本的;又比如人們?cè)谟肁I生成圖片的過(guò)程中一般會(huì)挑選質(zhì)量高的東西(沒(méi)錯(cuò),某種程度上來(lái)說(shuō),數(shù)據(jù)本身就是通過(guò)人的主觀采樣過(guò)的,并不是完全隨機(jī)的,這也是數(shù)據(jù)合成面臨的一個(gè)問(wèn)題);《Evidence of Meaning in Language Models Trained on Programs》這篇論文也說(shuō)明AI生成的數(shù)據(jù)域訓(xùn)練集在統(tǒng)計(jì)指標(biāo)上并不相同,AI生成的程序往往更短更精煉,偏好也與訓(xùn)練集不相同(這是好事,說(shuō)明AI真的知道這類問(wèn)題該怎么做了)。

但是,合成域與真實(shí)域不相同并不總是好事。這一點(diǎn)會(huì)帶來(lái)一連串的連帶效應(yīng):

(1)數(shù)據(jù)合成困難。已經(jīng)有研究表明這種分布的區(qū)別會(huì)導(dǎo)致在合成數(shù)據(jù)上訓(xùn)練必然會(huì)引入一個(gè)影響在真實(shí)域上表現(xiàn)的誤差,這個(gè)誤差是無(wú)法通過(guò)增大合成數(shù)據(jù)量來(lái)解決的。所以很多生成合成數(shù)據(jù)的算法都在想辦法減少這兩個(gè)域的差別(例如Meta Sim)

(2)不能世代傳遞。既然能用合成數(shù)據(jù)訓(xùn)練,那么就有人產(chǎn)生一種想法:我用真實(shí)數(shù)據(jù)訓(xùn)練模型1,然后用模型1的生成數(shù)據(jù)訓(xùn)練模型2,那么我不就可以無(wú)限訓(xùn)練下去而不再需要真實(shí)數(shù)據(jù)了?可惜,真相是殘酷的。

在NLP(自然語(yǔ)言處理)領(lǐng)域,有人這樣做了,結(jié)果就是模型崩潰;在CV(計(jì)算機(jī)視覺(jué))領(lǐng)域,有人這樣做了,結(jié)果沒(méi)過(guò)幾代,生成人臉上就會(huì)多很多奇怪的紋理,生成的數(shù)據(jù)樣式也越來(lái)越少,作者稱這些模型MAD(雖然這個(gè)MAD是術(shù)語(yǔ)“自噬障礙模型”的縮寫)了

一個(gè)很重要的原因是,生成數(shù)據(jù)的多樣性往往會(huì)降低,即使我們能夠保持?jǐn)?shù)據(jù)質(zhì)量(實(shí)際上也很難保持,也許是另一種意義上的熵增),多樣性基本上是沒(méi)轍的。這也說(shuō)明了,真實(shí)數(shù)據(jù)永遠(yuǎn)是必要的,是無(wú)法拋棄的(上面MAD的研究也表明只要真實(shí)數(shù)據(jù)足夠,MAD就不會(huì)發(fā)生)。

所以,AI生成的數(shù)據(jù)不僅引起其他一些領(lǐng)域的朋友的不滿,對(duì)于搞AI的人來(lái)說(shuō),也算不上是好消息。

這里插一段,現(xiàn)在搞AI的人大多數(shù)肯定不會(huì)像我這樣依然堅(jiān)持認(rèn)為“研究AI的最終目的是理解我們?nèi)说闹悄堋?,畢竟AI的幾次低谷已經(jīng)表明AI是不能單純搞“玩具”的,搞“玩具”是沒(méi)有經(jīng)費(fèi)的,必須要落地才有經(jīng)費(fèi),而AIGC算是現(xiàn)在AI發(fā)展的救命稻草之一了,雖然也是一個(gè)潘多拉黑盒吧。哎,悲傷且有爭(zhēng)議的話題,就不展開了,就單純抱怨下。


而現(xiàn)在的情況是,網(wǎng)絡(luò)上是充滿了AIGC內(nèi)容的,有些質(zhì)量還不高(特別是用GPT機(jī)器人到處回答問(wèn)題的)。只能說(shuō),合成數(shù)據(jù)的使用還是存在很多問(wèn)題的,不過(guò)也是不得不搞的東西。

【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(14)——合成數(shù)據(jù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
临夏县| 北票市| 富宁县| 筠连县| 宁南县| 新丰县| 虹口区| 赤水市| 隆昌县| 台南市| 凭祥市| 卓尼县| 大厂| 无为县| 博客| 监利县| 清原| 柘荣县| 宁阳县| 苍梧县| 玉树县| 中阳县| 宁津县| 济源市| 瓮安县| 曲麻莱县| 甘肃省| 辉县市| 奉新县| 镶黄旗| 麻江县| 淮南市| 浪卡子县| 沧源| 化德县| 林口县| 宜兴市| 石狮市| 山西省| 秦皇岛市| 遵义县|