【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(39)——人工人工智能?GPT-4背刺GPT-5?
今天講下前不久小火的一篇論文:

看標(biāo)題就有點(diǎn)奇怪,人工智能怎么就套起娃來了?甚至有些文章根據(jù)這篇文章說明GPT-4有可能背刺GPT-5,這又是怎么回事呢?
這篇專欄就不細(xì)講這篇論文了,而是展開說說一些事情。

1.眾包標(biāo)注與黃金標(biāo)準(zhǔn)
稍微熟悉機(jī)器學(xué)習(xí)的人應(yīng)該都知道,監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中非常重要的組成部分,監(jiān)督學(xué)習(xí)所需要的數(shù)據(jù)集分為數(shù)據(jù)和標(biāo)簽。
其實(shí)很好理解,對于一張圖片,我們可以把它標(biāo)注為“貓”或者“狗”,這樣,("貓的圖片","貓")就是可以在監(jiān)督學(xué)習(xí)中使用的數(shù)據(jù)了。如果我們有了大量的這樣的數(shù)據(jù)對,我們就可以“教”我們的模型區(qū)分一張圖片是貓還是狗。
但是這遇到了一個(gè)問題,即我們?nèi)粘V械膱D片不會(huì)自己就帶著一個(gè)標(biāo)簽記錄著“貓”或者“狗”(至少在第一個(gè)貓狗分類器出現(xiàn)之前),于是我們就需要標(biāo)注,就是讓人來給這些數(shù)據(jù)賦予一個(gè)標(biāo)簽。
一般來說,人類進(jìn)行標(biāo)注的標(biāo)簽就成為黃金標(biāo)準(zhǔn),AI就是要向黃金標(biāo)準(zhǔn)看齊。
但是,強(qiáng)AI就需要更多標(biāo)注數(shù)據(jù),雖然現(xiàn)在很多無監(jiān)督方法的應(yīng)用使得AI發(fā)展迅速,誕生出ChatGPT這樣的東西,但ChatGPT在很多領(lǐng)域仍然比不過監(jiān)督模型或微調(diào)小模型,畢竟全部能做也意味著很多方面都不能兼顧。這些標(biāo)注數(shù)據(jù)可不是幾十上百個(gè)數(shù)據(jù)小打小鬧,往往都大的離譜,幾十萬往上都是常態(tài)。研究者自己一一標(biāo)注往往是不現(xiàn)實(shí)的,找好友、志愿者也許可以,但在現(xiàn)在這種到處都需要標(biāo)注數(shù)據(jù)的情況下也不好用。
于是,就有了眾包標(biāo)注,就是有專門的公司接受標(biāo)注請求并讓旗下的一些外包標(biāo)注員進(jìn)行標(biāo)注。
但是,眾包標(biāo)注的問題是,標(biāo)注經(jīng)常出現(xiàn)不準(zhǔn)的情況。畢竟這些工作者也不是什么領(lǐng)域都懂,而數(shù)據(jù)則是千變?nèi)f化,甚至有專業(yè)論文提取摘要這樣的工作。但是一般來說問題也不算大,數(shù)據(jù)集存在一定噪聲是很正常的

2.ChatGPT與GPT-4 VS 眾包標(biāo)注者
2022年11月底,那個(gè)模型它發(fā)布了,沒錯(cuò),就是ChatGPT,這個(gè)模型在很短的時(shí)間內(nèi)就大范圍地改變了自然語言處理的游戲規(guī)則,關(guān)于ChatGPT的研究也迅速擴(kuò)展到我們生活的方方面面。之后出現(xiàn)的GPT-4則更是強(qiáng)大,在很多測試中都碾壓ChatGPT(最近有消息說GPT-4可能是8*2200億參數(shù),這個(gè)消息還沒坐實(shí),大家就先吃瓜等)
之前就有一篇論文經(jīng)過對比發(fā)現(xiàn),在一些情況下,GPT-4標(biāo)注的準(zhǔn)確率已經(jīng)比眾包標(biāo)注要高了。
而且,GPT-4還有很多優(yōu)勢,例如速度。畢竟我們調(diào)用GPT-4的API是可以開多線程的,計(jì)算也不需要在本地,就等著OpenAI那邊給反饋,可以標(biāo)注的非??臁?/p>
3.人工人工人工智能
但是,GPT-4畢竟頂多算是通用人工智能的曙光,很多時(shí)候還是比不過人類的,很多眾包標(biāo)注的使用者還是希望能夠得到人工標(biāo)注的數(shù)據(jù)集的。
但是,眾包公司當(dāng)然可以為了利潤而采用GPT-4進(jìn)行標(biāo)注而不使用人工(怎么說的跟黑作坊一樣,不過很多眾包標(biāo)注者的待遇其實(shí)并不好,眾包標(biāo)注本身就值得吐槽)。即使眾包公司不這樣做,眾包標(biāo)注者也可能使用GPT-4來輔助自己標(biāo)注或直接讓GPT-4做一部分標(biāo)注。
再加上現(xiàn)在我們依然沒有很好的方法來區(qū)分AI生產(chǎn)的文本和人類文本。
沒錯(cuò),這篇論文就調(diào)查說在一些領(lǐng)域,可能33–46%的數(shù)據(jù)已經(jīng)是AI標(biāo)注了(具體細(xì)節(jié)就不說了)
既然基于人類標(biāo)注的數(shù)據(jù)訓(xùn)練出來的模型是人工智能,那基于人工智能標(biāo)注的數(shù)據(jù)訓(xùn)練出來的模型就是人工人工智能了,然后就可以套娃了。
人工人工人工智能存在的問題是,這樣的模型可能越來越偏離人類,畢竟很多研究都在表明AI的輸出分布和人類語言的分布是不一樣的,考慮到還有自蒸餾這樣的東西和蝴蝶效應(yīng)等,套娃越多,模型越有可能走偏。

4.GPT-4背刺GPT-5?
不僅僅是標(biāo)注數(shù)據(jù),非標(biāo)注數(shù)據(jù)也可能會(huì)受到影響。
我們知道GPT的訓(xùn)練數(shù)據(jù)只需要從網(wǎng)上扒文本就可以了,不需要標(biāo)注。但是ChatGPT和GPT-4出現(xiàn)后,網(wǎng)上也開始充滿了AI生成的文本,例如知乎上就有人用GPT-4來自動(dòng)回答問題(已經(jīng)有封號的了),這甚至?xí)`導(dǎo)new bing。
也就是說,如果我們不能有足夠的手段來區(qū)分人類文本和AI生成的文本,那么GPT-5的語料庫中將包含大量GPT-4生成的文本,這很有可能會(huì)影響GPT-5的性能。甚至通用人工智能將提前殺青,強(qiáng)行腰斬。

5.總結(jié)
也不知道該說些什么,就希望眾包工作者的待遇能好一些吧。