為什么Yann lecun(楊立昆)對(duì)chatGPT持否定態(tài)度?

在討論chatgpt的局限之前我們不妨思考一下,為何大規(guī)模預(yù)訓(xùn)練模型首先出現(xiàn)在nlp領(lǐng)域而不是cv領(lǐng)域?深度學(xué)習(xí)在nlp上的發(fā)展進(jìn)度為何遙遙領(lǐng)先cv?
要知道在2017年transformer出現(xiàn)之前,cv領(lǐng)域的發(fā)展是領(lǐng)先nlp的。然而當(dāng)transformer出現(xiàn)以后,nlp領(lǐng)域的研究就一發(fā)不可收拾,經(jīng)歷了以下過(guò)程。
1.transformer統(tǒng)一了nlp領(lǐng)域的特征提取算子,具有全局信息感知能力的transformer以壓倒性優(yōu)勢(shì)擊敗了傳統(tǒng)的rnn。
2.bert模型展示了大規(guī)模預(yù)訓(xùn)練模型的威力。訓(xùn)練好的預(yù)訓(xùn)練模型經(jīng)過(guò)小規(guī)模的微調(diào)就可以很好的適應(yīng)下游任務(wù)。從這開(kāi)始,agi的實(shí)現(xiàn)出現(xiàn)了曙光。
3.chatgpt橫空出世,大規(guī)模預(yù)訓(xùn)練模型+prompt?讓絕大多數(shù)上游任務(wù)的研究變得毫無(wú)意義。
講到這里,我們可以思考一下cv和nlp這兩個(gè)原本是平行的研究領(lǐng)域?yàn)楹萎a(chǎn)生了不同的發(fā)展結(jié)果。
nlp的研究對(duì)象是文字,cv的研究對(duì)象是視頻圖像數(shù)據(jù)。文字是人造的信息載體,天生就高度抽象化,規(guī)則化,信息密度遠(yuǎn)遠(yuǎn)高于視覺(jué)數(shù)據(jù)。這就導(dǎo)致了cv中一些非常困難的上游任務(wù)在nlp中并不存在。例如像素級(jí)別的圖像分割是cv至今都未解決的問(wèn)題。而自然語(yǔ)言分詞技術(shù)基本上可以說(shuō)是被解決了。
可以用數(shù)學(xué)語(yǔ)言來(lái)這樣總結(jié),cv領(lǐng)域中的數(shù)據(jù)分布模型的復(fù)雜程度要遠(yuǎn)遠(yuǎn)大于nlp。而目前的深度學(xué)習(xí)技術(shù)簡(jiǎn)單來(lái)說(shuō)就是通過(guò)樸素貝葉斯公式,以采樣的方式構(gòu)造數(shù)據(jù)集,將其分布假設(shè)為先驗(yàn)分布(這一假設(shè)很多時(shí)候并不成立),并通過(guò)網(wǎng)絡(luò)模型估計(jì)概率密度分布,預(yù)測(cè)事件的后驗(yàn)分布。
上面的敘述簡(jiǎn)單來(lái)說(shuō),任務(wù)的困難程度,完全由真實(shí)世界中數(shù)據(jù)分布的復(fù)雜程度決定(因?yàn)檫@是模型需要估計(jì)的目標(biāo))。另外采樣數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的分布差異也是影響模型精確性的一個(gè)重要因素。
所以為什么深度學(xué)習(xí)在nlp比cv發(fā)展的快呢?因?yàn)槲淖謹(jǐn)?shù)據(jù)分布復(fù)雜性肯定遠(yuǎn)遠(yuǎn)低于圖像數(shù)據(jù)唄。并且在構(gòu)造數(shù)據(jù)集的時(shí)候文字也遠(yuǎn)比圖像容易。
所以nlp領(lǐng)域遠(yuǎn)比cv更適合使用概率模型進(jìn)行分析。所以問(wèn)題來(lái)了,chatgpt這類(lèi)大語(yǔ)言模型的成功能夠復(fù)制到cv領(lǐng)域嗎?從nlp到cv,數(shù)據(jù)的復(fù)雜性應(yīng)該是成幾何倍數(shù)的增長(zhǎng),低效的概率分布模型能在撞到算力墻之前擬合如此復(fù)雜的視覺(jué)數(shù)據(jù)分布嗎?
我個(gè)人認(rèn)為除非算力無(wú)限膨脹,現(xiàn)有的深度學(xué)習(xí)研究或早或晚都會(huì)撞上算力墻或者受到工程上的限制。這可能受制約未來(lái)大模型發(fā)展的一個(gè)最重要的瓶頸。

