大模型:人類未來(lái),還是海市蜃樓?


01?大模型的冰火兩重天
大模型正在變笨嗎?
最近,大量網(wǎng)友發(fā)現(xiàn),他們的GPT-4處理能力正在退化,尤其是對(duì)問題的分析深度和代碼質(zhì)量,甚至還不如它的前身GPT-3或GPT-3.5。這讓人不禁懷疑,OpenAI削減了ChatGPT的算力,或者更糟——大量用戶的使用,讓其出現(xiàn)了能力退化。



群情洶涌之下,OpenAI的開發(fā)者推廣大使不得不出來(lái)辟謠,GPT-4 API并沒有降級(jí),但對(duì)于web端卻避而不談。
同樣的問題,也出在Anthropic的Claude和New bing上,顯然,LLM的商業(yè)化還沒有完全成熟。另一方面,最近因?yàn)锳I芯片而估值過萬(wàn)億的英偉達(dá),也遭到了“羅斯柴爾德”家族的減持,其全球首席投資官投資官表示,減持的原因是AI的估值已經(jīng)過高,“作為一項(xiàng)投資的話,我怎么都得不出每股400多美元的估值。”

而在國(guó)內(nèi),大模型正在最火熱的階段,自今年3月以來(lái),已有超過20家企業(yè)入局大模型賽道。從百度“文心一言”,到阿里的“通義千問”,從商湯“日日新”,到騰訊“混元”,再到京東“ChatJ”、華為“盤古”等等等等。
互聯(lián)網(wǎng)巨頭紛紛秀出“肌肉”,然而這場(chǎng)亂戰(zhàn)背后,到底是一場(chǎng)新的技術(shù)革命,還是數(shù)字貨幣,元宇宙這樣泡沫居多的風(fēng)口?他到底會(huì)把大伙都趕去送外賣,還是通過強(qiáng)AI的又一次技術(shù)歧途?要解答這一系列的問題,我們首先要回顧一下大模型的發(fā)展史。
02?大模型簡(jiǎn)史
大模型的起源可以追溯到20世紀(jì)80年代,在之后的幾十年里,其技術(shù)進(jìn)步一直表現(xiàn)為隨著計(jì)算機(jī)的性能發(fā)展,神經(jīng)網(wǎng)絡(luò)模型的深度和訓(xùn)練數(shù)據(jù)的規(guī)模緩慢增加。到2006年,隨著深度信念網(wǎng)絡(luò)模型的提出,第一個(gè)深度學(xué)習(xí)模型隨之誕生。2017年,Google 團(tuán)隊(duì)研發(fā)出了Transformer 架構(gòu),使深度學(xué)習(xí)模型參數(shù)達(dá)到了上億的規(guī)模,這才有了我們現(xiàn)在所見的大數(shù)據(jù)學(xué)習(xí)模型。

可以看出,大數(shù)據(jù)模型的提出距離現(xiàn)在并不遙遠(yuǎn)。一開始的大模型,主要也是技術(shù)意義,然而為何短時(shí)間內(nèi)從人工智障,變成了風(fēng)靡全球的人工智能?這中間又有什么驚人的技術(shù)進(jìn)步?答案是,沒有。當(dāng)前業(yè)界公認(rèn),以ChatGPT為代表的大語(yǔ)言模型并不存在實(shí)質(zhì)性的科學(xué)突破。圖靈獎(jiǎng)得主就曾經(jīng)發(fā)推表示,“大型語(yǔ)言模型并沒有物理直覺,它們還是基于文本訓(xùn)練的。”


ChatGPT之所以如此神奇,其核心原因并非是什么新技術(shù),而是量變導(dǎo)致質(zhì)變。對(duì)GPT-3為代表的語(yǔ)言模型研究發(fā)現(xiàn),其性能表現(xiàn)并非隨著模型規(guī)模增加而線性增長(zhǎng),當(dāng)模型大到超過特定的臨界值,就會(huì)涌現(xiàn)出較小模型不具備的能力?;蛘哒f(shuō)得更直白點(diǎn),當(dāng)規(guī)模上億的時(shí)候,大模型的實(shí)用意義幾乎沒有,15億規(guī)模的GPT-2也只是牙牙學(xué)語(yǔ)的嬰兒,只有當(dāng)學(xué)習(xí)規(guī)模擴(kuò)張到1750億,令我們驚訝的ChatGPT才真正誕生。

從技術(shù)原理可以看出,大模型并沒有突破我們平常理解的技術(shù)范疇,距離具有自我意識(shí)的超級(jí)AI更是還有遙遠(yuǎn)的距離。其之所以表現(xiàn)得像是有智慧一樣,一方面是因?yàn)樽吭叫阅?,另一方面,則是當(dāng)人們“看到計(jì)算機(jī)能表現(xiàn)出理解,就認(rèn)為它真理解”的伊莉莎心理學(xué)效應(yīng)在作怪,要知道,伊莉莎效應(yīng)這個(gè)名詞,誕生于上個(gè)世紀(jì)60年代的自動(dòng)對(duì)話程序,現(xiàn)在的AI讓人感到它似乎有智慧,又有什么難的?
所以大模型的能力,或者至少是大規(guī)模應(yīng)用的能力,是有上限的,因?yàn)槌税賰|千億的可調(diào)參數(shù),還有十層百層的深度神經(jīng)網(wǎng)絡(luò)層數(shù),以及注意力頭數(shù),隱藏層大小,都會(huì)讓其成本幾何級(jí)增長(zhǎng),所以當(dāng)收益無(wú)法覆蓋成本的時(shí)候,大模型的能力就來(lái)到了上限。
03?大模型,何處去?
大模型并不是真的有智慧,一方面,指望它代替人類工作還并不現(xiàn)實(shí),但另一方面,它也確實(shí)是是人類手里的威力倍增器,讓原本需要大量人工的輔助工作逐漸消失。其已經(jīng)讓許多人失業(yè),甚至還在讓越來(lái)越多的人失業(yè),就以當(dāng)今比較熱門的AI害畫師下崗為例,真正的頂級(jí)畫師會(huì)因?yàn)锳I沒飯吃嗎?不會(huì),但是他們作畫,本來(lái)需要許多人為他們完成素材、畫背景乃至上色等工作,而AI繪圖一方面幫頂級(jí)畫師省去這些麻煩,另一方面也讓他們的工作效率飛躍性提升,客觀上減少了人力需求,這就減少了固定工作量所需要的崗位,產(chǎn)生了暫時(shí)性能人力溢出。

實(shí)際上,這樣的情況已經(jīng)在更多領(lǐng)域出現(xiàn)了,阿里達(dá)摩院甚至發(fā)布了論文,表示AI工作效率和精準(zhǔn)度比專業(yè)數(shù)據(jù)分析師更高,這當(dāng)然不會(huì)讓所有數(shù)據(jù)分析師下崗,但是少量分析師利用AI,完成遠(yuǎn)比之前更多工作量的未來(lái),已經(jīng)近在眼前。
所以,大模型是一股擋不住的潮流,因?yàn)樗鼛?lái)了效率的切實(shí)提升,因此一定會(huì)在降低成本的需求下,被推廣到全社會(huì)的各個(gè)行業(yè),全行業(yè)的各個(gè)角落。而在這樣的趨勢(shì)下,大模型賽道開始快速分化為三個(gè)方向,一是對(duì)標(biāo)GPT的通用大模型,聚焦基礎(chǔ)層的公司;二是在開源大模型基礎(chǔ)之上訓(xùn)練垂類大模型,聚焦垂直行業(yè);不做研發(fā)直接調(diào)用接口做產(chǎn)品運(yùn)營(yíng)的春應(yīng)用。

百度智能云副總裁朱勇曾表示,因?yàn)樗懔π枨蟠蟆⒂?xùn)練和推理成本高等原因,研發(fā)通用大模型的公司可能“只有那么幾家”,但是上面會(huì)長(zhǎng)出很多專業(yè)領(lǐng)域的大模型。在前不久舉辦的文心大模型技術(shù)交流會(huì)上,百度智能云也格外強(qiáng)調(diào),百度以文心一言為核心,提供大模型服務(wù),幫助企業(yè)開發(fā)自己的專屬大模型。
可以說(shuō),從社會(huì)意義上,大模型堪稱一場(chǎng)信息革命;然而從技術(shù)意義上,它距離強(qiáng)AI等科幻技術(shù),還有大量技術(shù)瓶頸,然而我們要知道,大模型誕生也只有6年時(shí)間,技術(shù)研發(fā)是個(gè)非常容易產(chǎn)生奇點(diǎn)效應(yīng)的事情。大模型仍然有著無(wú)限潛力。

KOL簡(jiǎn)介安吉拉,5年媒體人,10年市場(chǎng)營(yíng)銷人。擁有外企500強(qiáng)市場(chǎng)營(yíng)銷和中國(guó)500強(qiáng)科技大廠用戶增長(zhǎng)——雙重實(shí)戰(zhàn)經(jīng)驗(yàn)。
上海第一財(cái)經(jīng)科技自媒體「錢皓頻道」主理人,從0到1搭建團(tuán)隊(duì),2020年孵化矩陣IP「安吉拉頻道」「薛定諤觀察」「清醒科技」。視頻號(hào)TOP5財(cái)經(jīng)博主。36氪、鈦媒體、虎嗅等權(quán)威平臺(tái)日常首頁(yè)推薦。深度影響創(chuàng)投圈、營(yíng)銷圈、互聯(lián)網(wǎng)行業(yè)人士。
商務(wù)合作請(qǐng)聯(lián)系微信:angelalu2016。