百度研發(fā)的AI,為何會不懂中文?
十幾天前,李彥宏站在發(fā)布會的舞臺上,向全球發(fā)布了屬于14億中國人的“ChatGPT”——文心一言。
發(fā)布會的效果不盡如人意,當(dāng)天百度的股價應(yīng)聲大跌了10%??梢姟拔男囊谎浴辈]有滿足市場的期待,又或許是我們的期待太高了,百度狠抽了我們一記耳光。
第二天,接受專訪時,主持人問李彥宏:你們與ChatGPT究竟有多大的差距?
李彥宏說,他們內(nèi)部做了個測試,如果滿分是100分的話,文心一言與ChatGPT的差距是40分——勉強(qiáng)及格的水平。
尤其是“文生圖”的能力,只能用“災(zāi)難”形容。
“給我畫一個車水馬龍的街道”
“畫一對青梅竹馬的情侶”
“畫一個驢肉火燒”
“畫一個紅燒獅子頭”
文心一言根本無法理解成語、菜名背后的真實意義,認(rèn)知水平停留在字面上。由此可見“文心一言”根本是一個半成品,真實的評分可能只有50分。
主持人又問:文心一言想要追上ChatGPT的水平需要多久?
李彥宏答:我們內(nèi)部認(rèn)為一個月足夠。
如果雙方只有一個月的差距,百度為何不等一個月再發(fā)布“文心一言”?非要急急忙忙拿出個半成品,開了一場令人失望的發(fā)布會?
原因一:越追越吃力。
眾所周知,AI產(chǎn)品與傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品最大的不同是AI自身會不斷的學(xué)習(xí),每天都在自我進(jìn)化,積累經(jīng)驗。
AI沒有提前設(shè)定好的程序,而是有一套學(xué)習(xí)模型,模型是骨架,未來會“發(fā)育”成什么樣子,完全看自身的學(xué)習(xí)能力與“教材”。
百度和OPEN AI,猶如兩個父母把各自的孩子送到學(xué)校里讀書。俗話說,師傅領(lǐng)進(jìn)門,成才靠個人。每個孩子的天賦不一樣,學(xué)習(xí)時間一長,成績自然會分出好壞。
一個令人揪心的事實是:文心一言的學(xué)習(xí)能力似乎沒有ChatGPT強(qiáng)。
據(jù)李彥宏透露:剛開始,百度內(nèi)部樂觀的預(yù)計,雖然文心一言與ChatGPT有40分的差距,但僅需一個月便可追上。
又學(xué)了一個月后,“考試”的結(jié)果令百度大吃一驚:文心一言非但沒追上,差距反而越拉越大了!
這種差距并非文心一言退步了,而是ChatGPT進(jìn)步速度太快:百度還沉迷在100分的喜悅中,Chat已考出了150分。
李彥宏對兩者的差距,從“差1個月”調(diào)整為“差4個月”,剛剛公布的文心一言的水平相當(dāng)于4個月前的ChatGPT。
原本以為ChatGPT的升級是勻速的,結(jié)果發(fā)現(xiàn)是跳躍式的升級。
有一種可能是,文心一言自覺短期內(nèi)追不上ChatGPT了,雙方距離會越拉越大。既然如此,晚發(fā)布不如早發(fā)布,現(xiàn)在發(fā)布雙方差距是4個月,下個月發(fā)布,雙方差距說不定是六個月了。
原因二:百度急需新故事。
近幾年,百度過得不大如意。曾經(jīng)的互聯(lián)網(wǎng)三巨頭:BAT,象征百度的“B”沒了,只剩下了A和T。阿里和騰訊有3萬億的市值,百度未過萬億,明顯和前者不在一個檔次。
百度的失敗源于錯過了移動互聯(lián)網(wǎng)的發(fā)展機(jī)遇。PC時代,百度搜索是流量“分發(fā)商”,阿里、京東再牛,也要交錢給百度買流量。
手機(jī)時代,APP的出現(xiàn)砸了百度的金飯碗,各個互聯(lián)網(wǎng)廠商都推出了各自的APP,擺脫了對百度的依賴。
錯過了手機(jī)時代的百度,決定采取跳蛙戰(zhàn)術(shù),直接擁抱AI時代,已為AI技術(shù)持續(xù)性投入了十幾年的資金。
可惜,AI技術(shù)長期處于“只聽樓梯響,不見人下來”的狀態(tài)。自動駕駛的大規(guī)模商用短期內(nèi)難以實現(xiàn);智能硬件的市場又太小,撐不起百度的基本盤。
唯獨ChatGPT的橫空出世,一下子吸引了全球的目光,所有的科技媒體都在討論這款A(yù)I,大規(guī)模商業(yè)化的藍(lán)圖已經(jīng)顯現(xiàn)。
百度急需乘上這股東風(fēng),拉升股價,擺脫對廣告的依賴。2022年財報顯示,百度全年營收1236億,廣告業(yè)務(wù)的收入為695億,占總營收的56%。
李彥宏口口聲聲說“百度是一家科技公司”,但財報告訴我們“百度是一家廣告公司”。
原因三:再好的AI也要通過普通人的盲測。
文心一言被廣泛質(zhì)疑,有一個重要原因是不開放公測,僅對部分人群發(fā)放內(nèi)測碼。ChatGPT則采取了公測,向全球大部分地區(qū)免費開放使用。
公測的好處是,可以最大限度的提升ChatGPT的訓(xùn)練量——10萬使用者和10億使用者提供的訓(xùn)練量是不同的,ChatGPT面對10億用戶,進(jìn)步速度必然更快。
不愿公測的文心一言,難免被外界懷疑是個“水貨”,內(nèi)測者寫的一些夸贊的稿件,也被懷疑是“軟文”。
以本文開頭提及的“文生圖”功能為例。
網(wǎng)上有大V懷疑:文心一言之所以會產(chǎn)生這么多文不對題的圖片,原因是它本質(zhì)上是外國AI軟件的一個“換皮”產(chǎn)品。
當(dāng)用戶輸入“紅燒獅子頭”時,文心一言會自動翻譯成英語,英語中沒有“紅燒獅子頭”的單詞,只能直譯成“紅色的獅子頭”。所謂百度的AI開發(fā),僅僅是把外國的AI軟件做了個漢化工作。
其實,文不對題的原因是百度用了國外的圖片數(shù)據(jù)庫。文心一言在學(xué)習(xí)各種圖片時,用的“教材”是英文的,所以整個邏輯就是英文的,導(dǎo)致了“文不對題”的問題。
并非某些大V推測的整個“文心一言”就是一個漢化AI。
但“紅燒獅子頭”的出現(xiàn),同樣暴露出文心一言居然存在如此幼稚的認(rèn)知BUG!整個百度團(tuán)隊居然也沒人發(fā)現(xiàn)!
由此我們可以推測出,文心一言的開發(fā)程度沒有達(dá)到公測的水平,幼稚的BUG仍然很多,如果貿(mào)然開放公測,被網(wǎng)友們找出來太多幼稚的BUG,那百度的股價不是跌10%那么簡單了。
但丑媳婦總有見公婆的一天,希望百度不要因噎廢食,早日開放文心一言的公測,用14億人的數(shù)據(jù)量,助其快速成長!