百度「文心一言」開箱測(cè)試
16 日晚上才拿到了邀請(qǐng)碼。爆肝一晚,給大家開箱一下「文心一言」。

直奔主題,先回答幾個(gè)問題,后面是詳細(xì)的case。有問題評(píng)論區(qū)繼續(xù)交流。
零、幾個(gè)問題
一、文心一言聯(lián)網(wǎng)嗎?它更像聯(lián)網(wǎng)的 NewBing 還是斷網(wǎng)的 ChatGPT?
他自己說(shuō)能聯(lián)網(wǎng),我實(shí)際測(cè)試不聯(lián)網(wǎng)。雖然感覺數(shù)據(jù)庫(kù)還算比較新,但不像 NewBing 是實(shí)時(shí)聯(lián)網(wǎng)檢索的。
二、支持的對(duì)話長(zhǎng)度
目前,單次輸入的 Prompt 最多 1024 字,返回長(zhǎng)度/總長(zhǎng)度暫時(shí)沒探到:

三、文心一言會(huì)寫代碼嗎?
會(huì)一點(diǎn)。但不多。
四、響應(yīng)速度和對(duì)話存儲(chǔ)
非??臁8惺苁?GPT-3.5?turbo 級(jí)別的。相比之下,GPT-4 明顯慢。
對(duì)話存儲(chǔ)也沒問題,我測(cè)了上千條吧…還支持歷史搜索功能,好評(píng):

五、文心一言的多模態(tài)能力怎么樣?
現(xiàn)在的內(nèi)測(cè)可以畫畫,也可以語(yǔ)音播放,但…不能做視頻。
不過…我實(shí)事求是地說(shuō)一句,我很難講這是否算真正意義的多模態(tài)。因?yàn)槟壳暗奈男氖菚簳r(shí)沒有圖片理解能力的(不像?GPT-4?演示的能針對(duì)圖像問答);也沒有針對(duì)圖像的進(jìn)一步修改能力(微軟 Visual ChatGPT)。但是!但是,文生圖(文心一格)的能力還是不錯(cuò)的,并不像網(wǎng)傳的那么鬼圖,造謠的真的有點(diǎn)過分了(Stable Diffusion 如果不加 negative prompt 畫出來(lái)的人臉扭曲的鬼圖也不少吧,我電腦緩存里還有一堆呢)。
六、總體評(píng)價(jià)
怎么說(shuō)呢,如果你看過我之前的回答,其實(shí)我是一直有點(diǎn)「盼望」百度能端出來(lái)一盤好菜的,一方面是因?yàn)?OpenAI 的閉源,我希望能有更多有能力打破壟斷的公司;另一方面,國(guó)內(nèi)現(xiàn)在瘸子里挑將軍,百度也的確算第一個(gè)官宣發(fā)布大模型的,勇氣可嘉。畢竟敢于出來(lái)對(duì)標(biāo) ChatGPT,真的是需要勇氣的。
而且,國(guó)內(nèi)肯定是需要自己的大模型的。很多人都說(shuō),GPT-4 不是一個(gè)研究領(lǐng)域的開端,而是終結(jié)了很多研究方向。大模型的道路正確與否,交給后來(lái)人評(píng)價(jià),但眼下,大模型既是趨勢(shì),但又是一個(gè)資源高度集中的領(lǐng)域,越來(lái)越呈現(xiàn)出贏家通吃(winner takes all)的局面,所以,我愿意看到百度的成功,也愿意看到 Meta,Google,阿里,騰訊,等等廠家的成功,畢竟對(duì)我們這樣的普通人,大廠卷起來(lái),才有可能普惠到大眾,真正壟斷了,我們可能就用不上更好的產(chǎn)品了。
非常感謝百度的朋友邀請(qǐng)我參加內(nèi)測(cè),體驗(yàn)過程中我盡可能全面地簡(jiǎn)單測(cè)試了文心一言的能力,也反饋了一些存在問題的 cases。
寫這個(gè)評(píng)價(jià)我很是糾結(jié),相對(duì)客觀來(lái)說(shuō),「文心一言」在我這里是及格的,65分吧。我覺得能把產(chǎn)品發(fā)布出來(lái),能發(fā)碼給大家測(cè)試給大家玩,就是很有勇氣的做法。希望能盡快擴(kuò)大測(cè)試范圍,能盡快迭代產(chǎn)品,能盡快接入國(guó)內(nèi)商用場(chǎng)景吧。
下面是體驗(yàn)過程中的 Cases(實(shí)話實(shí)話,有一些明顯是 bug 的 case 我直接提交官方了,沒放出來(lái)):
一、常規(guī)測(cè)試
(一)自我介紹(套套磁,套套話)


(技術(shù)細(xì)節(jié)無(wú)可奉告,直接對(duì)標(biāo) GPT-4?。?/p>
(二)文本能力
1、創(chuàng)作能力

(可是他只寫了 440 字,哼)
2、摘要能力


還可以~
3、文字游戲
成語(yǔ)接龍:

(一上來(lái)就臭氣熏天??故意的還是不小心的???)

(而且「寶中之寶」還真是個(gè)成語(yǔ)啊……堪比「為所欲為」……)

(三)知識(shí)問答
(感覺目前知識(shí)庫(kù)數(shù)據(jù)卡在 2022 年年底左右,而且并沒有 NewBing 那樣實(shí)時(shí)檢索的能力。所以建議大家不要問太過近期的內(nèi)容,就算回答了也跟 ChatGPT 一樣是瞎編的。)


(四)數(shù)學(xué)邏輯
文言文雞兔同籠:

第一題還行,而且用的不是解方程(ChatGPT 和 NewBing 都是用的解方程)。
第二小題就拉了,沒讀懂題目。
(五)代碼編寫

說(shuō)實(shí)話,能寫,但只能寫一點(diǎn)點(diǎn)…
也有一處不方便的地方:代碼區(qū)沒有像 ChatGPT 一樣一鍵復(fù)制的按鈕。
(六)圖片生成
依靠文心一格的基礎(chǔ),畫畫算是今天體驗(yàn)到的一個(gè)高光和加分項(xiàng)了……




(七)音頻朗讀


但是比較奇怪的是…它會(huì)四川話、東北話、廣東話和臺(tái)灣話(這四個(gè)都測(cè)過了),唯獨(dú)不會(huì)普通話……
(八)視頻生成
暫不支持。過。
二、非常規(guī)測(cè)試
(一)安全性測(cè)試

常規(guī)對(duì)話的規(guī)避沒有問題。

設(shè)置復(fù)雜情景,可能會(huì)?hack?出一部分內(nèi)容,算來(lái)看起來(lái)危害不大,但還是要想辦法完善。這也是國(guó)外的 AI 團(tuán)隊(duì)很在意的事情,NewBing 反復(fù)調(diào)整,主要還是因?yàn)檫@方面原因。
(二)情緒識(shí)別與干預(yù)

(三)風(fēng)格化仿寫

訓(xùn)練的風(fēng)格化內(nèi)容還不夠多。不過優(yōu)點(diǎn)在于…非常正能量!
(四)文本理解能力


問題可能出的簡(jiǎn)單了些,不過確實(shí)都答對(duì)了,基本能力是有的。
(五)特殊文體測(cè)試(詩(shī)、歌詞)
藏頭詩(shī):


(寫挺好,不會(huì)優(yōu)化過吧,來(lái)一首贊美友商的)

來(lái)一首歌詞:


雖然口水了一點(diǎn),但結(jié)構(gòu)還挺完整,有重復(fù)的副歌部分,也算朗朗上口。
不得不說(shuō),文心一言的中文能力確實(shí)還行啊…
(六)翻譯能力




(七)糾錯(cuò)+翻譯任務(wù)

(八)個(gè)性化推薦

多少也帶一點(diǎn)胡編亂造的毛病…真真假假…
(九)調(diào)教?(應(yīng)粉絲要求)
我也沒調(diào)教過,好在粉絲老爺手里有的是教程……[1][2],似乎有一點(diǎn)…效果。

感覺是可以調(diào)教的,但又感覺……反正沒有繼續(xù)研究
(十)弱智吧問題(應(yīng)粉絲要求:數(shù)理邏輯也就圖一樂,真推理還得看弱智吧)

(沒上當(dāng))


(嘶……等會(huì)我琢磨琢磨)

(我多余問這一句)

(打太極的高手)

(且不說(shuō)你這錢分配的合理不合理,你算出來(lái)總計(jì)也不對(duì)吧……)


算了,弱智吧的題目還是別測(cè)了…把我自己腦子都測(cè)麻了…
三、對(duì)比測(cè)試
對(duì)比測(cè)試雖然有點(diǎn)殘忍。但鑒于已經(jīng)有不少媒體在直播中這樣干了…我也加上這部分吧。本來(lái)這些是在上面部分的,我挑了幾個(gè)差距明顯的拿下了。還是開篇的那句話,文心一言的表現(xiàn)其實(shí)是及格的,奈何有 GPT-4 在前。
不過這并不是丟人的事情。下面開始上點(diǎn)難度。
(一)比一比數(shù)學(xué)吧
曾幾何時(shí),ChatGPT 不會(huì)算 1+1=2 還是一個(gè)梗?,F(xiàn)在…先做幾道數(shù)學(xué)題吧。

我沒算錯(cuò)的話就是…全對(duì)。我敢說(shuō),這個(gè)表現(xiàn)甚至是優(yōu)于 GPT-3.5 的…:

GPT-4 是不是沒什么測(cè)的必要……:


再上點(diǎn)難度,來(lái)道行測(cè)題
:


好吧,行測(cè)數(shù)學(xué)對(duì)它來(lái)說(shuō)還是太難了,理解題意第一個(gè)方程就列錯(cuò)了……這跟 GPT-4 還是有差距的。
高等數(shù)學(xué)就不測(cè)了吧…
(二)in-context learning
添加圖片注釋,不超過 140 字(可選)
添加圖片注釋,不超過 140 字(可選)
GPT-3.5 輕松搞定,用不到 GPT-4。
再比如我之前舉過的例子[3]:

文心一言就…

把 Prompt 拆成兩步也不行:


(三)自然語(yǔ)言->格式化能力



表格轉(zhuǎn)對(duì)了,這個(gè) JSON 就…丟掉了姓名,添加了多余的[]。(本質(zhì)可能還是代碼能力不行)

(四)對(duì)角色的理解
這是之前用 GPT 時(shí)發(fā)現(xiàn)的能力,有點(diǎn)類似于上面二、(九)的個(gè)性化推薦。文心表現(xiàn)的不明顯。對(duì)比:





差距還是有的…不管是不是因?yàn)?GPT 做了專門的優(yōu)化,總之…解決這個(gè) case 是有意義的。
(五)邏輯能力
上最后的硬菜,其實(shí)有點(diǎn)強(qiáng) AI 所難了,GPT-4 也做不對(duì)。
來(lái)幾道難度不低的行測(cè)題目[4]:
【定義推理】1、


文心錯(cuò),GPT-4 對(duì)
【定義推理】2



文心和 GPT-3.5 做對(duì)了,GPT-4 反而錯(cuò)了。但是文心的過程其實(shí)不全對(duì)…它明明把 BCD 都排除了。
【類比推理】1


雖然推理過程不一樣…答案倒是都對(duì)了,驚了。
【類比推理】2


【復(fù)雜邏輯判斷】


唉…GPT-4 這么自信的,知道 B 正確,C、D 都不看了。
整體給我的感覺,文心在很努力地推導(dǎo),但…很多時(shí)候…它審題就沒讀懂…
四、問題總結(jié)
好話就不說(shuō)了(比如計(jì)算能力其實(shí)還行?畢竟 GPT-3.5 也不大會(huì)算數(shù))。談?wù)勎野l(fā)現(xiàn)的問題吧,這些問題百度內(nèi)部應(yīng)該心知肚明,大家只要體驗(yàn)上手也都會(huì)有感受,所以我也大大方方講出來(lái)。
(一)語(yǔ)料質(zhì)量不高
真正回到中文世界,我們就會(huì)發(fā)現(xiàn),高質(zhì)量語(yǔ)料實(shí)在是太少了。我在測(cè)試中甚至發(fā)現(xiàn)了極少數(shù)情況的結(jié)尾會(huì)有「關(guān)注xxxxx」……唉……
該說(shuō)不說(shuō),這其中是有惡因惡果的,不多說(shuō)了,任重道遠(yuǎn)。
(二)文本生成能力在很多細(xì)節(jié)上還不夠
特別是多輪對(duì)話的糾正/影響、in-context learning,角色理解以及推理能力吧。
感覺現(xiàn)在的體驗(yàn)中,之前的回復(fù)對(duì)之后的回復(fù)影響太大,如果是形式相近的問題,很容易得到重復(fù)回答,只能開新對(duì)話。
雖然推理能力 GPT-3.5 也沒強(qiáng)到哪去,不過,in-context learning 能力差距就大了點(diǎn)。
(三)代碼能力羸弱
OpenAI 背靠 GIthub,代碼這塊確實(shí)很難搞…寫代碼其實(shí)是挺重要的生產(chǎn)力工具,也是程序員比較喜歡測(cè)試的一個(gè)功能。
(四)多模態(tài)產(chǎn)品不夠成熟
開頭就說(shuō)了,內(nèi)測(cè)給的多模態(tài)有簡(jiǎn)單調(diào)用文心一格和 TTS 服務(wù)的嫌疑,自動(dòng)剪視頻的完成度倒是很高,可惜不能體驗(yàn)。我們無(wú)從知道多模態(tài)是不是趕工上架的,畢竟 ChatGPT 也沒有多模態(tài),GPT-4 的多模態(tài)也還沒開放測(cè)試體驗(yàn),在這方面提要求可能苛責(zé)了點(diǎn)。
不過還是希望能盡快擁有真正的多模態(tài)能力,要有圖片的理解能力和基于圖片信息的多輪對(duì)話能力。
(五)一個(gè)小小小問題…文心一言現(xiàn)在不會(huì)發(fā)也看不懂 emoji…
(六)另一個(gè)小小小問題…文心一言缺乏一些幽默感…也寫不出笑話或脫口秀文稿,寫什么都一本正經(jīng)的。
結(jié)語(yǔ)
我其實(shí)倒覺得,百度發(fā)布會(huì)上還是略微保守了一丟丟丟,文心的完成度還是有的,如果選擇一些簡(jiǎn)單穩(wěn)定的場(chǎng)景,做實(shí)機(jī)演示,可能會(huì)顯得信心更足一些。不過有谷歌的翻車在前,保守的策略也可以理解。
也希望大家能多點(diǎn)寬容理解,多點(diǎn)鼓勵(lì)支持。百度做的很多工作是有價(jià)值的。說(shuō)實(shí)話,我們不去討論 ChatGPT 有多好用多離不開,畢竟現(xiàn)在事實(shí)是別人不向我們提供服務(wù),其實(shí)是別人對(duì)我們斷供了。
在固態(tài)硬盤的事情上,大家都說(shuō),感謝長(zhǎng)江存儲(chǔ)讓我們用上便宜的固態(tài)。
我希望將來(lái)有一天我們能說(shuō),感謝百度/騰訊/阿里/華為/商湯/科大訊飛/字節(jié)/曠視讓我們用上便宜的 AI。
致謝
再次感謝百度朋友發(fā)的內(nèi)測(cè)碼,雖然我提了不少問題,大不了我明天繼續(xù)當(dāng)義務(wù)測(cè)試人員,多反饋些 case。
同時(shí)致謝 ChatGPT-4。由它提供了文中的部分 test case,提高了我的測(cè)評(píng)效率。(但不包括第三部分的對(duì)比測(cè)試,我不會(huì)讓它自己出題自己做的。)

(回到開篇的打分,你如果問我給 GPT-4 打多少分…90 分吧。唉。知恥后勇,奮發(fā)努力。)
以上。
參考
^https://zhuanlan.zhihu.com/p/610745644?utm_id=0
^https://www.zhihu.com/question/582600325/answer/2888750153
^https://mp.weixin.qq.com/s?__biz=MzIwOTA3Njg3MQ==&mid=2247510698&idx=1&sn=90089a96143d2e35065b92e402c2a655&chksm=977bbd42a00c345450988f7f25abe723b0d7b0ab58a662caac9ce3994e4c51ca9611a04faa89&scene=27