文心一言,站在奧林匹亞

1932年7月,在洛杉磯舉辦的第10屆夏季奧林匹克運動會上,一個只有幾人組成,運動員僅1人的代表團完成了注冊參賽。他們經(jīng)歷了無盡的輾轉(zhuǎn)波折,漫長的海上漂泊,最終來到了奧運賽場上,他們來自——中國。
來到賽場,本身就證明了很多,改變了很多。時至如今,中國的奧運之旅已經(jīng)跨過了90年。我問文心一言,中國在奧運賽場上取得了哪些成就,它從金牌、獎牌、成績、覆蓋項目四個領域進行了歸納,并總結(jié)道,“中國代表團在夏季奧運會上取得了輝煌的成就,金牌數(shù)量和獎牌總數(shù)均位居世界前列,同時在多個項目中也實現(xiàn)了歷史性突破”。

3月16日,當百度向世界展示文心一言的時候,我腦海中首先浮出的是這么一句話:中國AI終于來到了奧運決賽的賽場上。
我們?yōu)槭裁磿绱似诖男囊谎??是對技術(shù)革命的熱忱,對生產(chǎn)力的渴望?這些當然都有,但更加急切的是,對中國科技能否真正參與到這輪科技革命的擔憂和焦慮。
文心一言究竟做到了嗎?
我們第一時間拿到了文心一言的測試資格,就讓我們從最真實的產(chǎn)品表現(xiàn)出發(fā),回溯這條參賽之路。
站在賽場
我相信任何人都不會認為,近期爆火的大語言模型其價值僅僅在問答,它即將引發(fā)出的廣泛性科技創(chuàng)新是清晰可見的,帶來的價值遠遠超過其基礎。
從2012年深度學習技術(shù)成型,到2016年因為數(shù)據(jù)集測試效果優(yōu)秀與AlphaGO的良好宣傳效果,第三次AI崛起正式開啟。2018年,預訓練大模型出現(xiàn),經(jīng)歷了數(shù)年時間,ChatGPT等應用正式通過大語言模型的形式引爆了技術(shù)能量,這可以被看作AI復興的2.0形態(tài),是當之無愧的時代焦點。
最重要的是這場比賽才剛剛開始,如果能夠第一時間參與到全球主流競爭,意味著中國AI可以參與到競爭規(guī)則制定,為上下游發(fā)展獲得先手時機,創(chuàng)造出符合中國經(jīng)濟與社會需求的戰(zhàn)略周期。
那么,文心一言拿到這張寶貴的“參賽券”了嗎?
3月16日下午,在新聞發(fā)布會現(xiàn)場百度CEO李彥宏向各界展示了新一代知識增強大語言模型文心一言在文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成五個使用場景中的綜合能力。但大家肯定會更加好奇,展示效果之外,文心一言的實測、實用情況究竟如何?
當晚,我們就拿到了文心一言的測試資格,對其進行了全方位“拷打”。話不多說,直接上文心一言與ChatGPT的對比,全程無修改無打碼。我們選取了大家最關心的,也是應用度最高的幾方面問題進行測試。需要提前說明的是,生成式AI的答案每次都會不同,因此我們的測試結(jié)果不一定與其他媒體或用戶完全一致。
1.數(shù)理邏輯能力
能夠理解數(shù)理邏輯,回答復雜問題,一直被視作是ChatGPT的最大特色。那么在這方面文心一言能力是否可觀呢?我們請出了中國人最熟悉的數(shù)理邏輯問題——小學奧數(shù),來為大家解答。以一道非常經(jīng)典的行程問題為例,文心一言的答案是這樣的:

可以看到,答題過程雖然簡略,但核心計算過程是非常清晰的,并且答案準確無誤,到這里可能效果還沒有拉滿,那我們不妨看看ChatGPT同一個問題的答案:


嗯,解題過程非常華麗,但最終結(jié)果似乎是欺負我沒上過小學。事實上,直到如今ChatGPT依舊有大量類似問題,可以概括為“一本正經(jīng)地胡說八道”。結(jié)果經(jīng)常出錯這件事,對于生成式AI的可信度、可用度其實是大打折扣的。相比來說,文心一言顯然在邏輯與中文的理解上不落下風。
2.中國文化理解
我們知道,對比一家美國公司的AI模型中國文化理解能力,似乎有失偏頗。但對于中國開發(fā)者和用戶來說,AI對中國文化和語言的理解就是核心訴求,這點是毫無疑問的。那么,在這個領域上文心一言 vs ChatGPT會有怎樣的表現(xiàn)呢?
先來看一個關于唐詩的問題吧。關于李白和王維的藝術(shù)風格,ChatGPT是這樣回答的:

而同樣的問題,文心一言的答案則是這樣的:


雖然ChatGPT的回答也很不錯,但顯然對于李白“詩仙”、王維“詩佛”這個最重要的藝術(shù)內(nèi)核根本沒有涉及。無論是知識科普還是專業(yè)回答,ChatGPT的答案顯然都不能得到高分,而文心一言的回答則更加全面細致,且總結(jié)歸納能力更強。
我們再來問一個明清小說的問題,關于《紅樓夢》的情節(jié),ChatGPT是這樣答的:


而文心一言的答案,似乎從邏輯調(diào)理上就與ChatGPT完全不同:


這就又不得不吐槽了。ChatGPT回答的不是“主要情節(jié)”,而是“包含哪些內(nèi)容”。相反,文心一言則確實梳理了主線情節(jié)的條理,并且給出了主線與副線關系的理解。在此基礎上,對《紅樓夢》的內(nèi)涵做出了具有深度的解析。
對比下來,ChatGPT明顯又犯了答非所問的毛病。但不管怎么說,兩個AI對于中國文化瑰寶的理解,似乎都值得我們大多數(shù)人羨慕和學習。
3.最新信息查詢
對于我們大多數(shù)人而言,都肯定是希望AI問答能夠幫助我們了解世界最近發(fā)生的事情,了解那些最新的消息和動態(tài)。但ChatGPT即使在升級GPT-4之后,依舊采用了到2021年為止的數(shù)據(jù),這也是其廣受詬病的一個問題。那么,文心一言能不能接入最新、最近的信息呢?
我最近一直沒時間追番,于是問了問文心一言《名偵探柯南》的最新情節(jié):

為了確定這就是最新劇情,我又問了這是哪一期:

可如果同一個問題問ChatGPT,會得到怎樣的答案呢?

好吧,它委婉的告訴我,想知道就滾去自己看......顯然,獲取最新的知識、新聞、動態(tài),也構(gòu)成了文心一言的獨特優(yōu)勢。
4.多模態(tài)生成
這一點,目前還是文心一言的專屬能力,ChatGPT并不具備生成圖片的功能??赡苡腥藭J為以文生圖有專門的模型。但不可否認的是,合并到同一個問題系統(tǒng)中,帶給用戶的便捷性是十分明顯的。既然ChatGPT還沒有類似能力,那我們就讓文心一言生成一張圖片,結(jié)束我們的測試部分:

可以看到,無論對刺客信條還是鋼鐵俠的理解,文心一言都是能夠找到“那個味”的。
至此,我們可以坦然且真誠地說:文心一言或許并不完美,在很多地方與ChatGPT互有短長。但真的有自己的技術(shù)優(yōu)勢,更加實用,更加理解中國語言與文化,也更符合中國用戶的需求。
文心一言,真的拿到了大語言模型的決賽資格。
水到渠成的參賽之路
那么我們不禁要問,這背后的原因是什么?為什么又是百度抓住了這個至關重要的戰(zhàn)略機遇?這里面有什么運氣或者玄機嗎?答案或許非常簡單,僅僅有“水到渠成”四個字。

百度CTO王海峰認為:“做文心一言不是頭腦發(fā)熱,是十余年的技術(shù)積累和產(chǎn)業(yè)實踐的水到渠成,我們在人工智能四層的技術(shù)架構(gòu)上都有很深的積累,尤其是框架層和模型層聯(lián)合優(yōu)化發(fā)揮了非常大的作用?!?/p>
就像芯片是生長在數(shù)學、光電與制造業(yè)基礎上的。文心一言所代表的大語言模型能力,是生長在AI技術(shù)積累,尤其是大模型與深度學習框架之上的。
從2019年開始,百度就發(fā)布了文心大模型ERNIE 1.0。四年時間,已經(jīng)從最初的自然語言理解大模型,發(fā)展成了跨語言、跨模態(tài)、跨任務、跨行業(yè)的能力完備的大模型平臺。在框架方面,百度早在2016年就正式對外開源PaddlePaddle(飛槳),飛槳有效支撐了大模型的靈活開發(fā)、高效訓練和推理部署,成為了文心一言誕生的底座。
文心一言另一方面的基礎來自于數(shù)據(jù)和知識,百度在搜索引擎端的龐大數(shù)據(jù)積累、數(shù)據(jù)精細化處理,以及知識圖譜的搭建,最終成為了文心一言的養(yǎng)料。正所謂你看見的是臺上一分鐘,看不到的是臺下十年功,因為百度預判到了全球AI的預判,每一步都在做正確的事,最終才能實現(xiàn)又快、又好鍛造出了文心一言。
如果我們把文心一言背后的技術(shù)能力進行打開、分解,就可以清晰看到“水到渠成”是如何實現(xiàn)的。
首先,文心一言就像ChatGPT一樣,吸收了大語言模型業(yè)界公認的領先實現(xiàn)手段。比如有監(jiān)督的模型精調(diào),確保模型的高魯棒性和吸收數(shù)據(jù)能力;類似人類反饋機制的的強化學習,可以實現(xiàn)模型基于用戶反饋持續(xù)進化,實現(xiàn)“智能涌動”效果;融合不同類型的數(shù)據(jù)、知識,構(gòu)造豐富的提示,生成高質(zhì)量的結(jié)果。
這些能力保證了文心一言能夠區(qū)別于傳統(tǒng)的多輪對話模型,滿足用戶對新型大語言模型的期待,而百度獨特的技術(shù)才是文心一言煥發(fā)技術(shù)創(chuàng)新力的核心。
這個領域的技術(shù),主要包括三個維度:
首先是知識增強。知識增強是文心系列大模型的核心技術(shù)特征,也自然而然集成到了文心一言當中。即通過引入知識圖譜,“知識增強”的方法,將數(shù)據(jù)與知識融合,使得文心大模型相較于其他模型,學習效率更高、可解釋性更好。在文心一言能夠?qū)崿F(xiàn)“知識增強”的背后,是百度構(gòu)建了包含5500億事實的全球最大知識圖譜,從這里我們也可以看到文心一言與文心系列大模型緊密的關系與一致的技術(shù)序列。百度在大模型領域的積累,最終在文心一言完成了厚積薄發(fā)。
其次是檢索增強。文心一言并入了百度在搜索引擎方面的能力與技術(shù),百度新一代搜索架構(gòu)已經(jīng)發(fā)展到了基于語義理解和匹配,其中文心大模型分別理解用戶輸入和文檔,形成雙塔模型,然后基于理解進行匹配。這讓文心一言可以準確獲得高時效性的內(nèi)容,填補了ChatGPT目前為止還無法實現(xiàn)的空白。同時,檢索增強也可以優(yōu)化大模型的推理能力,使它的回答更加精確、有效。
此外,文心一言還加入了百度長期積累的對話增強能力。從而使得大模型具有上下文理解、多輪對話等能力,增強對話的連貫性、合理性。
全球領先的技術(shù)范式,需要我們有能力去學習和了解;自身儲備的核心技術(shù)能力,則可以在關鍵時刻構(gòu)筑差異化。二者結(jié)合,中國AI才有出路。文心一言背后的技術(shù)序列,為中國AI究竟如何發(fā)展點亮了方向。
另一方面,文心一言能夠在如此快速的時間內(nèi)完成訓練、部署,最終為中國AI搶得了先機,不得不提到背后的開發(fā)基座——飛槳。
在框架層,飛槳是百度自主研發(fā)的中國首個開源開放的產(chǎn)業(yè)級深度學習平臺,包括核心框架、產(chǎn)業(yè)級模型庫、開發(fā)套件、工具組件,以及學習和實訓社區(qū),能夠標準化、自動化地支撐模型生產(chǎn)和應用。在飛槳的配合下,文心一言才能夠有效實現(xiàn)大量最新技術(shù)的融合,同時在如此短的時間內(nèi)完成開發(fā)、落地。
從中可以看到,百度已經(jīng)筑造了飛槳+文心,即深度學習開發(fā)平臺+大模型的產(chǎn)業(yè)路徑。二者結(jié)合,企業(yè)和開發(fā)者可以獲得從算力、框架、模型庫,再到大模型調(diào)用、大模型行業(yè)化的所有能力,得到了完善、穩(wěn)固的產(chǎn)業(yè)智能化基座。
文心一言精、快、好落地的今天,就是更多中國大模型脫穎而出的明天。
中國故事,剛剛開始
大語言模型崛起,乃至更宏大的AI復興與新一輪科技革命,在文心一言的證明下,應該可以說上一句:中國故事,才剛剛開始而已。
我們知道大語言模型的應用化,可以帶來非常多的產(chǎn)業(yè)發(fā)展可能。其中包括但不限于引領搜索、辦公、客服、內(nèi)容創(chuàng)作等領域的變革;為更多未知應用提供底座,甚至形成用戶的超級智能助手。而大模型與行業(yè)的融合,則可能帶來千行百業(yè)的生產(chǎn)力革新。
這些產(chǎn)業(yè)可能性的基礎,必然是中國具備與全球頂尖水平對齊的AI能力,不能留下短板,不能受制于人。
就像AlphaGO的價值不僅在棋盤上,ChatGPT的價值不僅在問答中。文心一言的價值也不僅僅在百度的業(yè)務范疇內(nèi),不僅僅是滿足一次“中國能不能做大語言模型”的好奇——它的價值在更遠的地方。

向后看,文心一言證明了百度乃至更多中國AI公司的技術(shù)能力。百度是全球為數(shù)不多擁有“芯片層、框架層、模型層、應用層”全棧AI技術(shù)能力的公司。這些積累究竟能不能打硬仗,能不能實現(xiàn)與世界一流水平的并排搶跑?這些問題在文心一言這里,也就有了答案。
向前看,中國AI究竟是否能攻堅克難,解決關鍵技術(shù)自主化的時代難題等未知的問題,需要一些火苗,一些希望。
或許,文心一言剛誕生時還不完美。這一方面是因為技術(shù)還需要發(fā)展,模型還需要進化;另一方面,是因為我們對它有著過高的期待,對中國科技有著過高的期待,極高預期之下,沒有技術(shù)是完美的。
不妨給文心一言一些耐心,給中國AI一些時間。難題從來無法馬上被解決,但也只有那些足夠艱難,需要漫長時間與精力去破解的難題,才有被解決的必要。
好在,中國AI已經(jīng)踏上了奧林匹亞的賽場。參賽,就是無數(shù)可能性的開始,就是話語權(quán)的基座。
會在某一天,未來的某一天,我們回首看,是八千里路云和月。