《2023 大語言模型綜合能力測評報告》出爐:以文心一言為代表的國內(nèi)產(chǎn)品即將沖出重圍
近日國內(nèi)與人工智能領(lǐng)域相關(guān)的利好政策陸續(xù)釋放,中央召開的相關(guān)會議強(qiáng)調(diào)“未來要重視通用人工智能發(fā)展,營造創(chuàng)新生態(tài)?!薄侗本┦写龠M(jìn)通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025 年)(征求意見稿)》圍繞五大方向提出 21 項具體措施,包括“開展大模型創(chuàng)新算法及關(guān)鍵技術(shù)研究”,“加強(qiáng)大模型訓(xùn)練數(shù)據(jù)采集及治理工具研發(fā)”等,同時面向政務(wù)服務(wù)、醫(yī)療、科學(xué)研究、金融、自動駕駛、城市治理等領(lǐng)域拓展應(yīng)用場景,以搶抓大模型發(fā)展機(jī)遇,推動通用人工智能領(lǐng)域?qū)崿F(xiàn)創(chuàng)新引領(lǐng),中國大模型技術(shù)產(chǎn)業(yè)迎來了一波前所未有的發(fā)展契機(jī),百度、阿里、華為等國內(nèi)眾多企業(yè)迅速布局了相關(guān)業(yè)務(wù),推出自家的人工智能大模型產(chǎn)品。
此外,目前全球整個大模型領(lǐng)域都擁有著較高密度的人才團(tuán)隊,且有資本加持。在人才方面,從目前公布的部分大模型研發(fā)團(tuán)隊背景可以看出, 團(tuán)隊成員均來自國際頂級高校或擁有頂級科研經(jīng)驗;在資本方面,以 Amazon 和 Google 舉例,這兩家 2022 年在大模型技術(shù)方面的資本性支出分別達(dá) 583 億美元和 315 億美元,并仍然呈現(xiàn)上漲趨勢,就 Google 最新披露數(shù)據(jù),其訓(xùn)練參數(shù)規(guī)模 1750 億的大模型, 理想訓(xùn)練費用超過 900 萬美元。
當(dāng)一個領(lǐng)域有高密度的資本和人才團(tuán)隊,那意味著這個領(lǐng)域?qū)⒂懈斓陌l(fā)展。很多人覺得,ChatGPT 這一現(xiàn)象級產(chǎn)品橫空出世,拉開了大語言模型技術(shù)蓬勃發(fā)展的序幕。但實際上,自 2017 年大語言模型誕生,OpenAI、微軟、谷歌、Facebook、百度、華為等科技巨頭在大語言模型領(lǐng)域的探索持續(xù)不斷,ChatGPT 只是將大語言模型技術(shù)推進(jìn)至了爆發(fā)階段,當(dāng)下大模型產(chǎn)品格局更是呈現(xiàn)出了新形勢——國外基礎(chǔ)模型積累深厚,國內(nèi)應(yīng)用側(cè)優(yōu)先發(fā)力。

為此 InfoQ 研究中心基于桌面研究、專家訪談、科學(xué)分析三個研究方法,查找了大量文獻(xiàn)及資料,采訪了 10+ 位領(lǐng)域內(nèi)的技術(shù)專家,同時圍繞語言模型準(zhǔn)確性、數(shù)據(jù)基礎(chǔ)、模型和算法的能力、安全和隱私四個大維度,拆分出語義理解、語法結(jié)構(gòu)、知識問答、邏輯推理、代碼能力、上下文理解、語境感知、多語言能力、多模態(tài)能力、數(shù)據(jù)基礎(chǔ)、模型和算法的能力、安全和隱私 12 個細(xì)分維度,分別對 ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5-turbo、天工 3.5、文心一言 V2.0.1、通義千問 V1.0.1、訊飛星火認(rèn)知大模型、Moss-16B、ChatGLM-6B、vicuna-13B 進(jìn)行了超過 3000+ 道題的評測,根據(jù)測評結(jié)果發(fā)布了《大語言模型綜合能力測評報告 2023》(下文簡稱《報告》)。
為了保證報告的客觀性、公正性及計算結(jié)果的準(zhǔn)確性,InfoQ 研究中心根據(jù)樣本制造了一套科學(xué)的計算方法——通過實際測試獲得各模型對 300 道題目的答案,針對答案進(jìn)行評分,正確答案獲得 2 分,部分正確的答案獲得 1 分,完全錯誤的獲得 0 分,模型表示不會做的獲得 -1 分。計算公式為“某模型在某細(xì)分類別題目得分率 = 模型得分 / 模型總分”。舉個例子,A 大模型在 7 道題目的類別中總得分為 10,該類題目可獲得的總得分為 7*2=14,則 A 大模型在這個題目類別的得分為 10/14=71.43%。
基于以上評測方法,報告主要得出了許多值得大家關(guān)注的結(jié)論,希望下文的核心結(jié)論解讀可以為各位的未來大語言模型技術(shù)具體實踐和探索提供方向。
1百億參數(shù)規(guī)模是大模型訓(xùn)練的“入場券”,大模型技術(shù)革命已經(jīng)開始
企業(yè)對于大模型產(chǎn)品研發(fā)需要同時具備三大要素,分別為數(shù)據(jù)資源要素、算法和模型要素、資金和資源要素。通過對目前市場中的產(chǎn)品特征進(jìn)行分析,InfoQ 研究中心發(fā)現(xiàn)數(shù)據(jù)資源、資金和資源兩要素為大模型研發(fā)的基礎(chǔ)要素,算法和模型是目前區(qū)分大語言模型研發(fā)能力的核心要素。算法和模型影響的的模型豐富度、模型準(zhǔn)確性、能力涌現(xiàn)等都成為評價大語言模型優(yōu)劣的核心指標(biāo)。此處需要說明的是,雖然數(shù)據(jù)、資金資源為大語言模型研發(fā)設(shè)置了高門檻, 但對于實力雄厚的大型企業(yè)仍然是挑戰(zhàn)較小的。

仔細(xì)研究大模型產(chǎn)品的核心要素會發(fā)現(xiàn),大模型訓(xùn)練需要“足夠大”,百億參數(shù)規(guī)模是“入場券”。就 GPT-3 和 LaMDA 的數(shù)據(jù)顯示,在模型參數(shù)規(guī)模處于 100 到 680 億這個區(qū)間時,大模型的很多能力(如計算能力)幾乎為零。同時,大量計算觸發(fā)了“煉丹機(jī)制”,根據(jù) NVIDIA 論文里的附錄章節(jié)顯示,一次迭代的計算量約為 4.5 ExaFLOPS,而完整訓(xùn)練需要 9500 次迭代,完整訓(xùn)練的計算量即為 430 ZettaFLOPS(相當(dāng)于單片 A100 跑 43.3 年的計算量)。

數(shù)據(jù)來源:Sparks of Artificial General Intelligence Early experiments with GPT-4
縱觀全球大模型訓(xùn)練參數(shù)規(guī)模的數(shù)量級,根據(jù)民生證券研究所和 wiki 百科資料顯示,國際領(lǐng)先的大模型 GPT-4 的推測參數(shù)量級可達(dá) 5 萬億以上,國內(nèi)部分大模型規(guī)模大于 100 億。其中,百度研發(fā)的 Ernie 和華為研發(fā)的盤古目前是有數(shù)據(jù)的國內(nèi)大模型參數(shù)規(guī)模的領(lǐng)先者。

InfoQ 研究中心對各家的大語言模型進(jìn)行了綜合測試后也發(fā)現(xiàn),國外的 ChatGPT 各項能力確實很抗打,位居第一位。令人驚喜的是,百度的文心一言闖進(jìn)了前三名,位居第二,而且值得一提的是,其綜合得分僅落后 ChatGPT 2.15,遠(yuǎn)超第三名 Claude。

數(shù)據(jù)說明:測評結(jié)果僅基于上文所列模型,測評截止時間為 2023 年 5 月 25 日
在整個研究過程中,InfoQ 研究中心發(fā)現(xiàn),算法和訓(xùn)練模型水平主導(dǎo)大語言模型的能力表現(xiàn)。從基礎(chǔ)模型到訓(xùn)練方式的工程化,再到具體的模型訓(xùn)練技術(shù),目前賽道中的所有廠商,每一個環(huán)節(jié)模型選型的差異造就了大語言模型的最終能力表現(xiàn)的差異。

可能各個廠商的產(chǎn)品能力有所差異,但是因為參與到大模型技術(shù)建設(shè)的玩家足夠多,他們對技術(shù)持續(xù)的探索,讓我們看到了大模型技術(shù)革命成功的希望。在大模型產(chǎn)品百花齊放的當(dāng)下,大語言模型將計算機(jī)能力從“搜索”拓展到了“認(rèn)知 & 學(xué)習(xí)”到“行動 & 解決方案”層面,大語言模型的核心能力已經(jīng)呈現(xiàn)出金字塔結(jié)構(gòu)。

2“寫作能力”和“語句理解能力”是大語言模型目前擅長能力的 Top2
據(jù) InfoQ 研究中心的測評結(jié)果顯示,安全和隱私問題是大語言模型研發(fā)的共識和底線,位居能力評分第一位。大語言模型的基礎(chǔ)能力整體表現(xiàn)均排名更為靠前,邏輯推理相關(guān)的編程、推理和上下文理解目前整體表現(xiàn)仍有較大的提升空間;多模態(tài)仍然是少數(shù)大語言模型的獨特優(yōu)勢。

在基礎(chǔ)能力層面,大語言模型展現(xiàn)出了優(yōu)秀的中文創(chuàng)意寫作能力。在六個寫作細(xì)分題目分類中, 大語言模型表現(xiàn)均較為突出,其中訪談提綱和郵件寫作都獲得了接近滿分的成績,而比較之下視頻腳本的寫作仍然是大語言模型產(chǎn)品較不熟悉的領(lǐng)域,細(xì)分題目類別得分僅為 75%。

關(guān)于文學(xué)題,隨著寫作難度的升高,大語言模型表現(xiàn)的能力水平遞減。其中表現(xiàn)最好的板塊為簡單寫作題,得分為 91%;對聯(lián)題雖然很多模型表現(xiàn)較好,但是有?些模型對對聯(lián)回答表現(xiàn)欠佳, 整體得分最低為 55%。

然而,在語義理解方面,目前的大語言模型就沒有那么“靈”了。在方言理解、關(guān)鍵詞提煉、語義相似判斷、“怎么辦”4 個題目分類中, 大語言模型呈現(xiàn)很大的差異化分布, “怎么辦”題獲得最高分 92.5%,中文方言理解題難倒了大語言模型,整體準(zhǔn)確率僅為 40%。

InfoQ 研究中心的報告顯示,就中文知識這一類題目而言,國內(nèi)模型表現(xiàn)明顯優(yōu)于國際模型。在十個模型中知識得分最高的為文心一言,得分 73.33%,得分第二的為 ChatGPT,得分為 72.67%。除 IT 知識問答題目外,其他八個題目分類中國內(nèi)的大模型產(chǎn)品在中文知識環(huán)境中會的問答表現(xiàn)整體接近或優(yōu)于國際大模型產(chǎn)品。

事實上,無論是中文創(chuàng)意寫作,還是語義理解、中文知識問答,這些題目都主要反應(yīng)的是大語言模型產(chǎn)品對文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力,而我們從測評結(jié)果中清晰的看到,百度文心一言各方面數(shù)據(jù)表現(xiàn)優(yōu)異,各項能力評分都位居 Top2。然而,我們看到的其實不僅是文心一言的技術(shù)能力,我們更多看到的是國內(nèi)大語言模型的強(qiáng)勢技術(shù)突破和顯著進(jìn)步。
3國內(nèi)產(chǎn)品在跨語言翻譯中仍有較大提升空間,邏輯推理能力整體挑戰(zhàn)較大
隨著近幾年,國家和國內(nèi)各廠商在人工智能領(lǐng)域的投入逐年增大,我們看到了國內(nèi)大語言模型的飛速進(jìn)步,技術(shù)成果使我們喜悅,但是當(dāng)我們更客觀地去看大語言模型技術(shù)的發(fā)展,我們會發(fā)現(xiàn)我們在一些方面和國際水平相比還有許多提升空間。
比如我們從 InfoQ 研究中心發(fā)布的《報告》就可以得知,國外產(chǎn)品編程能力顯著高于國內(nèi)產(chǎn)品,在十個模型中編程得分最高的為 Claude,得分 73.47%,國內(nèi)產(chǎn)品表現(xiàn)最好的文心一言,得分 68.37%,與 Claude 還存在一定的距離。在四個題目分類中,Android 相關(guān)題目國外產(chǎn)品明顯超越國內(nèi)產(chǎn)品,但令人驚喜的是,在“代碼自動補全類”題目中,國內(nèi)產(chǎn)品文心一言已經(jīng)超越國外產(chǎn)品,這說明國內(nèi)產(chǎn)品超越國際水平僅是時間問題。

此外,在十個模型中知識得分最高者也是 Claude,得分 93.33%,國內(nèi)大語言模型得分最高的分別為文心一言和天工 3.5,但與國際水平依舊存在差距。要知道,翻譯類題目主要反應(yīng)大語言模型產(chǎn)品對語言的理解能力,此次 InfoQ 評測的“編程翻譯題”、“英文寫作”、“英文閱讀理解”三個題目分類中,大語言模型呈現(xiàn)很大的差異化分布, 在測評的所有模型中,英文寫作題獲得的最高分 80%,而英文閱讀理解僅獲得得分 46%,這意味著國內(nèi)產(chǎn)品在跨語言翻譯方面還需要繼續(xù)努力迭代。

差距猶在,但不必妄自菲薄,大模型技術(shù)的技術(shù)演進(jìn)一直在進(jìn)行著。據(jù)《報告》顯示,目前整個大語言模型在邏輯推理能力方面的挑戰(zhàn)都比較大。為了考評大語言模型的理解力和判斷力,InfoQ 研究中心設(shè)置了多個維度的邏輯推理題。在商務(wù)制表題、數(shù)學(xué)計算題、數(shù)學(xué)應(yīng)用題、幽默題、中文特色推理題 5 個題目分類中,大語言模型整體得分都低于基礎(chǔ)能力。分析原因, 商務(wù)制表題不但需要搜集和識別內(nèi)容還需要在內(nèi)容的基礎(chǔ)上做邏輯分類和排序,整體難度較大,邏輯推理能力是未來大語言模型產(chǎn)品的主要進(jìn)攻方向。
在 InfoQ 研究中心測評的十個模型中,邏輯推理題得分最高的為文心一言和訊飛星火,得分均為 60%,與得分最高的 ChatGPT 僅差 1.43%。在部分細(xì)分領(lǐng)域,國內(nèi)產(chǎn)品的表現(xiàn)還是十分優(yōu)異的,比如在中文特色推理題中,國內(nèi)模型領(lǐng)先國際模型得分較多, 國內(nèi)模型對中文內(nèi)容和邏輯的熟悉應(yīng)該是該結(jié)果的核心原因。

從 InfoQ 研究中心發(fā)布的以上測評結(jié)果來看國內(nèi)產(chǎn)品與國外產(chǎn)品的差距,國內(nèi)大語言模型能力接近 GPT3.5 水平,但是與 GPT4 能力仍存在巨大差距。然而,縱觀整個大語言模型領(lǐng)域,其實我們每個人都可以清晰地發(fā)現(xiàn),大語言模型技術(shù)的發(fā)展門檻和挑戰(zhàn)還是非常高的,芯片門檻、實踐經(jīng)驗積累的門檻、數(shù)據(jù)和語料門檻都需要國內(nèi)外各大廠商一起努力突破。
從 InfoQ 研究中心的評測結(jié)果來看,文心一言的綜合評分已與 ChatGPT 所差無幾,在中國最新涌起的互聯(lián)網(wǎng)革命浪潮中,文心一言可以稱之為國內(nèi)最有希望在短期內(nèi)趕超國際水準(zhǔn)的 AIGC 產(chǎn)品。而擁有眾多 AI 專家的文心一言團(tuán)隊一直保持著兢兢業(yè)業(yè)地技術(shù)探索態(tài)度,努力縮小差距中,文心一言的下一次突破已經(jīng)不遠(yuǎn)了,值得我們所有人期待。