國(guó)產(chǎn)AI大模型橫評(píng)(8月末)(含商湯,豆包,文心正式版)
#0. 前言
從去年底ChatGPT發(fā)布開始,國(guó)內(nèi)的百度文心,阿里通義等依次登場(chǎng)。在這個(gè)AI大模型的大航海時(shí)代元年,搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。
7月的評(píng)測(cè)見:
國(guó)產(chǎn)AI大模型橫評(píng)(7月末)(含Claude2對(duì)比) - 嗶哩嗶哩 (bilibili.com)
#1. 評(píng)測(cè)原則
本期原則和7月的相同,v2題庫(kù)凍結(jié)沒有變更,因此不再贅述規(guī)則。參考7月文檔。
v2版題庫(kù)所有問(wèn)題全部重新設(shè)計(jì),對(duì)問(wèn)題分類進(jìn)行抽象和并歸,去掉無(wú)法準(zhǔn)確量化打分的文本生成問(wèn)題,增加完全無(wú)需任何背景知識(shí)的純模型能力考察,新題庫(kù)包含以下分類:指令理解,閱讀理解,翻譯(中英,文言文),數(shù)學(xué)計(jì)算(初中數(shù)學(xué),物理,化學(xué),天文),邏輯推理(多步推理,符號(hào)重定義),機(jī)器幻覺(文本挑錯(cuò),誤導(dǎo)問(wèn)題)。
為了抹平模型對(duì)問(wèn)題理解差異,每個(gè)問(wèn)題都明確添加必要約束條件,如字?jǐn)?shù),格式,知識(shí)范圍等。在不考察知識(shí)儲(chǔ)備的問(wèn)題,直接出給全部必要信息,如光年取值,重力加速度等??疾熘R(shí)儲(chǔ)備也僅限于互聯(lián)網(wǎng)易得的知識(shí),不涉及生僻問(wèn)題。
#2. 打分規(guī)則
打分采用負(fù)向打分,即出現(xiàn)相應(yīng)負(fù)向情況,扣1分。最后按扣分從少到多排序??鄯志S度包括:
答案錯(cuò)誤:計(jì)算類,知識(shí)類答案不正確,翻譯類理解錯(cuò)誤。
混亂輸出:輸出內(nèi)容人類不可讀,重復(fù),錯(cuò)誤解釋,翻譯用詞不夠準(zhǔn)確等。
指令誤解:不能完全按照指令輸出回答。
拒答:因觸發(fā)關(guān)鍵詞或人類價(jià)值觀對(duì)齊(基于錯(cuò)誤理解)導(dǎo)致不回答。同時(shí)因?yàn)檩敵霾环项A(yù)期,答案錯(cuò)誤和指令誤解也各記-1。
* 樣例問(wèn)題:輸出5行文本,每行文本使用字符&填充,每行的字符個(gè)數(shù)的分別是5,6,7,8,5。不要輸出&以外的內(nèi)容?
* 回答:
對(duì)不起,我是一個(gè)語(yǔ)言模型AI,無(wú)法直接輸出特殊符號(hào)。但是,您可以使用以下代碼來(lái)實(shí)現(xiàn)您的需求:
text = "Hello World!"
for i in range(5):
? ?text = text.replace("&", str(i+1))
print(text)
輸出結(jié)果為:
Hello 1!
Hello 2!
Hello 3!
Hello 4!
Hello 5!?
* 判分:未按指令,僅輸出&,指令誤解記-1;輸出內(nèi)容不正確,答案錯(cuò)誤記-1
#3. 參賽選手
頭部廠商在8月均有大版本更新,包含:
百度文心一言 2.3.0 版本(8月31日更新)
阿里通義 1.0.5 版本(8月11日更新)
訊飛星火 1.5 (8月15日版本)
字節(jié)豆包(8月末版本)
商湯商量(8月末版本)
其余模型由于沒有更新,繼續(xù)沿用7月的成績(jī),本次沒有重測(cè):
360智腦 (7月末版本)
昆侖天工(v3.5.20230705.a)
ChatGPT(Lagacy)
ChatGPT(GPT-4)
Claude2(7月末版本)
ChatGLM2(官網(wǎng)版本,非開源6b)
LLaMA2 (7月末版本)
由于LLaMA2缺少中文語(yǔ)料訓(xùn)練,此處只是加入?yún)⒖甲鳛榛鶞?zhǔn)。
#4. 總分榜單

#5. 成績(jī)解析
1)作為最高水準(zhǔn)的GPT-4的地位依然無(wú)法被撼動(dòng)。但可以看到已經(jīng)有不少模型接近ChatGPT了。成績(jī)表里文心2.3在總成績(jī)上依然落后ChatGPT,字節(jié)豆包異軍突起,各方面表現(xiàn)更好,但此處要說(shuō)明,所有測(cè)試都是連續(xù)回答3次取最好,ChatGPT幾乎都在第一次回答即給出正確答案,但豆包表現(xiàn)不穩(wěn)定,有少數(shù)題目重試到第三次才正確。因此在實(shí)際使用中,用戶體感上應(yīng)該認(rèn)為豆包能力在ChatGPT之下。
2)字節(jié)豆包在指令遵循,中文(尤其古文),機(jī)器幻覺方面有較明顯優(yōu)勢(shì)。但科學(xué)計(jì)算題全錯(cuò),常規(guī)數(shù)學(xué)計(jì)算也錯(cuò)一半多。這方面顯得尤其劣勢(shì),甚至不如7月以前阿里通義水平。此外豆包的多輪對(duì)話記憶能力比較堪憂。
3)文心2.3作為面向全體用戶公開的第一個(gè)版本,在中文理解,翻譯方面有進(jìn)步,但在機(jī)器幻覺方面反而退化,7月能果斷否定題目的虛假部分,到2.3反而回答模棱兩可。在邏輯能力上比7月毫無(wú)變化。而邏輯能力是大語(yǔ)言模型最容易被用戶感知的“靈魂”,可以預(yù)計(jì)普通用戶對(duì)這個(gè)文心版本的評(píng)價(jià)不會(huì)太好,可能會(huì)覺得“很笨”。
4)商湯商量偏科也比較明顯,閱讀理解,文言文翻譯幾乎拿了滿分,但數(shù)學(xué)和科學(xué)計(jì)算接近全軍覆沒,甚至連數(shù)字排序也做不對(duì),不如4月的訊飛。簡(jiǎn)單邏輯能力尚可,在國(guó)產(chǎn)模型里屬于第一梯隊(duì),但多步推理能力不行,因此代碼也寫的不好。
5)訊飛星火的升級(jí)還是穩(wěn)扎穩(wěn)打,在大部分問(wèn)題上基本都有改善,只有極少量劣化。指令理解能力大幅提升,幾乎沒有誤解,閱讀能力大幅提升,機(jī)器幻覺問(wèn)題顯著改善。多步邏輯能力有少量提升,關(guān)聯(lián)的代碼能力也有小量提升。但在回答生成質(zhì)量上比7月有退化,沒有明顯集中類型,應(yīng)該是普遍問(wèn)題。
6)阿里通義1.0.5相比1.0.3,大部分類目都沒有改進(jìn),僅在翻譯題上正確率更高,因此得分有進(jìn)步。整體還處于“不可用”狀態(tài),阿里道阻且長(zhǎng)。