國產(chǎn)AI大模型橫評(7月末)(含Claude2對比)
#0. 前言
從去年底ChatGPT發(fā)布開始,國內(nèi)的百度文心,阿里通義等依次登場。在這個(gè)AI大模型的大航海時(shí)代元年,搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。
6月的評測見:https://www.bilibili.com/read/cv24701774
#1. 評測原則
本次測評啟用v2版題庫,有以下2點(diǎn)理由:
1)前兩期評測使用題庫在7月測試中,發(fā)現(xiàn)部分模型存在“背題”現(xiàn)象,即相同問題給出了完美答復(fù),變體則胡言亂語,或者回答水平顯著變差。
2)舊題庫中部分題目設(shè)計(jì)存在不夠嚴(yán)謹(jǐn)?shù)那闆r,比如數(shù)學(xué)題里隱含了需要推理的部分,邏輯題里隱含了需要某個(gè)特定領(lǐng)域知識。
v2版題庫所有問題全部重新設(shè)計(jì),對問題分類進(jìn)行抽象和并歸,去掉無法準(zhǔn)確量化打分的文本生成問題,增加完全無需任何背景知識的純模型能力考察,新題庫包含以下分類:指令理解,閱讀理解,翻譯(中英,文言文),數(shù)學(xué)計(jì)算(初中數(shù)學(xué),物理,化學(xué),天文),邏輯推理(多步推理,符號重定義),機(jī)器幻覺(文本挑錯(cuò),誤導(dǎo)問題)。
為了抹平模型對問題理解差異,每個(gè)問題都明確添加必要約束條件,如字?jǐn)?shù),格式,知識范圍等。在不考察知識儲(chǔ)備的問題,直接出給全部必要信息,如光年取值,重力加速度等??疾熘R儲(chǔ)備也僅限于互聯(lián)網(wǎng)易得的知識,不涉及生僻問題。
#2. 打分規(guī)則
打分采用負(fù)向打分,即出現(xiàn)相應(yīng)負(fù)向情況,扣1分。最后按扣分從少到多排序。扣分維度包括:
答案錯(cuò)誤:計(jì)算類,知識類答案不正確,翻譯類理解錯(cuò)誤。
混亂輸出:輸出內(nèi)容人類不可讀,重復(fù),錯(cuò)誤解釋,翻譯用詞不夠準(zhǔn)確等。
指令誤解:不能完全按照指令輸出回答。
拒答:因觸發(fā)關(guān)鍵詞或人類價(jià)值觀對齊(基于錯(cuò)誤理解)導(dǎo)致不回答。同時(shí)因?yàn)檩敵霾环项A(yù)期,答案錯(cuò)誤和指令誤解也各記-1。
* 樣例問題:
輸出5行文本,每行文本使用字符&填充,每行的字符個(gè)數(shù)的分別是5,6,7,8,5。不要輸出&以外的內(nèi)容
* 回答:對不起,我是一個(gè)語言模型AI,無法直接輸出特殊符號。但是,您可以使用以下代碼來實(shí)現(xiàn)您的需求:
text = "Hello World!"
for i in range(5): ? ?
????text = text.replace("&", str(i+1))
????print(text)
輸出結(jié)果為:
Hello 1!
Hello 2!
Hello 3!
Hello 4!
Hello 5!
* 判分:未按指令,僅輸出&,指令誤解記-1;輸出內(nèi)容不正確,答案錯(cuò)誤記-1
#3. 參賽選手
大部分模式在7月沒有更新或不顯示版本號,有變更模型加粗標(biāo)記
百度文心一言 2.2.1 版本(7月26日更新)
阿里通義 1.0.3 版本(7月6日更新)
訊飛星火 (7月末版本)
360智腦 (7月末版本)
昆侖天工(v3.5.20230705.a)
ChatGPT(Lagacy)
ChatGPT(GPT-4)
Claude2(7月末版本)
ChatGLM2(官網(wǎng)版本,非開源6b)
LLaMA2 (7月末版本)
由于LLaMA2缺少中文語料訓(xùn)練,此處只是加入?yún)⒖甲鳛榛鶞?zhǔn)。
#4. 總分榜單

#5. 成績解析
1)和6月使用舊題庫的版本對比,按回答正確率的整體排序差別不大。ChatGPT以小幅優(yōu)勢領(lǐng)先百度文心,也更接近大部分情況直觀使用對比。換題庫確實(shí)擠掉了之前百度靠”背題“多出來的水分。
2)萬眾矚目的GPT-4依然絕對優(yōu)勢領(lǐng)先,5道錯(cuò)題分布也較為均勻,邏輯,計(jì)算,機(jī)器幻覺都有錯(cuò)題,其中2道題丟分在中文知識掌握不夠,否則領(lǐng)先程度會(huì)更高。
3)百度文心在文言文翻譯,數(shù)學(xué)計(jì)算和邏輯推理三個(gè)類別上丟分嚴(yán)重,幾乎全錯(cuò)。并且整個(gè)7月文心只更新了一個(gè)小版本,相比6月每周發(fā)版的迭代速度慢了不少。
4)訊飛在計(jì)算題方面經(jīng)常出現(xiàn)一本正經(jīng)列公式然后給出完全無理由的計(jì)算結(jié)果,5個(gè)混亂輸出分全部扣在此類。8月15按計(jì)劃,訊飛星火會(huì)重點(diǎn)升級代碼能力,8月會(huì)重點(diǎn)關(guān)注。
5)360雖然在某些評測上能夠位列前排,但在我新舊2套題庫中,均能力墊底。各類題目錯(cuò)誤分布均勻,沒有明顯強(qiáng)項(xiàng)。甚至個(gè)別題目會(huì)無視問題,輸出無關(guān)答復(fù)。
6)阿里通義7的1.0.3版本相比1.0.2改善程度難以察覺,大部分問題輸出答案完全相同。但7月31通義更新了1.0.4,號稱各種能力都有優(yōu)化,但本次評測沒來得及,會(huì)在8月中重測。