散文網(wǎng) » 科技 »學(xué)習(xí) » 國(guó)產(chǎn)AI大模型橫評(píng)（8月末）（含商湯，豆包，文心正式版）

國(guó)產(chǎn)AI大模型橫評(píng)（8月末）（含商湯，豆包，文心正式版）

2023-09-01 10:45 作者:傷心的流星 0人讀過(guò) | 我要投稿

#0. 前言

從去年底ChatGPT發(fā)布開始，國(guó)內(nèi)的百度文心，阿里通義等依次登場(chǎng)。在這個(gè)AI大模型的大航海時(shí)代元年，搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。

7月的評(píng)測(cè)見：

國(guó)產(chǎn)AI大模型橫評(píng)（7月末）（含Claude2對(duì)比） - 嗶哩嗶哩 (bilibili.com)

#1. 評(píng)測(cè)原則

本期原則和7月的相同，v2題庫(kù)凍結(jié)沒有變更，因此不再贅述規(guī)則。參考7月文檔。

v2版題庫(kù)所有問(wèn)題全部重新設(shè)計(jì)，對(duì)問(wèn)題分類進(jìn)行抽象和并歸，去掉無(wú)法準(zhǔn)確量化打分的文本生成問(wèn)題，增加完全無(wú)需任何背景知識(shí)的純模型能力考察，新題庫(kù)包含以下分類：指令理解，閱讀理解，翻譯（中英，文言文），數(shù)學(xué)計(jì)算（初中數(shù)學(xué)，物理，化學(xué)，天文），邏輯推理（多步推理，符號(hào)重定義），機(jī)器幻覺（文本挑錯(cuò)，誤導(dǎo)問(wèn)題）。

為了抹平模型對(duì)問(wèn)題理解差異，每個(gè)問(wèn)題都明確添加必要約束條件，如字?jǐn)?shù)，格式，知識(shí)范圍等。在不考察知識(shí)儲(chǔ)備的問(wèn)題，直接出給全部必要信息，如光年取值，重力加速度等?？疾熘R(shí)儲(chǔ)備也僅限于互聯(lián)網(wǎng)易得的知識(shí)，不涉及生僻問(wèn)題。

#2. 打分規(guī)則

打分采用負(fù)向打分，即出現(xiàn)相應(yīng)負(fù)向情況，扣1分。最后按扣分從少到多排序?？鄯志S度包括：

答案錯(cuò)誤：計(jì)算類，知識(shí)類答案不正確，翻譯類理解錯(cuò)誤。
混亂輸出：輸出內(nèi)容人類不可讀，重復(fù)，錯(cuò)誤解釋，翻譯用詞不夠準(zhǔn)確等。
指令誤解：不能完全按照指令輸出回答。
拒答：因觸發(fā)關(guān)鍵詞或人類價(jià)值觀對(duì)齊（基于錯(cuò)誤理解）導(dǎo)致不回答。同時(shí)因?yàn)檩敵霾环项A(yù)期，答案錯(cuò)誤和指令誤解也各記-1。

* 樣例問(wèn)題：輸出5行文本，每行文本使用字符&填充，每行的字符個(gè)數(shù)的分別是5,6,7,8,5。不要輸出&以外的內(nèi)容?

* 回答：對(duì)不起，我是一個(gè)語(yǔ)言模型AI，無(wú)法直接輸出特殊符號(hào)。但是，您可以使用以下代碼來(lái)實(shí)現(xiàn)您的需求： text = "Hello World!" for i in range(5): ? ?text = text.replace("&", str(i+1)) print(text) 輸出結(jié)果為： Hello 1! Hello 2! Hello 3! Hello 4! Hello 5!?

* 判分：未按指令，僅輸出&，指令誤解記-1；輸出內(nèi)容不正確，答案錯(cuò)誤記-1

#3. 參賽選手

頭部廠商在8月均有大版本更新，包含：

百度文心一言 2.3.0 版本（8月31日更新）

阿里通義 1.0.5 版本（8月11日更新）

訊飛星火 1.5 (8月15日版本)

字節(jié)豆包（8月末版本）

商湯商量（8月末版本）

其余模型由于沒有更新，繼續(xù)沿用7月的成績(jī)，本次沒有重測(cè)：

360智腦（7月末版本）

昆侖天工（v3.5.20230705.a）

ChatGPT（Lagacy）

ChatGPT（GPT-4）

Claude2（7月末版本）

ChatGLM2（官網(wǎng)版本，非開源6b）

LLaMA2 （7月末版本）

由于LLaMA2缺少中文語(yǔ)料訓(xùn)練，此處只是加入?yún)⒖甲鳛榛鶞?zhǔn)。

#4. 總分榜單

#5. 成績(jī)解析

1）作為最高水準(zhǔn)的GPT-4的地位依然無(wú)法被撼動(dòng)。但可以看到已經(jīng)有不少模型接近ChatGPT了。成績(jī)表里文心2.3在總成績(jī)上依然落后ChatGPT，字節(jié)豆包異軍突起，各方面表現(xiàn)更好，但此處要說(shuō)明，所有測(cè)試都是連續(xù)回答3次取最好，ChatGPT幾乎都在第一次回答即給出正確答案，但豆包表現(xiàn)不穩(wěn)定，有少數(shù)題目重試到第三次才正確。因此在實(shí)際使用中，用戶體感上應(yīng)該認(rèn)為豆包能力在ChatGPT之下。

2）字節(jié)豆包在指令遵循，中文（尤其古文），機(jī)器幻覺方面有較明顯優(yōu)勢(shì)。但科學(xué)計(jì)算題全錯(cuò)，常規(guī)數(shù)學(xué)計(jì)算也錯(cuò)一半多。這方面顯得尤其劣勢(shì)，甚至不如7月以前阿里通義水平。此外豆包的多輪對(duì)話記憶能力比較堪憂。

3）文心2.3作為面向全體用戶公開的第一個(gè)版本，在中文理解，翻譯方面有進(jìn)步，但在機(jī)器幻覺方面反而退化，7月能果斷否定題目的虛假部分，到2.3反而回答模棱兩可。在邏輯能力上比7月毫無(wú)變化。而邏輯能力是大語(yǔ)言模型最容易被用戶感知的“靈魂”，可以預(yù)計(jì)普通用戶對(duì)這個(gè)文心版本的評(píng)價(jià)不會(huì)太好，可能會(huì)覺得“很笨”。

4）商湯商量偏科也比較明顯，閱讀理解，文言文翻譯幾乎拿了滿分，但數(shù)學(xué)和科學(xué)計(jì)算接近全軍覆沒，甚至連數(shù)字排序也做不對(duì)，不如4月的訊飛。簡(jiǎn)單邏輯能力尚可，在國(guó)產(chǎn)模型里屬于第一梯隊(duì)，但多步推理能力不行，因此代碼也寫的不好。

5）訊飛星火的升級(jí)還是穩(wěn)扎穩(wěn)打，在大部分問(wèn)題上基本都有改善，只有極少量劣化。指令理解能力大幅提升，幾乎沒有誤解，閱讀能力大幅提升，機(jī)器幻覺問(wèn)題顯著改善。多步邏輯能力有少量提升，關(guān)聯(lián)的代碼能力也有小量提升。但在回答生成質(zhì)量上比7月有退化，沒有明顯集中類型，應(yīng)該是普遍問(wèn)題。

6）阿里通義1.0.5相比1.0.3，大部分類目都沒有改進(jìn)，僅在翻譯題上正確率更高，因此得分有進(jìn)步。整體還處于“不可用”狀態(tài)，阿里道阻且長(zhǎng)。

標(biāo)簽：