手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 國產(chǎn)AI大模型橫評（7月末）（含Claude2對比）

國產(chǎn)AI大模型橫評（7月末）（含Claude2對比）

2023-08-01 14:31 作者:傷心的流星 0人讀過 | 我要投稿

#0. 前言

從去年底ChatGPT發(fā)布開始，國內(nèi)的百度文心，阿里通義等依次登場。在這個(gè)AI大模型的大航海時(shí)代元年，搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。

6月的評測見：https://www.bilibili.com/read/cv24701774

#1. 評測原則

本次測評啟用v2版題庫，有以下2點(diǎn)理由：

1）前兩期評測使用題庫在7月測試中，發(fā)現(xiàn)部分模型存在“背題”現(xiàn)象，即相同問題給出了完美答復(fù)，變體則胡言亂語，或者回答水平顯著變差。

2）舊題庫中部分題目設(shè)計(jì)存在不夠嚴(yán)謹(jǐn)?shù)那闆r，比如數(shù)學(xué)題里隱含了需要推理的部分，邏輯題里隱含了需要某個(gè)特定領(lǐng)域知識。

v2版題庫所有問題全部重新設(shè)計(jì)，對問題分類進(jìn)行抽象和并歸，去掉無法準(zhǔn)確量化打分的文本生成問題，增加完全無需任何背景知識的純模型能力考察，新題庫包含以下分類：指令理解，閱讀理解，翻譯（中英，文言文），數(shù)學(xué)計(jì)算（初中數(shù)學(xué)，物理，化學(xué)，天文），邏輯推理（多步推理，符號重定義），機(jī)器幻覺（文本挑錯(cuò)，誤導(dǎo)問題）。

為了抹平模型對問題理解差異，每個(gè)問題都明確添加必要約束條件，如字?jǐn)?shù)，格式，知識范圍等。在不考察知識儲(chǔ)備的問題，直接出給全部必要信息，如光年取值，重力加速度等?？疾熘R儲(chǔ)備也僅限于互聯(lián)網(wǎng)易得的知識，不涉及生僻問題。

#2. 打分規(guī)則

打分采用負(fù)向打分，即出現(xiàn)相應(yīng)負(fù)向情況，扣1分。最后按扣分從少到多排序。扣分維度包括：

答案錯(cuò)誤：計(jì)算類，知識類答案不正確，翻譯類理解錯(cuò)誤。
混亂輸出：輸出內(nèi)容人類不可讀，重復(fù)，錯(cuò)誤解釋，翻譯用詞不夠準(zhǔn)確等。
指令誤解：不能完全按照指令輸出回答。
拒答：因觸發(fā)關(guān)鍵詞或人類價(jià)值觀對齊（基于錯(cuò)誤理解）導(dǎo)致不回答。同時(shí)因?yàn)檩敵霾环项A(yù)期，答案錯(cuò)誤和指令誤解也各記-1。

* 樣例問題：輸出5行文本，每行文本使用字符&填充，每行的字符個(gè)數(shù)的分別是5,6,7,8,5。不要輸出&以外的內(nèi)容

* 回答：對不起，我是一個(gè)語言模型AI，無法直接輸出特殊符號。但是，您可以使用以下代碼來實(shí)現(xiàn)您的需求：

text = "Hello World!"

for i in range(5): ? ?

????text = text.replace("&", str(i+1))

????print(text)

輸出結(jié)果為：

Hello 1!

Hello 2!

Hello 3!

Hello 4!

Hello 5!

* 判分：未按指令，僅輸出&，指令誤解記-1；輸出內(nèi)容不正確，答案錯(cuò)誤記-1

#3. 參賽選手

大部分模式在7月沒有更新或不顯示版本號，有變更模型加粗標(biāo)記

百度文心一言 2.2.1 版本（7月26日更新）

阿里通義 1.0.3 版本（7月6日更新）

訊飛星火 (7月末版本)

360智腦（7月末版本）

昆侖天工（v3.5.20230705.a）

ChatGPT（Lagacy）

ChatGPT（GPT-4）

Claude2（7月末版本）

ChatGLM2（官網(wǎng)版本，非開源6b）

LLaMA2 （7月末版本）

由于LLaMA2缺少中文語料訓(xùn)練，此處只是加入?yún)⒖甲鳛榛鶞?zhǔn)。

#4. 總分榜單

#5. 成績解析

1）和6月使用舊題庫的版本對比，按回答正確率的整體排序差別不大。ChatGPT以小幅優(yōu)勢領(lǐng)先百度文心，也更接近大部分情況直觀使用對比。換題庫確實(shí)擠掉了之前百度靠”背題“多出來的水分。

2）萬眾矚目的GPT-4依然絕對優(yōu)勢領(lǐng)先，5道錯(cuò)題分布也較為均勻，邏輯，計(jì)算，機(jī)器幻覺都有錯(cuò)題，其中2道題丟分在中文知識掌握不夠，否則領(lǐng)先程度會(huì)更高。

3）百度文心在文言文翻譯，數(shù)學(xué)計(jì)算和邏輯推理三個(gè)類別上丟分嚴(yán)重，幾乎全錯(cuò)。并且整個(gè)7月文心只更新了一個(gè)小版本，相比6月每周發(fā)版的迭代速度慢了不少。

4）訊飛在計(jì)算題方面經(jīng)常出現(xiàn)一本正經(jīng)列公式然后給出完全無理由的計(jì)算結(jié)果，5個(gè)混亂輸出分全部扣在此類。8月15按計(jì)劃，訊飛星火會(huì)重點(diǎn)升級代碼能力，8月會(huì)重點(diǎn)關(guān)注。

5）360雖然在某些評測上能夠位列前排，但在我新舊2套題庫中，均能力墊底。各類題目錯(cuò)誤分布均勻，沒有明顯強(qiáng)項(xiàng)。甚至個(gè)別題目會(huì)無視問題，輸出無關(guān)答復(fù)。

6）阿里通義7的1.0.3版本相比1.0.2改善程度難以察覺，大部分問題輸出答案完全相同。但7月31通義更新了1.0.4，號稱各種能力都有優(yōu)化，但本次評測沒來得及，會(huì)在8月中重測。

標(biāo)簽：AIGC ChatGPT 文心一言 ChatGLM 訊飛星火阿里通義