散文網(wǎng) » 科技 »學(xué)習(xí) » 國(guó)產(chǎn)AI大模型橫評(píng)（9月末）

國(guó)產(chǎn)AI大模型橫評(píng)（9月末）

2023-09-28 13:02 作者:傷心的流星 0人讀過(guò) | 我要投稿

#0. 前言

從去年底ChatGPT發(fā)布開(kāi)始，國(guó)內(nèi)的百度文心，阿里通義等依次登場(chǎng)。在這個(gè)AI大模型的大航海時(shí)代元年，搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。

8月的評(píng)測(cè)見(jiàn)：國(guó)產(chǎn)AI大模型橫評(píng)（8月末）（含商湯，豆包，文心正式版） - 嗶哩嗶哩 (bilibili.com)

#1. 評(píng)測(cè)原則

本期原則和7月的相同，v2題庫(kù)凍結(jié)沒(méi)有變更，因此不再贅述規(guī)則。參考7月文檔。

v2版題庫(kù)所有問(wèn)題全部重新設(shè)計(jì)，對(duì)問(wèn)題分類進(jìn)行抽象和并歸，去掉無(wú)法準(zhǔn)確量化打分的文本生成問(wèn)題，增加完全無(wú)需任何背景知識(shí)的純模型能力考察，新題庫(kù)包含以下分類：指令理解，閱讀理解，翻譯（中英，文言文），數(shù)學(xué)計(jì)算（初中數(shù)學(xué)，物理，化學(xué)，天文），邏輯推理（多步推理，符號(hào)重定義），機(jī)器幻覺(jué)（文本挑錯(cuò)，誤導(dǎo)問(wèn)題）。

為了抹平模型對(duì)問(wèn)題理解差異，每個(gè)問(wèn)題都明確添加必要約束條件，如字?jǐn)?shù)，格式，知識(shí)范圍等。在不考察知識(shí)儲(chǔ)備的問(wèn)題，直接出給全部必要信息，如光年取值，重力加速度等。考察知識(shí)儲(chǔ)備也僅限于互聯(lián)網(wǎng)易得的知識(shí)，不涉及生僻問(wèn)題。

#2. 打分規(guī)則

打分采用負(fù)向打分，即出現(xiàn)相應(yīng)負(fù)向情況，扣1分。最后按扣分從少到多排序?？鄯志S度包括：

答案錯(cuò)誤：計(jì)算類，知識(shí)類答案不正確，翻譯類理解錯(cuò)誤。
混亂輸出：輸出內(nèi)容人類不可讀，重復(fù)，錯(cuò)誤解釋，翻譯用詞不夠準(zhǔn)確等。
指令誤解：不能完全按照指令輸出回答。
拒答：因觸發(fā)關(guān)鍵詞或人類價(jià)值觀對(duì)齊（基于錯(cuò)誤理解）導(dǎo)致不回答。同時(shí)因?yàn)檩敵霾环项A(yù)期，答案錯(cuò)誤和指令誤解也各記-1。

* 樣例問(wèn)題：輸出5行文本，每行文本使用字符&填充，每行的字符個(gè)數(shù)的分別是5,6,7,8,5。不要輸出&以外的內(nèi)容?

* 回答：對(duì)不起，我是一個(gè)語(yǔ)言模型AI，無(wú)法直接輸出特殊符號(hào)。但是，您可以使用以下代碼來(lái)實(shí)現(xiàn)您的需求： text = "Hello World!" for i in range(5): ? ?text = text.replace("&", str(i+1)) print(text) 輸出結(jié)果為： Hello 1! Hello 2! Hello 3! Hello 4! Hello 5!?

* 判分：未按指令，僅輸出&，指令誤解記-1；輸出內(nèi)容不正確，答案錯(cuò)誤記-1

#3. 參賽選手

本月各大廠相對(duì)比較沉默，推出大更新的較少。騰訊混元雖然有內(nèi)測(cè)，但我沒(méi)拿到內(nèi)測(cè)資格，所以最早加入到10月的評(píng)測(cè)里。手機(jī)廠商小藝，小愛(ài)也加入了戰(zhàn)局，但測(cè)了一半樣本發(fā)現(xiàn)成績(jī)過(guò)低，考慮到對(duì)外宣稱還是限號(hào)內(nèi)測(cè)，所以暫時(shí)不放進(jìn)來(lái)對(duì)比。本期更新的有：

阿里通義 1.0.8 版本（9月24日更新）

360智腦（9月末版本）

昆侖天工（v3.5.20230830.a）

其余模型由于沒(méi)有更新，繼續(xù)沿用7月的成績(jī)，本次沒(méi)有重測(cè)：

百度文心一言 2.3.0 版本（8月31日更新）

訊飛星火 1.5 (8月15日版本)

字節(jié)豆包（8月末版本）

商湯商量（8月末版本）

ChatGPT（Lagacy）

ChatGPT（GPT-4）

Claude2（7月末版本）

ChatGLM2（官網(wǎng)版本，非開(kāi)源6b）

LLaMA2 （7月末版本）

由于LLaMA2缺少中文語(yǔ)料訓(xùn)練，此處只是加入?yún)⒖甲鳛榛鶞?zhǔn)。

#4. 總分榜單

*按答案錯(cuò)誤數(shù)量正序

#5. 成績(jī)解析

1）360的提升幅度巨大，由前次總52負(fù)分，到本次34負(fù)分?；緛?lái)到了及格的邊緣。在拒答問(wèn)題上改善明顯，之前由于敏感詞邏輯生硬，導(dǎo)致大量問(wèn)題被粗暴的拒答，而本次360會(huì)嘗試回答，然后禁止繼續(xù)提問(wèn)，算是一種“軟拒答”。并且如果連續(xù)觸發(fā)軟拒答，也會(huì)被風(fēng)控，360提示提問(wèn)過(guò)于頻繁。

此外，360在翻譯，機(jī)器幻覺(jué)問(wèn)題上有小幅改善。其他方面和前次區(qū)別不大，各有各的錯(cuò)法。

2）阿里比上次僅有微小改進(jìn)，并且總負(fù)分沒(méi)有變化。這已經(jīng)是阿里連續(xù)3個(gè)月沒(méi)有大提升了。本次甚至被360反超，再這樣下去要輸ChatGLM了，輸完再輸昆侖，接下來(lái)沒(méi)得輸了。

3）昆侖天工距離上次更新也是足足2個(gè)月，回答錯(cuò)誤和指令誤解有小幅下降，但邏輯混亂和語(yǔ)言組織問(wèn)題大幅提升，所以總負(fù)分也沒(méi)有變化。

#6. 10月看點(diǎn)預(yù)告

1）訊飛早就預(yù)告了10月24要升級(jí)2.0，整體超過(guò)chatgpt。訊飛一直穩(wěn)扎穩(wěn)打，有可能是第一個(gè)真的全面超越chatgpt的，之前豆包和文心都是局部超越。

2）v2題庫(kù)由于打分困難，所以排除了文本生成類問(wèn)題。但最近看一些文章，發(fā)現(xiàn)一個(gè)比較可靠的文本生成打分方法，預(yù)計(jì)10月會(huì)給題庫(kù)增加5道文本生成問(wèn)題，這5道題的打分會(huì)單列表格，不和基礎(chǔ)問(wèn)題混淆。

標(biāo)簽：