散文網(wǎng) » 科技 »學(xué)習(xí) » 國(guó)產(chǎn)AI大模型橫評(píng)（6月末）（含GPT-4對(duì)比）

國(guó)產(chǎn)AI大模型橫評(píng)（6月末）（含GPT-4對(duì)比）

2023-06-30 23:17 作者:傷心的流星 0人讀過(guò) | 我要投稿

#0. 前言

從去年底ChatGPT發(fā)布開(kāi)始，國(guó)內(nèi)的百度文心，阿里通義等依次登場(chǎng)。在這個(gè)AI大模型的大航海時(shí)代元年，搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。

5月的評(píng)測(cè)見(jiàn)：國(guó)產(chǎn)AI大模型橫評(píng)（5月） - 嗶哩嗶哩 (bilibili.com)

#1. 評(píng)測(cè)原則

完整評(píng)測(cè)原則同樣參見(jiàn)5月評(píng)測(cè)，這里再簡(jiǎn)單摘錄：

目前一共10個(gè)分類(lèi)，35個(gè)問(wèn)題。涵蓋常識(shí)，學(xué)科知識(shí)，文言文翻譯，英文翻譯，數(shù)學(xué)計(jì)算，文學(xué)創(chuàng)作，角色扮演，邏輯推理，歸納理解，情商和認(rèn)知。每類(lèi)問(wèn)題數(shù)量不超過(guò)5個(gè)，避免模型偏科，單科分?jǐn)?shù)過(guò)高。

每個(gè)問(wèn)題重復(fù)3次取最好。打分分3個(gè)維度：

正確性：比如計(jì)算正確，推理正確，知識(shí)正確，識(shí)別到錯(cuò)誤等
表達(dá)：比如解釋詳細(xì)，步驟清晰，沒(méi)有廢話(huà)
異常：比如違背一般人常識(shí)，不遵循指令，文不對(duì)題

6月評(píng)測(cè)依然不涉及編程和非中文問(wèn)答，預(yù)計(jì)7月會(huì)加入編程考察。評(píng)測(cè)期間題目不公布，各家模型在回答后，不對(duì)回答進(jìn)行反饋（贊和踩都不點(diǎn)），盡量避免問(wèn)題被收集用于訓(xùn)練。

#2. 參賽選手

百度文心一言 2.1.0 版本（6月21日更新）

阿里通義 1.0.2 版本（6月10日更新）

訊飛星火 1.5.0 版本（6月9日更新）

360智腦（6月末版本）

昆侖天工（v3.5.20230626.a）

ChatGPT（Lagacy）

ChatGPT（GPT-4）

Claude+（6月末版本）

ChatGLM2（官網(wǎng)版本，非開(kāi)源6b）

本次擴(kuò)容到9個(gè)模型。其中360智腦在6月13有一場(chǎng)發(fā)布會(huì)正式官宣了360智腦，同一天把模型版本號(hào)從網(wǎng)站上隱藏了，導(dǎo)致我無(wú)法追蹤模型更新，只能在6月末進(jìn)行了一輪錯(cuò)題重測(cè)。下文還有點(diǎn)評(píng)。

#3. 總分榜單

#4. 成績(jī)解析

GPT-4在表達(dá)方面一騎絕塵。實(shí)際現(xiàn)象大家都錯(cuò)的問(wèn)題，他可以對(duì)，或者接近對(duì)。大家都答對(duì)的問(wèn)題，GPT-4可以解釋的更精確，能識(shí)別題目中的邏輯錯(cuò)誤，指令匹配程度更高等等。例如要求遵守的創(chuàng)作要素都100%滿(mǎn)足。同時(shí)GPT-4是目前唯一0異常的，意味著他雖然可能答不對(duì)，但不會(huì)亂答，不會(huì)拒絕指令。
百度在6月中迭代了2個(gè)版本，整體變化不大。2.1.0版本已經(jīng)接入了百度搜索，理論上可以獲取最新信息，但實(shí)測(cè)下來(lái)和之前差異不大，會(huì)錯(cuò)的常識(shí)題還是會(huì)錯(cuò)。也許之前已經(jīng)具備了相關(guān)能力，只是最近才在UI上展示。另外2.1.0也支持了上傳pdf文件，進(jìn)行解析和歸納，實(shí)測(cè)下來(lái)，可能受限于token size太小，長(zhǎng)pdf解析效果都不好。也不能在閱讀pdf之后，根據(jù)內(nèi)容進(jìn)行創(chuàng)作。也可能還是token爆掉的原因。
ChatGLM2異軍突起，直接跑到了國(guó)產(chǎn)第二梯隊(duì)，表現(xiàn)很亮眼，尤其數(shù)學(xué)題正確率很高。詩(shī)詞創(chuàng)作是目前唯一平仄正確，拿到了表達(dá)分（GPT-4沒(méi)拿到）。但瓶頸也很明顯，邏輯題全錯(cuò)，常識(shí)題全錯(cuò)。略偏科。這個(gè)模型-7的異常分其實(shí)是比較冤的，有2分是由于屏蔽詞導(dǎo)致的拒絕回答扣掉的。
阿里通義6月有一次小優(yōu)化，屬于局部finetune，錯(cuò)題幾乎無(wú)改進(jìn)。這個(gè)表現(xiàn)只相當(dāng)于4月的文心1.0.4。也許在憋大招，阿里不應(yīng)該就這水平。
360在4月開(kāi)的內(nèi)測(cè)，當(dāng)時(shí)叫beta2.0.0，我在5月已經(jīng)完整測(cè)過(guò)一輪了，分?jǐn)?shù)相當(dāng)糟糕，異常率奇高。6月360召開(kāi)發(fā)布會(huì)，對(duì)外宣傳是正式版。但月末實(shí)測(cè)，幾乎毫無(wú)改進(jìn)，甚至個(gè)別回答還有小幅劣化。360主要拿分的題是多輪問(wèn)答，記憶上下文和指令遵循尚可。但由于這2道題幾乎所有模型都答對(duì)了，預(yù)計(jì)會(huì)在7月評(píng)測(cè)里剔除。如果到時(shí)360還沒(méi)有更新模型，分?jǐn)?shù)可能會(huì)更低。
昆侖天工是應(yīng)網(wǎng)友要求加入評(píng)測(cè)的，內(nèi)測(cè)資格很好拿。整體表現(xiàn)也同樣糟糕，但和360的“風(fēng)格”不一樣，屬于在夢(mèng)游，不知道自己在說(shuō)什么，表現(xiàn)的毫無(wú)常識(shí)，看不懂指令。月內(nèi)有一次finetune升級(jí)，但區(qū)別不大。
最后，關(guān)于ChatGPT，在中文限定范圍，ChatGPT目前是真的打不過(guò)國(guó)產(chǎn)第一梯隊(duì)的，嘗試，邏輯方面都不占優(yōu)。但要注意即便是這樣一個(gè)半年前的模型，他的指令遵循能力也比目前國(guó)產(chǎn)都要好，異常僅扣2分。

#5. 備注

目前沒(méi)拿到資格的還有商湯SenseChat，但不抱希望，畢竟都不敢公測(cè)。7月7華為盤(pán)古大模型也會(huì)公布。

百度目前有點(diǎn)優(yōu)化不動(dòng)的跡象，也許7月會(huì)有大升級(jí)。

所以下個(gè)月看點(diǎn)依然很多。

標(biāo)簽：ChatGPT 文心一言 ChatGLM 訊飛星火阿里通義 AIGC