國(guó)產(chǎn)AI大模型橫評(píng)(6月末)(含GPT-4對(duì)比)
#0. 前言
從去年底ChatGPT發(fā)布開(kāi)始,國(guó)內(nèi)的百度文心,阿里通義等依次登場(chǎng)。在這個(gè)AI大模型的大航海時(shí)代元年,搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。
5月的評(píng)測(cè)見(jiàn):國(guó)產(chǎn)AI大模型橫評(píng)(5月) - 嗶哩嗶哩 (bilibili.com)
#1. 評(píng)測(cè)原則
完整評(píng)測(cè)原則同樣參見(jiàn)5月評(píng)測(cè),這里再簡(jiǎn)單摘錄:
目前一共10個(gè)分類(lèi),35個(gè)問(wèn)題。涵蓋常識(shí),學(xué)科知識(shí),文言文翻譯,英文翻譯,數(shù)學(xué)計(jì)算,文學(xué)創(chuàng)作,角色扮演,邏輯推理,歸納理解,情商和認(rèn)知。每類(lèi)問(wèn)題數(shù)量不超過(guò)5個(gè),避免模型偏科,單科分?jǐn)?shù)過(guò)高。
每個(gè)問(wèn)題重復(fù)3次取最好。打分分3個(gè)維度:
正確性:比如計(jì)算正確,推理正確,知識(shí)正確,識(shí)別到錯(cuò)誤等
表達(dá):比如解釋詳細(xì),步驟清晰,沒(méi)有廢話(huà)
異常:比如違背一般人常識(shí),不遵循指令,文不對(duì)題
6月評(píng)測(cè)依然不涉及編程和非中文問(wèn)答,預(yù)計(jì)7月會(huì)加入編程考察。評(píng)測(cè)期間題目不公布,各家模型在回答后,不對(duì)回答進(jìn)行反饋(贊和踩都不點(diǎn)),盡量避免問(wèn)題被收集用于訓(xùn)練。
#2. 參賽選手
百度文心一言 2.1.0 版本(6月21日更新)
阿里通義 1.0.2 版本(6月10日更新)
訊飛星火 1.5.0 版本(6月9日更新)
360智腦 (6月末版本)
昆侖天工(v3.5.20230626.a)
ChatGPT(Lagacy)
ChatGPT(GPT-4)
Claude+(6月末版本)
ChatGLM2(官網(wǎng)版本,非開(kāi)源6b)
本次擴(kuò)容到9個(gè)模型。其中360智腦在6月13有一場(chǎng)發(fā)布會(huì)正式官宣了360智腦,同一天把模型版本號(hào)從網(wǎng)站上隱藏了,導(dǎo)致我無(wú)法追蹤模型更新,只能在6月末進(jìn)行了一輪錯(cuò)題重測(cè)。下文還有點(diǎn)評(píng)。
#3. 總分榜單

#4. 成績(jī)解析
GPT-4在表達(dá)方面一騎絕塵。實(shí)際現(xiàn)象大家都錯(cuò)的問(wèn)題,他可以對(duì),或者接近對(duì)。大家都答對(duì)的問(wèn)題,GPT-4可以解釋的更精確,能識(shí)別題目中的邏輯錯(cuò)誤,指令匹配程度更高等等。例如要求遵守的創(chuàng)作要素都100%滿(mǎn)足。同時(shí)GPT-4是目前唯一0異常的,意味著他雖然可能答不對(duì),但不會(huì)亂答,不會(huì)拒絕指令。
百度在6月中迭代了2個(gè)版本,整體變化不大。2.1.0版本已經(jīng)接入了百度搜索,理論上可以獲取最新信息,但實(shí)測(cè)下來(lái)和之前差異不大,會(huì)錯(cuò)的常識(shí)題還是會(huì)錯(cuò)。也許之前已經(jīng)具備了相關(guān)能力,只是最近才在UI上展示。另外2.1.0也支持了上傳pdf文件,進(jìn)行解析和歸納,實(shí)測(cè)下來(lái),可能受限于token size太小,長(zhǎng)pdf解析效果都不好。也不能在閱讀pdf之后,根據(jù)內(nèi)容進(jìn)行創(chuàng)作。也可能還是token爆掉的原因。
ChatGLM2異軍突起,直接跑到了國(guó)產(chǎn)第二梯隊(duì),表現(xiàn)很亮眼,尤其數(shù)學(xué)題正確率很高。詩(shī)詞創(chuàng)作是目前唯一平仄正確,拿到了表達(dá)分(GPT-4沒(méi)拿到)。但瓶頸也很明顯,邏輯題全錯(cuò),常識(shí)題全錯(cuò)。略偏科。這個(gè)模型-7的異常分其實(shí)是比較冤的,有2分是由于屏蔽詞導(dǎo)致的拒絕回答扣掉的。
阿里通義6月有一次小優(yōu)化,屬于局部finetune,錯(cuò)題幾乎無(wú)改進(jìn)。這個(gè)表現(xiàn)只相當(dāng)于4月的文心1.0.4。也許在憋大招,阿里不應(yīng)該就這水平。
360在4月開(kāi)的內(nèi)測(cè),當(dāng)時(shí)叫beta2.0.0,我在5月已經(jīng)完整測(cè)過(guò)一輪了,分?jǐn)?shù)相當(dāng)糟糕,異常率奇高。6月360召開(kāi)發(fā)布會(huì),對(duì)外宣傳是正式版。但月末實(shí)測(cè),幾乎毫無(wú)改進(jìn),甚至個(gè)別回答還有小幅劣化。360主要拿分的題是多輪問(wèn)答,記憶上下文和指令遵循尚可。但由于這2道題幾乎所有模型都答對(duì)了,預(yù)計(jì)會(huì)在7月評(píng)測(cè)里剔除。如果到時(shí)360還沒(méi)有更新模型,分?jǐn)?shù)可能會(huì)更低。
昆侖天工是應(yīng)網(wǎng)友要求加入評(píng)測(cè)的,內(nèi)測(cè)資格很好拿。整體表現(xiàn)也同樣糟糕,但和360的“風(fēng)格”不一樣,屬于在夢(mèng)游,不知道自己在說(shuō)什么,表現(xiàn)的毫無(wú)常識(shí),看不懂指令。月內(nèi)有一次finetune升級(jí),但區(qū)別不大。
最后,關(guān)于ChatGPT,在中文限定范圍,ChatGPT目前是真的打不過(guò)國(guó)產(chǎn)第一梯隊(duì)的,嘗試,邏輯方面都不占優(yōu)。但要注意即便是這樣一個(gè)半年前的模型,他的指令遵循能力也比目前國(guó)產(chǎn)都要好,異常僅扣2分。
#5. 備注
目前沒(méi)拿到資格的還有商湯SenseChat,但不抱希望,畢竟都不敢公測(cè)。7月7華為盤(pán)古大模型也會(huì)公布。
百度目前有點(diǎn)優(yōu)化不動(dòng)的跡象,也許7月會(huì)有大升級(jí)。
所以下個(gè)月看點(diǎn)依然很多。