國(guó)產(chǎn)AI大模型橫評(píng)(6月)
#0. 前言
從去年底ChatGPT發(fā)布開(kāi)始,國(guó)內(nèi)的百度文心,阿里通義等依次登場(chǎng)。在這個(gè)AI大模型的大航海時(shí)代元年,搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。
但在B站看了很多評(píng)測(cè)視頻,一方面覺(jué)得up主整活和看樂(lè)子的傾向很重,個(gè)人不太認(rèn)同。一方面認(rèn)為這種需要長(zhǎng)期+定期更新的橫評(píng)榜單還是以文字形式發(fā)布最好。
于是有了今天的第一篇。
#1. 評(píng)測(cè)原則
首先明確一點(diǎn),我們希望AI大模型幫助我們更好的工作和生活,而不是為了看AI樂(lè)子。
其次,AI不等于搜索引擎,他并不是全知全能,我們也不應(yīng)該把AI當(dāng)百科全書(shū)來(lái)用,更應(yīng)該看中AI的語(yǔ)言應(yīng)用,邏輯分析,歸納,演繹能力。把AI當(dāng)做一個(gè)具備基本生活常識(shí)+必要學(xué)科知識(shí)的“人”來(lái)提問(wèn)。
在此基礎(chǔ)上,我準(zhǔn)備了9個(gè)分類(lèi)共30個(gè)問(wèn)題(數(shù)量持續(xù)添加),這些分類(lèi)涵蓋:常識(shí),學(xué)科知識(shí),文言文翻譯,英文翻譯,數(shù)學(xué)計(jì)算,文學(xué)創(chuàng)作,角色扮演,邏輯推理,歸納理解。每類(lèi)問(wèn)題數(shù)量不超過(guò)5個(gè),避免有偏科的模型在一類(lèi)問(wèn)題上拿太多分。
這里出于照顧現(xiàn)階段國(guó)產(chǎn)模型的目的,不考察代碼和英文問(wèn)答。等到各家都具備相關(guān)能力,也會(huì)加入相關(guān)問(wèn)題。
為了防止目前還未公布的大模型(比如騰訊系,字節(jié)系)使用我的問(wèn)題集做提前訓(xùn)練,相當(dāng)于作弊,這些問(wèn)題將不會(huì)公開(kāi)。
每個(gè)問(wèn)題重復(fù)3次取最好。打分分3個(gè)維度:
正確性:比如計(jì)算正確,推理正確,知識(shí)正確,識(shí)別到錯(cuò)誤等
表達(dá):比如解釋詳細(xì),步驟清晰,沒(méi)有廢話(huà)
異常:比如違背一般人常識(shí),不遵循指令,文不對(duì)題
#2. 參賽選手
百度文心一言 2.0.3 版本(6月7日更新)
阿里通義 1.0.1 版本(5月22更新)
訊飛星火 1.5.0?版本(6月9日更新)
360智腦 ?beta-2.0.0
本次評(píng)測(cè)暫不加入GPT-4和Claude+,因?yàn)榻刂沟桨l(fā)文,我還沒(méi)測(cè)完,預(yù)計(jì)在7月榜單里參戰(zhàn)。
另外還別的大模型我都會(huì)在第一時(shí)間申請(qǐng)內(nèi)測(cè),然后第一時(shí)間更新評(píng)測(cè)數(shù)據(jù)。
#3. 6月榜單
文心一言:正確18,表達(dá)9,異常2
阿里通義:正確4,表達(dá)3,異常5
訊飛星火:正確12,表達(dá)5,異常2
360智腦:正確3,表達(dá)2,異常8
#4. 備注
文心在5月23發(fā)布2.0.1之后,正確的分?jǐn)?shù)從5跳漲到14,直接晉升第一梯隊(duì)。
訊飛在6月9發(fā)布1.5.0之后,相比1.0.0版本,正確也從4跳漲到12,單文學(xué)創(chuàng)作一項(xiàng)就從0分漲了3分,學(xué)科知識(shí)的表達(dá)分?jǐn)?shù)也從0到3,基本和訊飛在發(fā)布會(huì)上宣稱(chēng)的能力項(xiàng)目對(duì)的上。
由于第一次寫(xiě),還有很多細(xì)節(jié)可能沒(méi)講到,大家有質(zhì)疑請(qǐng)?zhí)岢觥;蛘咭蟀涯硞€(gè)模型加入橫評(píng)也請(qǐng)?zhí)岢觥?/p>