散文網(wǎng) » 科技 »學(xué)習(xí) » 國(guó)產(chǎn)AI大模型橫評(píng)（6月）

國(guó)產(chǎn)AI大模型橫評(píng)（6月）

2023-06-09 21:37 作者:傷心的流星 0人讀過(guò) | 我要投稿

#0. 前言

從去年底ChatGPT發(fā)布開(kāi)始，國(guó)內(nèi)的百度文心，阿里通義等依次登場(chǎng)。在這個(gè)AI大模型的大航海時(shí)代元年，搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。

但在B站看了很多評(píng)測(cè)視頻，一方面覺(jué)得up主整活和看樂(lè)子的傾向很重，個(gè)人不太認(rèn)同。一方面認(rèn)為這種需要長(zhǎng)期+定期更新的橫評(píng)榜單還是以文字形式發(fā)布最好。

于是有了今天的第一篇。

#1. 評(píng)測(cè)原則

首先明確一點(diǎn)，我們希望AI大模型幫助我們更好的工作和生活，而不是為了看AI樂(lè)子。

其次，AI不等于搜索引擎，他并不是全知全能，我們也不應(yīng)該把AI當(dāng)百科全書(shū)來(lái)用，更應(yīng)該看中AI的語(yǔ)言應(yīng)用，邏輯分析，歸納，演繹能力。把AI當(dāng)做一個(gè)具備基本生活常識(shí)+必要學(xué)科知識(shí)的“人”來(lái)提問(wèn)。

在此基礎(chǔ)上，我準(zhǔn)備了9個(gè)分類(lèi)共30個(gè)問(wèn)題（數(shù)量持續(xù)添加），這些分類(lèi)涵蓋：常識(shí)，學(xué)科知識(shí)，文言文翻譯，英文翻譯，數(shù)學(xué)計(jì)算，文學(xué)創(chuàng)作，角色扮演，邏輯推理，歸納理解。每類(lèi)問(wèn)題數(shù)量不超過(guò)5個(gè)，避免有偏科的模型在一類(lèi)問(wèn)題上拿太多分。

這里出于照顧現(xiàn)階段國(guó)產(chǎn)模型的目的，不考察代碼和英文問(wèn)答。等到各家都具備相關(guān)能力，也會(huì)加入相關(guān)問(wèn)題。

為了防止目前還未公布的大模型（比如騰訊系，字節(jié)系）使用我的問(wèn)題集做提前訓(xùn)練，相當(dāng)于作弊，這些問(wèn)題將不會(huì)公開(kāi)。

每個(gè)問(wèn)題重復(fù)3次取最好。打分分3個(gè)維度：

正確性：比如計(jì)算正確，推理正確，知識(shí)正確，識(shí)別到錯(cuò)誤等
表達(dá)：比如解釋詳細(xì)，步驟清晰，沒(méi)有廢話(huà)
異常：比如違背一般人常識(shí)，不遵循指令，文不對(duì)題

#2. 參賽選手

百度文心一言 2.0.3 版本（6月7日更新）

阿里通義 1.0.1 版本（5月22更新）

訊飛星火 1.5.0?版本（6月9日更新）

360智腦 ?beta-2.0.0

本次評(píng)測(cè)暫不加入GPT-4和Claude+，因?yàn)榻刂沟桨l(fā)文，我還沒(méi)測(cè)完，預(yù)計(jì)在7月榜單里參戰(zhàn)。

另外還別的大模型我都會(huì)在第一時(shí)間申請(qǐng)內(nèi)測(cè)，然后第一時(shí)間更新評(píng)測(cè)數(shù)據(jù)。

#3. 6月榜單

文心一言：正確18，表達(dá)9，異常2
阿里通義：正確4，表達(dá)3，異常5
訊飛星火：正確12，表達(dá)5，異常2
360智腦：正確3，表達(dá)2，異常8

#4. 備注

文心在5月23發(fā)布2.0.1之后，正確的分?jǐn)?shù)從5跳漲到14，直接晉升第一梯隊(duì)。
訊飛在6月9發(fā)布1.5.0之后，相比1.0.0版本，正確也從4跳漲到12，單文學(xué)創(chuàng)作一項(xiàng)就從0分漲了3分，學(xué)科知識(shí)的表達(dá)分?jǐn)?shù)也從0到3，基本和訊飛在發(fā)布會(huì)上宣稱(chēng)的能力項(xiàng)目對(duì)的上。

由于第一次寫(xiě)，還有很多細(xì)節(jié)可能沒(méi)講到，大家有質(zhì)疑請(qǐng)?zhí)岢觥；蛘咭蟀涯硞€(gè)模型加入橫評(píng)也請(qǐng)?zhí)岢觥?/p>

標(biāo)簽：ChatGPT 文心一言訊飛星火阿里通義