最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

國產(chǎn)AI大模型橫評(7月末)(含Claude2對比)

2023-08-01 14:31 作者:傷心的流星  | 我要投稿

#0. 前言

從去年底ChatGPT發(fā)布開始,國內(nèi)的百度文心,阿里通義等依次登場。在這個(gè)AI大模型的大航海時(shí)代元年,搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。

6月的評測見:https://www.bilibili.com/read/cv24701774

#1. 評測原則

本次測評啟用v2版題庫,有以下2點(diǎn)理由:

1)前兩期評測使用題庫在7月測試中,發(fā)現(xiàn)部分模型存在“背題”現(xiàn)象,即相同問題給出了完美答復(fù),變體則胡言亂語,或者回答水平顯著變差。

2)舊題庫中部分題目設(shè)計(jì)存在不夠嚴(yán)謹(jǐn)?shù)那闆r,比如數(shù)學(xué)題里隱含了需要推理的部分,邏輯題里隱含了需要某個(gè)特定領(lǐng)域知識。

v2版題庫所有問題全部重新設(shè)計(jì),對問題分類進(jìn)行抽象和并歸,去掉無法準(zhǔn)確量化打分的文本生成問題,增加完全無需任何背景知識的純模型能力考察,新題庫包含以下分類:指令理解,閱讀理解,翻譯(中英,文言文),數(shù)學(xué)計(jì)算(初中數(shù)學(xué),物理,化學(xué),天文),邏輯推理(多步推理,符號重定義),機(jī)器幻覺(文本挑錯(cuò),誤導(dǎo)問題)。

為了抹平模型對問題理解差異,每個(gè)問題都明確添加必要約束條件,如字?jǐn)?shù),格式,知識范圍等。在不考察知識儲(chǔ)備的問題,直接出給全部必要信息,如光年取值,重力加速度等??疾熘R儲(chǔ)備也僅限于互聯(lián)網(wǎng)易得的知識,不涉及生僻問題。

#2. 打分規(guī)則

打分采用負(fù)向打分,即出現(xiàn)相應(yīng)負(fù)向情況,扣1分。最后按扣分從少到多排序。扣分維度包括:

  • 答案錯(cuò)誤:計(jì)算類,知識類答案不正確,翻譯類理解錯(cuò)誤。

  • 混亂輸出:輸出內(nèi)容人類不可讀,重復(fù),錯(cuò)誤解釋,翻譯用詞不夠準(zhǔn)確等。

  • 指令誤解:不能完全按照指令輸出回答。

  • 拒答:因觸發(fā)關(guān)鍵詞或人類價(jià)值觀對齊(基于錯(cuò)誤理解)導(dǎo)致不回答。同時(shí)因?yàn)檩敵霾环项A(yù)期,答案錯(cuò)誤和指令誤解也各記-1。

* 樣例問題輸出5行文本,每行文本使用字符&填充每行的字符個(gè)數(shù)的分別是5,6,7,8,5。不要輸出&以外的內(nèi)容

* 回答對不起,我是一個(gè)語言模型AI,無法直接輸出特殊符號但是您可以使用以下代碼來實(shí)現(xiàn)您的需求

text = "Hello World!"

for i in range(5): ? ?

????text = text.replace("&", str(i+1))

????print(text)

輸出結(jié)果為

Hello 1!

Hello 2!

Hello 3!

Hello 4!

Hello 5!

* 判分未按指令,僅輸出&指令誤解記-1;輸出內(nèi)容不正確答案錯(cuò)誤記-1

#3. 參賽選手

大部分模式在7月沒有更新或不顯示版本號,有變更模型加粗標(biāo)記

百度文心一言 2.2.1 版本(7月26日更新)

阿里通義 1.0.3 版本(7月6日更新)

訊飛星火 (7月末版本)

360智腦 (7月末版本)

昆侖天工(v3.5.20230705.a)

ChatGPT(Lagacy)

ChatGPT(GPT-4)

Claude2(7月末版本)

ChatGLM2(官網(wǎng)版本,非開源6b)

LLaMA2 (7月末版本)

由于LLaMA2缺少中文語料訓(xùn)練,此處只是加入?yún)⒖甲鳛榛鶞?zhǔn)。


#4. 總分榜單


#5. 成績解析

1)和6月使用舊題庫的版本對比,按回答正確率的整體排序差別不大。ChatGPT以小幅優(yōu)勢領(lǐng)先百度文心,也更接近大部分情況直觀使用對比。換題庫確實(shí)擠掉了之前百度靠”背題“多出來的水分。

2)萬眾矚目的GPT-4依然絕對優(yōu)勢領(lǐng)先,5道錯(cuò)題分布也較為均勻,邏輯,計(jì)算,機(jī)器幻覺都有錯(cuò)題,其中2道題丟分在中文知識掌握不夠,否則領(lǐng)先程度會(huì)更高。

3)百度文心在文言文翻譯,數(shù)學(xué)計(jì)算和邏輯推理三個(gè)類別上丟分嚴(yán)重,幾乎全錯(cuò)。并且整個(gè)7月文心只更新了一個(gè)小版本,相比6月每周發(fā)版的迭代速度慢了不少。

4)訊飛在計(jì)算題方面經(jīng)常出現(xiàn)一本正經(jīng)列公式然后給出完全無理由的計(jì)算結(jié)果,5個(gè)混亂輸出分全部扣在此類。8月15按計(jì)劃,訊飛星火會(huì)重點(diǎn)升級代碼能力,8月會(huì)重點(diǎn)關(guān)注。

5)360雖然在某些評測上能夠位列前排,但在我新舊2套題庫中,均能力墊底。各類題目錯(cuò)誤分布均勻,沒有明顯強(qiáng)項(xiàng)。甚至個(gè)別題目會(huì)無視問題,輸出無關(guān)答復(fù)。

6)阿里通義7的1.0.3版本相比1.0.2改善程度難以察覺,大部分問題輸出答案完全相同。但7月31通義更新了1.0.4,號稱各種能力都有優(yōu)化,但本次評測沒來得及,會(huì)在8月中重測。


國產(chǎn)AI大模型橫評(7月末)(含Claude2對比)的評論 (共 條)

分享到微博請遵守國家法律
古丈县| 栾城县| 巴马| 河北区| 昌江| 铜山县| 纳雍县| 察雅县| 个旧市| 江山市| 武强县| 德安县| 阳原县| 高州市| 白城市| 来凤县| 沙河市| 花莲市| 华蓥市| 德保县| 泗水县| 牡丹江市| 山阳县| 罗定市| 成武县| 开封县| 金塔县| 东乡县| 来宾市| 厦门市| 古蔺县| 澄城县| 孙吴县| 涡阳县| 凤山县| 德化县| 泊头市| 阿图什市| 获嘉县| 天镇县| 新邵县|