最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

國(guó)產(chǎn)AI大模型橫評(píng)(6月末)(含GPT-4對(duì)比)

2023-06-30 23:17 作者:傷心的流星  | 我要投稿

#0. 前言

從去年底ChatGPT發(fā)布開(kāi)始,國(guó)內(nèi)的百度文心,阿里通義等依次登場(chǎng)。在這個(gè)AI大模型的大航海時(shí)代元年,搞個(gè)文檔記錄各家的大模型的各項(xiàng)能力是如何進(jìn)化的還是很有意思。

5月的評(píng)測(cè)見(jiàn):國(guó)產(chǎn)AI大模型橫評(píng)(5月) - 嗶哩嗶哩 (bilibili.com)

#1. 評(píng)測(cè)原則

完整評(píng)測(cè)原則同樣參見(jiàn)5月評(píng)測(cè),這里再簡(jiǎn)單摘錄:

目前一共10個(gè)分類(lèi),35個(gè)問(wèn)題。涵蓋常識(shí),學(xué)科知識(shí),文言文翻譯,英文翻譯,數(shù)學(xué)計(jì)算,文學(xué)創(chuàng)作,角色扮演,邏輯推理,歸納理解,情商和認(rèn)知。每類(lèi)問(wèn)題數(shù)量不超過(guò)5個(gè),避免模型偏科,單科分?jǐn)?shù)過(guò)高。

每個(gè)問(wèn)題重復(fù)3次取最好。打分分3個(gè)維度:

  1. 正確性:比如計(jì)算正確,推理正確,知識(shí)正確,識(shí)別到錯(cuò)誤等

  2. 表達(dá):比如解釋詳細(xì),步驟清晰,沒(méi)有廢話(huà)

  3. 異常:比如違背一般人常識(shí),不遵循指令,文不對(duì)題

6月評(píng)測(cè)依然不涉及編程和非中文問(wèn)答,預(yù)計(jì)7月會(huì)加入編程考察。評(píng)測(cè)期間題目不公布,各家模型在回答后,不對(duì)回答進(jìn)行反饋(贊和踩都不點(diǎn)),盡量避免問(wèn)題被收集用于訓(xùn)練。

#2. 參賽選手

百度文心一言 2.1.0 版本(6月21日更新)

阿里通義 1.0.2 版本(6月10日更新)

訊飛星火 1.5.0 版本(6月9日更新)

360智腦 (6月末版本)

昆侖天工(v3.5.20230626.a)

ChatGPT(Lagacy)

ChatGPT(GPT-4)

Claude+(6月末版本)

ChatGLM2(官網(wǎng)版本,非開(kāi)源6b)

本次擴(kuò)容到9個(gè)模型。其中360智腦在6月13有一場(chǎng)發(fā)布會(huì)正式官宣了360智腦,同一天把模型版本號(hào)從網(wǎng)站上隱藏了,導(dǎo)致我無(wú)法追蹤模型更新,只能在6月末進(jìn)行了一輪錯(cuò)題重測(cè)。下文還有點(diǎn)評(píng)。

#3. 總分榜單

#4. 成績(jī)解析

  1. GPT-4在表達(dá)方面一騎絕塵。實(shí)際現(xiàn)象大家都錯(cuò)的問(wèn)題,他可以對(duì),或者接近對(duì)。大家都答對(duì)的問(wèn)題,GPT-4可以解釋的更精確,能識(shí)別題目中的邏輯錯(cuò)誤,指令匹配程度更高等等。例如要求遵守的創(chuàng)作要素都100%滿(mǎn)足。同時(shí)GPT-4是目前唯一0異常的,意味著他雖然可能答不對(duì),但不會(huì)亂答,不會(huì)拒絕指令。

  2. 百度在6月中迭代了2個(gè)版本,整體變化不大。2.1.0版本已經(jīng)接入了百度搜索,理論上可以獲取最新信息,但實(shí)測(cè)下來(lái)和之前差異不大,會(huì)錯(cuò)的常識(shí)題還是會(huì)錯(cuò)。也許之前已經(jīng)具備了相關(guān)能力,只是最近才在UI上展示。另外2.1.0也支持了上傳pdf文件,進(jìn)行解析和歸納,實(shí)測(cè)下來(lái),可能受限于token size太小,長(zhǎng)pdf解析效果都不好。也不能在閱讀pdf之后,根據(jù)內(nèi)容進(jìn)行創(chuàng)作。也可能還是token爆掉的原因。

  3. ChatGLM2異軍突起,直接跑到了國(guó)產(chǎn)第二梯隊(duì),表現(xiàn)很亮眼,尤其數(shù)學(xué)題正確率很高。詩(shī)詞創(chuàng)作是目前唯一平仄正確,拿到了表達(dá)分(GPT-4沒(méi)拿到)。但瓶頸也很明顯,邏輯題全錯(cuò),常識(shí)題全錯(cuò)。略偏科。這個(gè)模型-7的異常分其實(shí)是比較冤的,有2分是由于屏蔽詞導(dǎo)致的拒絕回答扣掉的。

  4. 阿里通義6月有一次小優(yōu)化,屬于局部finetune,錯(cuò)題幾乎無(wú)改進(jìn)。這個(gè)表現(xiàn)只相當(dāng)于4月的文心1.0.4。也許在憋大招,阿里不應(yīng)該就這水平。

  5. 360在4月開(kāi)的內(nèi)測(cè),當(dāng)時(shí)叫beta2.0.0,我在5月已經(jīng)完整測(cè)過(guò)一輪了,分?jǐn)?shù)相當(dāng)糟糕,異常率奇高。6月360召開(kāi)發(fā)布會(huì),對(duì)外宣傳是正式版。但月末實(shí)測(cè),幾乎毫無(wú)改進(jìn),甚至個(gè)別回答還有小幅劣化。360主要拿分的題是多輪問(wèn)答,記憶上下文和指令遵循尚可。但由于這2道題幾乎所有模型都答對(duì)了,預(yù)計(jì)會(huì)在7月評(píng)測(cè)里剔除。如果到時(shí)360還沒(méi)有更新模型,分?jǐn)?shù)可能會(huì)更低。

  6. 昆侖天工是應(yīng)網(wǎng)友要求加入評(píng)測(cè)的,內(nèi)測(cè)資格很好拿。整體表現(xiàn)也同樣糟糕,但和360的“風(fēng)格”不一樣,屬于在夢(mèng)游,不知道自己在說(shuō)什么,表現(xiàn)的毫無(wú)常識(shí),看不懂指令。月內(nèi)有一次finetune升級(jí),但區(qū)別不大。

  7. 最后,關(guān)于ChatGPT,在中文限定范圍,ChatGPT目前是真的打不過(guò)國(guó)產(chǎn)第一梯隊(duì)的,嘗試,邏輯方面都不占優(yōu)。但要注意即便是這樣一個(gè)半年前的模型,他的指令遵循能力也比目前國(guó)產(chǎn)都要好,異常僅扣2分。

#5. 備注

目前沒(méi)拿到資格的還有商湯SenseChat,但不抱希望,畢竟都不敢公測(cè)。7月7華為盤(pán)古大模型也會(huì)公布。

百度目前有點(diǎn)優(yōu)化不動(dòng)的跡象,也許7月會(huì)有大升級(jí)。

所以下個(gè)月看點(diǎn)依然很多。


國(guó)產(chǎn)AI大模型橫評(píng)(6月末)(含GPT-4對(duì)比)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
隆化县| 高台县| 铁岭县| 博客| 涡阳县| 宝鸡市| 同江市| 驻马店市| 京山县| 青阳县| 泽普县| 读书| 河东区| 锦屏县| 原阳县| 桦甸市| 凤城市| 林西县| 鞍山市| 明溪县| 桑植县| 铁岭县| 永康市| 广灵县| 扶余县| 佛教| 隆德县| 通河县| 滦平县| 孝义市| 敦煌市| 来宾市| 阿瓦提县| 达孜县| 棋牌| 龙陵县| 松原市| 康保县| 宁远县| 施秉县| 竹山县|