最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

第一個(gè)超越ChatGPT的開(kāi)源模型來(lái)了?然而網(wǎng)友并不買賬

2023-07-05 16:41 作者:AI研習(xí)所  | 我要投稿

開(kāi)源模型真的可以超過(guò) ChatGPT了嗎?

大模型火了起來(lái),每天我們都能看到各種「大」新聞。




今天,又來(lái)了個(gè) 大新聞:新開(kāi)源的一個(gè)大模型超越了 ChatGPT。
具體是什么呢?
OpenLLM 是一系列在極小、多樣且高質(zhì)量的多輪對(duì)話數(shù)據(jù)集上進(jìn)行微調(diào)的開(kāi)源語(yǔ)言模型。
這兩日,作者們更新了該系列模型,并宣稱:OpenChat 模型在 AlpacaEval 上獲得 80.9% 的勝率;在 Vicuna GPT-4 評(píng)估上,性能達(dá)到 ChatGPT 的 105%!



也就是上面推特截圖中,兩位博主宣稱的開(kāi)源模型超越 ChatGPT/GPT-3.5。
OpenLLM 的特色是基于 LLaMA 開(kāi)源模型,在只有 6,000 個(gè) GPT4 對(duì)話的數(shù)據(jù)集上進(jìn)行微調(diào),從而達(dá)到非常好的效果。
此次更新的模型型號(hào)與評(píng)審結(jié)果如下:

· OpenChat:基于 LLaMA-13B,上下文長(zhǎng)度為 2048。

· 在Vicuna GPT-4 評(píng)估中達(dá)到 ChatGPT 分?jǐn)?shù)的 105.7% 。

· 在 AlpacaEval 上達(dá)到 80.9% 的勝率。

· OpenChat-8192:基于 LLaMA-13B,擴(kuò)展上下文長(zhǎng)度為 8192。

· 在 Vicuna GPT-4 評(píng)估中達(dá)到 ChatGPT 分?jǐn)?shù)的 106.6% 。

· 在 AlpacaEval 上實(shí)現(xiàn) 79.5% 的勝率。

也就是說(shuō),兩個(gè)模型在 Vicuna GPT-4 評(píng)估榜單上結(jié)果都超越了 ChatGPT。但這種評(píng)審 + 宣傳的方式似乎并不被大家認(rèn)可。
網(wǎng)友:夸張
在 Twitter 討論中,有網(wǎng)友表明,這就是夸張的說(shuō)法。



在此「大」新聞公布后,Vicuna 官方也迅速做出了回應(yīng)。
實(shí)際上,Vicuna 的測(cè)試基準(zhǔn)已被棄用,現(xiàn)在使用的是更高級(jí)的 MT-bench 基準(zhǔn)。該基準(zhǔn)的測(cè)試,有著更加具有挑戰(zhàn)性的任務(wù),并且解決了 gpt4 評(píng)估中的偏差以及限制。
在 MT-bench 上,OpenChat 性能表現(xiàn)與 wizardlm-13b 相似。也就是說(shuō),開(kāi)源模型與 GPT-3.5 仍然有著一定差距。這也正是 MT-bench 所強(qiáng)調(diào)的內(nèi)容 —— 開(kāi)源模型不是完美無(wú)缺的,但是這將邁向更好的聊天機(jī)器人評(píng)估。




評(píng)估還表明,在任何給定的評(píng)估中,最佳模型的平均性能達(dá)到 ChatGPT 的 83%、GPT-4 的 68%,這表明需要進(jìn)一步構(gòu)建更好的基礎(chǔ)模型和指令調(diào)優(yōu)數(shù)據(jù)以縮小差距。

第一個(gè)超越ChatGPT的開(kāi)源模型來(lái)了?然而網(wǎng)友并不買賬的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
东乡| 曲阳县| 右玉县| 新丰县| 连山| 定州市| 仪征市| 平乐县| 南宁市| 忻城县| 溆浦县| 静乐县| 会同县| 延安市| 调兵山市| 玛曲县| 江安县| 新安县| 鄂伦春自治旗| 当雄县| 闽清县| 乌鲁木齐市| 扬州市| 观塘区| 伊金霍洛旗| 宝坻区| 耒阳市| 洛南县| 依兰县| 连平县| 波密县| 布尔津县| 澜沧| 如东县| 大荔县| 洛扎县| 苗栗县| 锦屏县| 临桂县| 栖霞市| 秀山|