LLM AI事實性問題測試：New Bing vs Bard vs Chatgpt vs Claude vs Sage

2023-04-15 11:57 作者:真誠妹卡玩家 0人讀過 | 我要投稿

測試了目前幾款LLM聊天AI對于事實性問題的答案。

測試對象及版本：

New Bing（精確）

Bard?

Chatgpt（GPT-4）

Claude（Slack）?

Dragonfly（Poe）?

Sage（Poe）

測試問題一：你知道原神嗎？

New Bing：正確

Bard：正確

Chatgpt：正確

Claude：正確

Dragonfly：錯誤

Sage：正確

測試問題二：你知道刻晴嗎？

New Bing：完全正確

Bard：大部分正確，除了它說刻晴穿了白色大皮衣

Chatgpt：知道是原神的人物，然后開始編，說是地屬性的

Claude：知道是原神的人物，然后開始編，說是風(fēng)屬性的

Dragonfly：錯誤，刻晴是家具品牌

Sage：知道是原神的人物，然后開始編，說是電屬性的熒國公主

考慮到他們訓(xùn)練數(shù)據(jù)的時間，我選擇了21年9月前的人物來問。如果問珊瑚宮心海的話，除了New Bing 全軍覆沒。

測試問題三：我找了篇20年的paper，讓它們寫summary。

New Bing：完全正確，與原文的信息一致

Bard：根據(jù)題目編的，但是編的不好，前后有矛盾的地方，有點不像summary

Chatgpt：根據(jù)題目編的，編的可真了

Claude：根據(jù)題目編的，編的還不錯

Dragonfly：根據(jù)題目編的，胡編亂造，比Bard差，不像summary

Sage：根據(jù)題目編的，編的還不錯

結(jié)論：

New Bing：能聯(lián)網(wǎng)，永遠(yuǎn)的神！

Bard：發(fā)揮不穩(wěn)定，怪怪的；只能用英語溝通，不太行

Chatgpt/Claude/Sage：一本正經(jīng)的胡說八道

Dragonfly：不行

吐槽：
哥們花錢買Plus不是看你胡說的！說的就是你，GPT-4！
Claude+等有錢買再測吧。

標(biāo)簽：

LLM AI事實性問題測試：New Bing vs Bard vs Chatgpt vs Claude vs Sage的評論 (共條)