LLM AI事實性問題測試:New Bing vs Bard vs Chatgpt vs Claude vs Sage
測試了目前幾款LLM聊天AI對于事實性問題的答案。
測試對象及版本:
New Bing(精確)
Bard?
Chatgpt(GPT-4)
Claude(Slack)?
Dragonfly(Poe)?
Sage(Poe)
測試問題一:你知道原神嗎?
New Bing:正確
Bard:正確
Chatgpt:正確
Claude:正確
Dragonfly:錯誤
Sage:正確
測試問題二:你知道刻晴嗎?
New Bing:完全正確
Bard:大部分正確,除了它說刻晴穿了白色大皮衣
Chatgpt:知道是原神的人物,然后開始編,說是地屬性的
Claude:知道是原神的人物,然后開始編,說是風(fēng)屬性的
Dragonfly:錯誤,刻晴是家具品牌
Sage:知道是原神的人物,然后開始編,說是電屬性的熒國公主
考慮到他們訓(xùn)練數(shù)據(jù)的時間,我選擇了21年9月前的人物來問。如果問珊瑚宮心海的話,除了New Bing 全軍覆沒。
測試問題三:我找了篇20年的paper,讓它們寫summary。
New Bing:完全正確,與原文的信息一致
Bard:根據(jù)題目編的,但是編的不好,前后有矛盾的地方,有點不像summary
Chatgpt:根據(jù)題目編的,編的可真了
Claude:根據(jù)題目編的,編的還不錯
Dragonfly:根據(jù)題目編的,胡編亂造,比Bard差,不像summary
Sage:根據(jù)題目編的,編的還不錯
結(jié)論:
New Bing:能聯(lián)網(wǎng),永遠(yuǎn)的神!
Bard:發(fā)揮不穩(wěn)定,怪怪的;只能用英語溝通,不太行
Chatgpt/Claude/Sage:一本正經(jīng)的胡說八道
Dragonfly:不行
吐槽:
哥們花錢買Plus不是看你胡說的!說的就是你,GPT-4!
Claude+等有錢買再測吧。