Claude 2和ChatGPT4-中文應(yīng)答能力測試【實(shí)測對比】google新黑

現(xiàn)在還有多少人在糾結(jié)要不要升級 ChatGPT Plus 呢?想要有更高級聰明的 AI 能力,就一定要支付更高昂的費(fèi)用嗎?上一期我們講了來勢洶洶的 Claude 2 陣容大更新,距離 Anthropic 公司推出 Claude 1.0 版本僅僅過去了不到四個月時間。
在之前的大模型評分中,GPT-4 是目前綜合能力最強(qiáng)的大模型,其次是 Accord 1,已經(jīng)緊隨其后,在當(dāng)時就已經(jīng)超過了 GPT-3.5。Claude 2 的評分暫時還沒出。但是從一些群眾自發(fā)的能力測中已經(jīng)可以看到,Claude 不僅在文案翻譯、編碼、邏輯、安全層面都大大超越了原來的自己,并且正在飛速趕上 AI 之王 GPT-4。
今天我們就五個科目來測試,對比一下 GPT-4 和 Claude 2 的能力。分別是簡單問答對話、復(fù)雜問題處理、辦公任務(wù)總結(jié)分析以及 AI 創(chuàng)意這幾個方面,并且全程使用中文提問。話不多說,對比來看
科目一簡單問答
主要是確認(rèn)一些基本事實(shí),我們可以通過現(xiàn)有的網(wǎng)絡(luò)渠道快速驗(yàn)證這些大模型是胡說八道,還是真的了解正確的信息呢?
我們來開始提問,第一款 iphone 是什么時候推出的?可以看到 Claude 的回復(fù)比較詳細(xì),除了發(fā)布日期之外,包括第一款 iphone 的規(guī)格參數(shù)也幫我列了。再來看一下 GPT-4,很言簡意賅的回復(fù)給到了發(fā)布會的時間和銷售時間。這一題上兩者都回答的準(zhǔn)確,Claude 更發(fā)揮了一點(diǎn)主觀能動性,回答的更完整一些。
第二個問題,安史之亂說的是什么?Claude 的回答說安史之亂起于 751 年,而 GPT 的回答則是 755 年。GPT 對于時間的回答是更準(zhǔn)確的。史書上記載安史之亂起于 755 年,于 763 年結(jié)束。我們再來看一下描述 GPT-4,這里提到了為什么叫安史之亂。因?yàn)閮蓚€起義的人一個姓安一個姓史,包括安史的整個起義過程,雖然描述的比較簡潔,但是歷史過程沒有重大錯誤。所以在這一題上 GPT 更準(zhǔn)確。
我們繼續(xù)提問,飛流直下三千尺,疑是銀河落九天出自哪個詩人的哪首詩歌?Claude 和 GPT 都回答的很準(zhǔn)確,出自李白的望廬山瀑布,也都說了這是李白在感嘆氣勢磅礴的瀑布。
總體而言,Claude 似乎一直想多說點(diǎn)什么,但是在例如時間這種信息的準(zhǔn)確度上還比不上 GPT。所以這一輪我給 GPT 贊。
科目二復(fù)雜問題,這一輪我會問一些復(fù)雜問題。例如制定語言學(xué)習(xí)計(jì)劃,制定旅行計(jì)劃,讓 AI 幫我們?nèi)ニ伎?,去做頭腦風(fēng)暴,給到指令。你是一個西班牙語教師,幫我制定一個六個月,詳細(xì)到每周的零基礎(chǔ)西班牙語學(xué)習(xí)計(jì)劃,讓我可以完成基本口語溝通。
我們先來看一下 Claude 的反饋,可以看到他并沒有幫我把計(jì)劃詳細(xì)拆分到每周,還是以每月來制定計(jì)劃。乍一看感覺還可以,但是細(xì)看覺得有點(diǎn)車轱轆化,不夠詳細(xì)。
我們再來看一下 GPT-4,他這個回答里面有一個點(diǎn)我很喜歡。在開篇他就說了,這個計(jì)劃是按照一周學(xué)習(xí)五天,每天2小時來制定的這一點(diǎn)比 Claude 要更有邏輯一些。在詳細(xì)計(jì)劃這塊和 Claude 相似,也沒有拆分到每周,不過在每一個周期的側(cè)重點(diǎn)都有標(biāo)明,比如第一個周期側(cè)重在初級的語法和詞匯,第二個周期是擴(kuò)展詞匯,第三個周期是實(shí)戰(zhàn),也包括每個周期重點(diǎn)學(xué)習(xí)的詞匯類別也有標(biāo)注。這大概是因?yàn)槲艺f了,我的目標(biāo)在于達(dá)到基本口語溝通,因此他也會建議我去學(xué)習(xí)食物、交通工具、問候等這些基礎(chǔ)詞匯。很顯然 GPT 這個計(jì)劃感覺更有參考性,也可以后面讓 GPT 再幫我們拆分到每一周的具體事項(xiàng)。
我們來做第二個提問,這次請他們給我們做旅行攻略,還是給到目的地預(yù)算時間等要求,讓他們做出一個具體到每天的餐廳住宿行程計(jì)劃。這次為了對比 2 個 AI 的攻略是否合理,我把他們的路線圖放到 google map 上來看一下。
首先是 Claude 制定的規(guī)劃路線,他還給我加了瑞士和匈牙利。如果真的按照這個路線去走,簡直是橫跨中歐地區(qū)。而且像第四天的這個行程,更是要一天開車七個小時。我的訴求只是德國和奧地利,而不是一天一國。
再來看一下 GPT-4 制定的規(guī)劃路線,GPT 的路線就合理的多,從法蘭克福出發(fā),主要涵蓋了德國南部幾個主要地區(qū)和奧地利的薩爾茨堡。維也納也根據(jù)我的預(yù)算給出了餐廳和住宿建議,對照地圖看不走回頭路,行程也比較合理。在這一輪復(fù)雜問題上,我判 GPT-4 勝。
科目三總結(jié)與分析能力。這里我會給到 AI 一個 PDF 文檔以及 excel 形式的問卷反饋匯總,讓 AI 來進(jìn)行分析總結(jié)。上傳一份關(guān)于 2019 年的中國 martek 市場調(diào)研報(bào)告,讓 AI 幫我總結(jié)一下這份報(bào)告中都說了什么。
先看 Claude 這邊,可以看到 Claude 馬上就幫我總結(jié)出了這份 PDF 文檔主要講的是什么,并且很簡潔。在 GPT-4 中如果要通過類似上傳文檔的方式,可以用最新的 code interpret or 功能。但 GPT-4 好像不支持這類型的 PDF,無法讀取信息,也就無法幫我們做總結(jié)。這個文件的 PDF 是多圖類型的,并不是純文字類型的。因此目前來看沒法直接上傳類似這樣的 PDF 給到 GPT。
第二個問題,我們再來看一下 CSV 格式的文件。我把用戶對于產(chǎn)品反饋的 CSV 格式文件發(fā)送給 Claude 和 GPT-4,請他們分析問卷中用戶的反饋。OK,Claude 和 GPT-4 都幫我做了分析,并且提出了優(yōu)化建議。在這一輪總結(jié)分析,顯然在上傳文件的格式限制上,Claude 更占優(yōu)勢。
我給 Claude 上
科目四,辦公類任務(wù),例如幫我們寫郵件寫產(chǎn)描述。比如說我有一個客戶對接的問題,那我把這個棘手的問題拋給他們倆,來看一下他們倆的處理方式。
我們比較一下兩者的回答。雖然 Claude 的版本看上去比較簡單,但是總體語法和表達(dá)上并沒有太大的毛病。GPT 的這個中文郵件就很奇怪,希望這封郵件找到你一切都好。這顯然是 "hope this email find you well",英文表達(dá)的中文翻譯很奇怪,因?yàn)槲覀兌疾粫@樣去寫郵件。
第二個問題,讓他們寫產(chǎn)品描述,這個在電商場景中應(yīng)用需求比較大,還是給到一些產(chǎn)品基礎(chǔ)的信息。這個中文的產(chǎn)品描述,兩者看上去沒有太大的差異,用詞上都比較傳統(tǒng)保守,是比較正規(guī)的作文寫法沒什么差異。在這一輪辦公類文書寫作,在中文寫作上我給考了 1 分。當(dāng)然中文寫作也可以拆分的更細(xì),比如客服類的文案、營銷類的文案、留學(xué)類的文案、求職類的文書等等。
科目五,創(chuàng)意,這是我最期待的環(huán)節(jié)了,誰不想看看 AI 到底有多少把才華呢?哎,上才藝,我們讓 AI 用五言做一個藏頭詩,要藏的句子為日日是好日,把字藏在詩歌的第一個字。這個藏頭詩可以看到 Claude 顯然不知道咋寫,完全沒有把字藏進(jìn)詩歌里。而 ChatGPT 就很會了,不僅都藏了,乍一讀也沒什么問題。這次我肯定是給 GPT 1 分,
這五個科目測評下來,Claude 除了復(fù)雜的頭腦風(fēng)暴和創(chuàng)意類型任務(wù)之外,其他的任務(wù)似乎都能和 GPT-4 一爭高下。不過需要注意的是,靠的是免費(fèi)使用,并且是單槍匹馬作戰(zhàn)。而 GPT-4 是需要付費(fèi)升級的,其中很多功能還需要對接不同的插件。不僅自己厲害,背后也有很多的精兵強(qiáng)將。
那么我的建議是,如果你還在用免費(fèi)的 ChatGPT,希望有更聰明的 AI 能力。不確認(rèn)要不要升級 GPT-4,可以先試試這次免費(fèi)更新的 Claude 2,它自帶的文件處理功能可能就已經(jīng)會幫你提升很多效率。
以上就是本期視頻的全部內(nèi)容,你看好 Claude 2 嗎?在評論區(qū)把你的選擇和態(tài)度,別忘了點(diǎn)贊訂閱我的頻道。如果你也感興趣 AI 加自動化以及數(shù)字營銷的內(nèi)容,我們下個視頻繼續(xù)聊。