散文網(wǎng) » 筆記 »全部筆記 » Claude 2和ChatGPT4-中文應(yīng)答能力測試【實(shí)測對比】google新黑

Claude 2和ChatGPT4-中文應(yīng)答能力測試【實(shí)測對比】google新黑

2023-07-26 05:57 作者:但丁jr 0人讀過 | 我要投稿

現(xiàn)在還有多少人在糾結(jié)要不要升級 ChatGPT Plus 呢？想要有更高級聰明的 AI 能力，就一定要支付更高昂的費(fèi)用嗎？上一期我們講了來勢洶洶的 Claude 2 陣容大更新，距離 Anthropic 公司推出 Claude 1.0 版本僅僅過去了不到四個月時間。

在之前的大模型評分中，GPT-4 是目前綜合能力最強(qiáng)的大模型，其次是 Accord 1，已經(jīng)緊隨其后，在當(dāng)時就已經(jīng)超過了 GPT-3.5。Claude 2 的評分暫時還沒出。但是從一些群眾自發(fā)的能力測中已經(jīng)可以看到，Claude 不僅在文案翻譯、編碼、邏輯、安全層面都大大超越了原來的自己，并且正在飛速趕上 AI 之王 GPT-4。

今天我們就五個科目來測試，對比一下 GPT-4 和 Claude 2 的能力。分別是簡單問答對話、復(fù)雜問題處理、辦公任務(wù)總結(jié)分析以及 AI 創(chuàng)意這幾個方面，并且全程使用中文提問。話不多說，對比來看

科目一簡單問答

主要是確認(rèn)一些基本事實(shí)，我們可以通過現(xiàn)有的網(wǎng)絡(luò)渠道快速驗(yàn)證這些大模型是胡說八道，還是真的了解正確的信息呢？

我們來開始提問，第一款 iphone 是什么時候推出的？可以看到 Claude 的回復(fù)比較詳細(xì)，除了發(fā)布日期之外，包括第一款 iphone 的規(guī)格參數(shù)也幫我列了。再來看一下 GPT-4，很言簡意賅的回復(fù)給到了發(fā)布會的時間和銷售時間。這一題上兩者都回答的準(zhǔn)確，Claude 更發(fā)揮了一點(diǎn)主觀能動性，回答的更完整一些。

第二個問題，安史之亂說的是什么？Claude 的回答說安史之亂起于 751 年，而 GPT 的回答則是 755 年。GPT 對于時間的回答是更準(zhǔn)確的。史書上記載安史之亂起于 755 年，于 763 年結(jié)束。我們再來看一下描述 GPT-4，這里提到了為什么叫安史之亂。因?yàn)閮蓚€起義的人一個姓安一個姓史，包括安史的整個起義過程，雖然描述的比較簡潔，但是歷史過程沒有重大錯誤。所以在這一題上 GPT 更準(zhǔn)確。

我們繼續(xù)提問，飛流直下三千尺，疑是銀河落九天出自哪個詩人的哪首詩歌？Claude 和 GPT 都回答的很準(zhǔn)確，出自李白的望廬山瀑布，也都說了這是李白在感嘆氣勢磅礴的瀑布。

總體而言，Claude 似乎一直想多說點(diǎn)什么，但是在例如時間這種信息的準(zhǔn)確度上還比不上 GPT。所以這一輪我給 GPT 贊。

科目二復(fù)雜問題，這一輪我會問一些復(fù)雜問題。例如制定語言學(xué)習(xí)計(jì)劃，制定旅行計(jì)劃，讓 AI 幫我們?nèi)ニ伎?，去做頭腦風(fēng)暴，給到指令。你是一個西班牙語教師，幫我制定一個六個月，詳細(xì)到每周的零基礎(chǔ)西班牙語學(xué)習(xí)計(jì)劃，讓我可以完成基本口語溝通。

我們先來看一下 Claude 的反饋，可以看到他并沒有幫我把計(jì)劃詳細(xì)拆分到每周，還是以每月來制定計(jì)劃。乍一看感覺還可以，但是細(xì)看覺得有點(diǎn)車轱轆化，不夠詳細(xì)。

我們再來看一下 GPT-4，他這個回答里面有一個點(diǎn)我很喜歡。在開篇他就說了，這個計(jì)劃是按照一周學(xué)習(xí)五天，每天2小時來制定的這一點(diǎn)比 Claude 要更有邏輯一些。在詳細(xì)計(jì)劃這塊和 Claude 相似，也沒有拆分到每周，不過在每一個周期的側(cè)重點(diǎn)都有標(biāo)明，比如第一個周期側(cè)重在初級的語法和詞匯，第二個周期是擴(kuò)展詞匯，第三個周期是實(shí)戰(zhàn)，也包括每個周期重點(diǎn)學(xué)習(xí)的詞匯類別也有標(biāo)注。這大概是因?yàn)槲艺f了，我的目標(biāo)在于達(dá)到基本口語溝通，因此他也會建議我去學(xué)習(xí)食物、交通工具、問候等這些基礎(chǔ)詞匯。很顯然 GPT 這個計(jì)劃感覺更有參考性，也可以后面讓 GPT 再幫我們拆分到每一周的具體事項(xiàng)。

我們來做第二個提問，這次請他們給我們做旅行攻略，還是給到目的地預(yù)算時間等要求，讓他們做出一個具體到每天的餐廳住宿行程計(jì)劃。這次為了對比 2 個 AI 的攻略是否合理，我把他們的路線圖放到 google map 上來看一下。

首先是 Claude 制定的規(guī)劃路線，他還給我加了瑞士和匈牙利。如果真的按照這個路線去走，簡直是橫跨中歐地區(qū)。而且像第四天的這個行程，更是要一天開車七個小時。我的訴求只是德國和奧地利，而不是一天一國。

再來看一下 GPT-4 制定的規(guī)劃路線，GPT 的路線就合理的多，從法蘭克福出發(fā)，主要涵蓋了德國南部幾個主要地區(qū)和奧地利的薩爾茨堡。維也納也根據(jù)我的預(yù)算給出了餐廳和住宿建議，對照地圖看不走回頭路，行程也比較合理。在這一輪復(fù)雜問題上，我判 GPT-4 勝。

科目三總結(jié)與分析能力。這里我會給到 AI 一個 PDF 文檔以及 excel 形式的問卷反饋匯總，讓 AI 來進(jìn)行分析總結(jié)。上傳一份關(guān)于 2019 年的中國 martek 市場調(diào)研報(bào)告，讓 AI 幫我總結(jié)一下這份報(bào)告中都說了什么。

先看 Claude 這邊，可以看到 Claude 馬上就幫我總結(jié)出了這份 PDF 文檔主要講的是什么，并且很簡潔。在 GPT-4 中如果要通過類似上傳文檔的方式，可以用最新的 code interpret or 功能。但 GPT-4 好像不支持這類型的 PDF，無法讀取信息，也就無法幫我們做總結(jié)。這個文件的 PDF 是多圖類型的，并不是純文字類型的。因此目前來看沒法直接上傳類似這樣的 PDF 給到 GPT。

第二個問題，我們再來看一下 CSV 格式的文件。我把用戶對于產(chǎn)品反饋的 CSV 格式文件發(fā)送給 Claude 和 GPT-4，請他們分析問卷中用戶的反饋。OK，Claude 和 GPT-4 都幫我做了分析，并且提出了優(yōu)化建議。在這一輪總結(jié)分析，顯然在上傳文件的格式限制上，Claude 更占優(yōu)勢。

我給 Claude 上

科目四，辦公類任務(wù)，例如幫我們寫郵件寫產(chǎn)描述。比如說我有一個客戶對接的問題，那我把這個棘手的問題拋給他們倆，來看一下他們倆的處理方式。

我們比較一下兩者的回答。雖然 Claude 的版本看上去比較簡單，但是總體語法和表達(dá)上并沒有太大的毛病。GPT 的這個中文郵件就很奇怪，希望這封郵件找到你一切都好。這顯然是 "hope this email find you well"，英文表達(dá)的中文翻譯很奇怪，因?yàn)槲覀兌疾粫@樣去寫郵件。

第二個問題，讓他們寫產(chǎn)品描述，這個在電商場景中應(yīng)用需求比較大，還是給到一些產(chǎn)品基礎(chǔ)的信息。這個中文的產(chǎn)品描述，兩者看上去沒有太大的差異，用詞上都比較傳統(tǒng)保守，是比較正規(guī)的作文寫法沒什么差異。在這一輪辦公類文書寫作，在中文寫作上我給考了 1 分。當(dāng)然中文寫作也可以拆分的更細(xì)，比如客服類的文案、營銷類的文案、留學(xué)類的文案、求職類的文書等等。

科目五，創(chuàng)意，這是我最期待的環(huán)節(jié)了，誰不想看看 AI 到底有多少把才華呢？哎，上才藝，我們讓 AI 用五言做一個藏頭詩，要藏的句子為日日是好日，把字藏在詩歌的第一個字。這個藏頭詩可以看到 Claude 顯然不知道咋寫，完全沒有把字藏進(jìn)詩歌里。而 ChatGPT 就很會了，不僅都藏了，乍一讀也沒什么問題。這次我肯定是給 GPT 1 分，

這五個科目測評下來，Claude 除了復(fù)雜的頭腦風(fēng)暴和創(chuàng)意類型任務(wù)之外，其他的任務(wù)似乎都能和 GPT-4 一爭高下。不過需要注意的是，靠的是免費(fèi)使用，并且是單槍匹馬作戰(zhàn)。而 GPT-4 是需要付費(fèi)升級的，其中很多功能還需要對接不同的插件。不僅自己厲害，背后也有很多的精兵強(qiáng)將。

那么我的建議是，如果你還在用免費(fèi)的 ChatGPT，希望有更聰明的 AI 能力。不確認(rèn)要不要升級 GPT-4，可以先試試這次免費(fèi)更新的 Claude 2，它自帶的文件處理功能可能就已經(jīng)會幫你提升很多效率。

以上就是本期視頻的全部內(nèi)容，你看好 Claude 2 嗎？在評論區(qū)把你的選擇和態(tài)度，別忘了點(diǎn)贊訂閱我的頻道。如果你也感興趣 AI 加自動化以及數(shù)字營銷的內(nèi)容，我們下個視頻繼續(xù)聊。

標(biāo)簽：

Claude 2和ChatGPT4-中文應(yīng)答能力測試【實(shí)測對比】google新黑的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Claude 2和ChatGPT4-中文應(yīng)答能力測試【實(shí)測對比】google新黑

Claude 2和ChatGPT4-中文應(yīng)答能力測試【實(shí)測對比】google新黑的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Claude 2和ChatGPT4-中文應(yīng)答能力測試【實(shí)測對比】google新黑

本文作者的其他文章

Claude 2和ChatGPT4-中文應(yīng)答能力測試【實(shí)測對比】google新黑的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

Claude 2和ChatGPT4-中文應(yīng)答能力測試【實(shí)測對比】google新黑的評論 (共條)