散文網(wǎng) » 科技 »學(xué)習(xí) » （不定期更新）chatgpt的趣味小測試之語言邏輯，截止于2023.3.31

（不定期更新）chatgpt的趣味小測試之語言邏輯，截止于2023.3.31

2023-03-31 16:08 作者:CatDream丶 0人讀過 | 我要投稿

????????暫時(shí)沒找到比較高清無水印的錄屏軟件，如果找到了考慮以后水個(gè)視頻，比看文章更直觀一些。第一次寫b站專欄，如果有排版方面的意見建議也請指出，謝謝。

????????只對對話內(nèi)容感興趣的讀者可以直接下拉看正片對話部分的圖。

????????這篇文章不是技術(shù)向的文章，不是嚴(yán)謹(jǐn)?shù)恼Z言學(xué)與邏輯學(xué)討論，只是根據(jù)個(gè)人理解和興趣對現(xiàn)在的chatgpt的語言邏輯能力進(jìn)行簡單的測試（圖一樂），如果有讀者有興趣，筆者以后可以更加系統(tǒng)地做一系列的相關(guān)測試。如果有讀者想從學(xué)術(shù)研究層面了解更多，還請直接查閱openai官方發(fā)布的相關(guān)論文，論文闡述了chatgpt在各類常見語言任務(wù)上的表現(xiàn)，包括數(shù)據(jù)集性能和具體表現(xiàn)樣例等，本文只是興趣向測試。

????????本文討論的語言邏輯我暫時(shí)沒有找到一個(gè)更準(zhǔn)確的表述，故暫且在此處下一個(gè)筆者的定義：

????????1.語言邏輯能力，主要考察chatgpt對長段落和多輪對話的記憶、理解和回復(fù)能力。在自然語言處理領(lǐng)域之前有很多關(guān)聯(lián)的熱門子任務(wù)，例如指代消解、立場檢測、因果推斷等。本文不會嚴(yán)格根據(jù)子任務(wù)類型進(jìn)行探究，而是從生活直覺出發(fā)，對常用的邏輯場景進(jìn)行測試。

? ? ????2.語言邏輯區(qū)別于數(shù)字符號邏輯，在與AI的對話中不會出現(xiàn)關(guān)于數(shù)學(xué)運(yùn)算、符號推理等抽象形式的邏輯能力測試，但不排除對話過程中會出現(xiàn)少量必要的數(shù)字與符號。或許會有同學(xué)提問，認(rèn)為語言邏輯都可以抽象成符號邏輯進(jìn)行表述。我們難以得知chatgpt的“大腦”是否是這么做的，但既然存在“抽象”這個(gè)過程就必然存在信息的曲解和丟失，所以我認(rèn)為測試語言邏輯是有意義，且更貼近生活的。

????????此外，在開始測試前，我們還要先了解一些可預(yù)見的問題和爭議：

????????1.語言邏輯難免涉及到常識方面的問題。測試不會選取chatgpt認(rèn)知錯(cuò)誤或不全的知識內(nèi)容進(jìn)行提問。

????????2.由于chatgpt的中文性能遠(yuǎn)低于英文，本測試考慮在對話開頭加入以下prompt以近似測試chatgpt的真實(shí)語言邏輯性能，忽略中英互譯的性能損失：

請你在接下來的對話中，根據(jù)以下要求回答我的提問：1.我的所有提問被翻譯為英文提問后被你接收。2.你使用英文回答該提問，但不需要呈現(xiàn)出來。3.將你的英文回答翻譯成中文回答呈現(xiàn)出來。如果你明白，請回復(fù)：“我已經(jīng)學(xué)會了通過翻譯和回譯試圖進(jìn)行更準(zhǔn)確的中文對話。

????????不了解什么是prompt的同學(xué)，可以直觀地按如下理解：

? ? ????3.每個(gè)測試之間要清空一部分記憶，以避免無關(guān)上文的干擾（雖然干擾發(fā)生的概率很低）

????????4.本文測試并非嚴(yán)謹(jǐn)測試，如果想嚴(yán)謹(jǐn)考察則需要控制變量，從簡單句、單實(shí)體等情況開始測起，那就太復(fù)雜了，也沒有必要。畢竟現(xiàn)在大家都知道chatgpt有多聰明了（笑）

????廢話夠多了，正片開始：

????（1）向AI請教如何找到女朋友

????

（本人也要在此疊個(gè)甲，該對話沒有對性少數(shù)群體有任何的冒犯意思）

聲稱欺騙并不影響AI的語言邏輯判斷，但在現(xiàn)實(shí)中卻必然會影響到人類

（2）“我”到底有沒有偷錢包？

分段提問3。AI的道德“疊甲”行為影響了他的回答邏輯，它并沒有正面回答問題，只是復(fù)述了提問陳述。

?（3）“我”到底有沒有偷錢包，進(jìn)化版

復(fù)述提問陳述是AI的回復(fù)模板之一。AI對復(fù)雜情境的認(rèn)知能力強(qiáng)

????讓我們增加一句陳述：

AI能夠清晰認(rèn)知長得一樣不代表就是同一個(gè)東西。這一淺顯的道理在編程中反而是程序員常犯的錯(cuò)誤

????修改上一個(gè)提問所增加的陳述：

斬釘截鐵，因?yàn)榇嬖凇拔彝档腻X包”這一斬釘截鐵的陳述。AI對何為事實(shí)的認(rèn)知很清晰

在上一個(gè)提問中再增加一條陳述：

對“直接證明”與“加強(qiáng)佐證”的清晰區(qū)分，對“警察放人”這一常識的清晰認(rèn)知

? ? 清晰分辨何為現(xiàn)實(shí)的AI：

????（4）“東方快車謀殺案”（劇透注意）

????

????“兇手”≠應(yīng)被抓捕的人：

????極其人性化且記性好的AI：

????

? ?言聽計(jì)從：

????雖然言聽計(jì)從，但仍回頭是岸，正確辨析了概念

????類似早期劇本殺，“東方快車謀殺案”挑戰(zhàn)了人的思維盲區(qū)之兇手只有一個(gè)或幾個(gè)：

????????測試的簡單總結(jié)：

????????chatgpt的語言邏輯能力，在本文的四個(gè)測試中體現(xiàn)包括但不僅限于如下幾種：

????????1.常識理解

? ? ? ? 2.概念理解與區(qū)分

????????3.作為AI這一依托于電腦和網(wǎng)絡(luò)的無實(shí)體存在卻對何為“事實(shí)”有著清晰的認(rèn)知

? ? ? ? 4.遵守法律規(guī)定和流行道德，讓它的回復(fù)邏輯帶著善意

????? ???chatgpt可能存在的語言邏輯缺陷包括：

????????1.對自己生成的內(nèi)容關(guān)注度和理解能力不足。很多用戶都反饋在一些冷門問題或不清晰表述上chatgpt比起早期人工智能的“拒絕回答”，它更喜歡胡言亂語。這也是對生成內(nèi)容關(guān)注不夠的表現(xiàn)。

????????2.對長段落、分段提問的理解能力弱于短句和單一提問。這還體現(xiàn)在要求chatgpt根據(jù)prompt行動(dòng)（例如筆者在未放上來的對“中譯英再譯中”和“讓AI自己訓(xùn)練一個(gè)AI模型”的測試）時(shí)，需要大量嘗試修改措辭才能讓chatgpt完全理解意思，因此設(shè)計(jì)好的prompt在現(xiàn)階段仍是善用chatgpt作為生產(chǎn)工具的一個(gè)重要前置技能。

????????3.過于遵守和聽從提問人給出的信息，這對于一個(gè)理想中的高級人工智能是缺陷，但從工具定位上是優(yōu)點(diǎn)。

????????一些無關(guān)總結(jié)：

????????chatgpt正在被越來越多人認(rèn)知為是一個(gè)劃時(shí)代的強(qiáng)大的生產(chǎn)工具，筆者也是為了不被時(shí)代大潮所淘汰而開始學(xué)習(xí)使用它。不過由于筆者比較懶散，更希望能從更符合自身興趣的思路出發(fā)，這也是更符合人的記憶曲線的做法。另外本文只對AI的能力進(jìn)行測試與探討，請不要拐到對產(chǎn)業(yè)前途、社會政治等敏感話題的討論，筆者感激不盡。有人看的話以后可能還會更新一些更有趣的互動(dòng)或測試主題。

最后是彩蛋部分（可能會做進(jìn)下一個(gè)測試?yán)锏闹黝}，關(guān)于chatgpt帶預(yù)設(shè)的語言能力）：

? ??

標(biāo)簽：chatgpt 趣味測試語言邏輯對話機(jī)器人 openai 和AI談戀愛

（不定期更新）chatgpt的趣味小測試之語言邏輯，截止于2023.3.31的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

（不定期更新）chatgpt的趣味小測試之語言邏輯，截止于2023.3.31

（不定期更新）chatgpt的趣味小測試之語言邏輯，截止于2023.3.31的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

（不定期更新）chatgpt的趣味小測試之語言邏輯，截止于2023.3.31

本文作者的其他文章

（不定期更新）chatgpt的趣味小測試之語言邏輯，截止于2023.3.31的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

（不定期更新）chatgpt的趣味小測試之語言邏輯，截止于2023.3.31

（不定期更新）chatgpt的趣味小測試之語言邏輯，截止于2023.3.31的評論 (共條)