(不定期更新)chatgpt的趣味小測試之語言邏輯,截止于2023.3.31

????????暫時(shí)沒找到比較高清無水印的錄屏軟件,如果找到了考慮以后水個(gè)視頻,比看文章更直觀一些。第一次寫b站專欄,如果有排版方面的意見建議也請指出,謝謝。
????????只對對話內(nèi)容感興趣的讀者可以直接下拉看正片對話部分的圖。
????????這篇文章不是技術(shù)向的文章,不是嚴(yán)謹(jǐn)?shù)恼Z言學(xué)與邏輯學(xué)討論,只是根據(jù)個(gè)人理解和興趣對現(xiàn)在的chatgpt的語言邏輯能力進(jìn)行簡單的測試(圖一樂),如果有讀者有興趣,筆者以后可以更加系統(tǒng)地做一系列的相關(guān)測試。如果有讀者想從學(xué)術(shù)研究層面了解更多,還請直接查閱openai官方發(fā)布的相關(guān)論文,論文闡述了chatgpt在各類常見語言任務(wù)上的表現(xiàn),包括數(shù)據(jù)集性能和具體表現(xiàn)樣例等,本文只是興趣向測試。
????????本文討論的語言邏輯我暫時(shí)沒有找到一個(gè)更準(zhǔn)確的表述,故暫且在此處下一個(gè)筆者的定義:
????????1.語言邏輯能力,主要考察chatgpt對長段落和多輪對話的記憶、理解和回復(fù)能力。在自然語言處理領(lǐng)域之前有很多關(guān)聯(lián)的熱門子任務(wù),例如指代消解、立場檢測、因果推斷等。本文不會嚴(yán)格根據(jù)子任務(wù)類型進(jìn)行探究,而是從生活直覺出發(fā),對常用的邏輯場景進(jìn)行測試。
? ? ????2.語言邏輯區(qū)別于數(shù)字符號邏輯,在與AI的對話中不會出現(xiàn)關(guān)于數(shù)學(xué)運(yùn)算、符號推理等抽象形式的邏輯能力測試,但不排除對話過程中會出現(xiàn)少量必要的數(shù)字與符號。或許會有同學(xué)提問,認(rèn)為語言邏輯都可以抽象成符號邏輯進(jìn)行表述。我們難以得知chatgpt的“大腦”是否是這么做的,但既然存在“抽象”這個(gè)過程就必然存在信息的曲解和丟失,所以我認(rèn)為測試語言邏輯是有意義,且更貼近生活的。
????????此外,在開始測試前,我們還要先了解一些可預(yù)見的問題和爭議:
????????1.語言邏輯難免涉及到常識方面的問題。測試不會選取chatgpt認(rèn)知錯(cuò)誤或不全的知識內(nèi)容進(jìn)行提問。
????????2.由于chatgpt的中文性能遠(yuǎn)低于英文,本測試考慮在對話開頭加入以下prompt以近似測試chatgpt的真實(shí)語言邏輯性能,忽略中英互譯的性能損失:
請你在接下來的對話中,根據(jù)以下要求回答我的提問:1.我的所有提問被翻譯為英文提問后被你接收。2.你使用英文回答該提問,但不需要呈現(xiàn)出來。3.將你的英文回答翻譯成中文回答呈現(xiàn)出來。如果你明白,請回復(fù):“我已經(jīng)學(xué)會了通過翻譯和回譯試圖進(jìn)行更準(zhǔn)確的中文對話。
????????不了解什么是prompt的同學(xué),可以直觀地按如下理解:

? ? ????3.每個(gè)測試之間要清空一部分記憶,以避免無關(guān)上文的干擾(雖然干擾發(fā)生的概率很低)

????????4.本文測試并非嚴(yán)謹(jǐn)測試,如果想嚴(yán)謹(jǐn)考察則需要控制變量,從簡單句、單實(shí)體等情況開始測起,那就太復(fù)雜了,也沒有必要。畢竟現(xiàn)在大家都知道chatgpt有多聰明了(笑)
????廢話夠多了,正片開始:
????(1)向AI請教如何找到女朋友


????

(本人也要在此疊個(gè)甲,該對話沒有對性少數(shù)群體有任何的冒犯意思)


(2)“我”到底有沒有偷錢包?



?(3)“我”到底有沒有偷錢包,進(jìn)化版

????讓我們增加一句陳述:

????修改上一個(gè)提問所增加的陳述:

在上一個(gè)提問中再增加一條陳述:

? ? 清晰分辨何為現(xiàn)實(shí)的AI:

????(4)“東方快車謀殺案”(劇透注意)
????
????“兇手”≠應(yīng)被抓捕的人:

????極其人性化且記性好的AI:

????

? ?言聽計(jì)從:

????雖然言聽計(jì)從,但仍回頭是岸,正確辨析了概念

????類似早期劇本殺,“東方快車謀殺案”挑戰(zhàn)了人的思維盲區(qū)之兇手只有一個(gè)或幾個(gè):

????????測試的簡單總結(jié):
????????chatgpt的語言邏輯能力,在本文的四個(gè)測試中體現(xiàn)包括但不僅限于如下幾種:
????????1.常識理解
? ? ? ? 2.概念理解與區(qū)分
????????3.作為AI這一依托于電腦和網(wǎng)絡(luò)的無實(shí)體存在卻對何為“事實(shí)”有著清晰的認(rèn)知
? ? ? ? 4.遵守法律規(guī)定和流行道德,讓它的回復(fù)邏輯帶著善意
????? ???chatgpt可能存在的語言邏輯缺陷包括:
????????1.對自己生成的內(nèi)容關(guān)注度和理解能力不足。很多用戶都反饋在一些冷門問題或不清晰表述上chatgpt比起早期人工智能的“拒絕回答”,它更喜歡胡言亂語。這也是對生成內(nèi)容關(guān)注不夠的表現(xiàn)。
????????2.對長段落、分段提問的理解能力弱于短句和單一提問。這還體現(xiàn)在要求chatgpt根據(jù)prompt行動(dòng)(例如筆者在未放上來的對“中譯英再譯中”和“讓AI自己訓(xùn)練一個(gè)AI模型”的測試)時(shí),需要大量嘗試修改措辭才能讓chatgpt完全理解意思,因此設(shè)計(jì)好的prompt在現(xiàn)階段仍是善用chatgpt作為生產(chǎn)工具的一個(gè)重要前置技能。
????????3.過于遵守和聽從提問人給出的信息,這對于一個(gè)理想中的高級人工智能是缺陷,但從工具定位上是優(yōu)點(diǎn)。
????????一些無關(guān)總結(jié):
????????chatgpt正在被越來越多人認(rèn)知為是一個(gè)劃時(shí)代的強(qiáng)大的生產(chǎn)工具,筆者也是為了不被時(shí)代大潮所淘汰而開始學(xué)習(xí)使用它。不過由于筆者比較懶散,更希望能從更符合自身興趣的思路出發(fā),這也是更符合人的記憶曲線的做法。另外本文只對AI的能力進(jìn)行測試與探討,請不要拐到對產(chǎn)業(yè)前途、社會政治等敏感話題的討論,筆者感激不盡。有人看的話以后可能還會更新一些更有趣的互動(dòng)或測試主題。
最后是彩蛋部分(可能會做進(jìn)下一個(gè)測試?yán)锏闹黝},關(guān)于chatgpt帶預(yù)設(shè)的語言能力):

? ??