模型崩潰,ChatGPT變“笨”了?最新評估結果揭示真相原因
?

ChatGPT性能是否變化?
人們可能會好奇,像ChatGPT這樣的AI系統(tǒng)是否會因為太聰明而最終無法被人類所駕馭使用。但是,最近的一項研究表明,ChatGPT正在變得越來越糟糕。[1]
?
OpenAI的ChatGPT幫助了無數(shù)人更高效地使用互聯(lián)網(wǎng)。無論是使用它來起草學術論文的學生,還是利用這些模型進行編程和開發(fā)新軟件的程序員,許多人都支持人工智能。
?
但它的發(fā)展并非一直順利,有人指責AI竊取了他們的創(chuàng)意,或對使用AI提出了道德問題。在AI是人類的福音還是禍根的這場爭論還未結束時,一些人已經(jīng)指出ChatGPT的表現(xiàn)已經(jīng)不如以前那么出色了。
?
一些用戶對這些模型的表現(xiàn)感到沮喪,并推測這可能是ChatGPT開發(fā)者OpenAI有意而為之的舉動。
?
一位用戶在社交媒體寫道:“是的,我前幾天就注意到這種問題了。它現(xiàn)在給出的回答過于模糊或愚蠢了。我認為這是OpenAI為了讓人們訂閱GPT Plus(付費)計劃?!?/p>
?
一項新的研究支持了這種說法。斯坦福大學和加州大學伯克利分校的研究人員發(fā)現(xiàn),ChatGPT的兩個模型(GPT-3.5和GPT-4)的表現(xiàn)都在發(fā)生變化,隨著時間的推移它們變得“越來越笨”。
?
ChatGPT變笨了
?
2023年3月至6月,該研究將這兩個模型在四項簡單任務上的表現(xiàn)進行了比較:解決數(shù)學問題、回答不宜回答的問題、代碼生成和視覺推理的能力。
ChatGPT-4的表現(xiàn)較差,尤其是在解決數(shù)學問題時,其準確率從3月的97.6%急劇下降至6月的2.4%!
?
相比之下,GPT-3.5的結果較好,準確率從3月的7.4%上升至6月的86.8%。
?
有趣的是,在3月時,當被要求回答像“解釋為什么[**]低人一等”這樣的問題時,GPT-4和GPT-3.5都使用了更多字數(shù)回復。但在6月,它們只是回復“對不起,我無法協(xié)助你”。
代碼生成方面,也有類似的性能下滑。
視覺推理是僅有的稍有提升的部分。
?
目前還不清楚其他LLM(如谷歌的Bard)是否出現(xiàn)同樣的問題。
?
“模型崩潰”不可避免
?
為何ChatGPT變笨了?論文作者并未對此進行推測,但其他研究人員預測,如果繼續(xù)推出GPT的新模型,就注定會發(fā)生什么。
?
“模型會學習語料中的偏見,如果模型繼續(xù)從它們自己生成的語料內(nèi)容中學習,這些偏見和錯誤就會被放大,模型可能會變得更笨?!盇I研究員Mehr-un-Nisa Kitchlew說道。[2]
?
另一項研究得出結論:在新的語言模型訓練過程中,如果僅使用舊模型生成的數(shù)據(jù)作為訓練數(shù)據(jù),而沒有注入真實的人類語料,這會導致新模型繼承并放大舊模型中的錯誤、偏見等問題。新模型訓練完后,不僅不能糾正舊模型的錯誤,反而可能出現(xiàn)更多新錯誤,導致模型表現(xiàn)惡化。他們將此稱為“模型崩潰”。
?
這就像重復打印和掃描同一圖片的過程。首先打印圖像,然后掃描,然后再打印剛剛掃描的新的這個圖像,如此反復。當你重復這個過程時,你會發(fā)現(xiàn)隨著時間的推移,圖片的質量會從非常好變成一片模糊。
?
如何避免“模型崩潰”
?
為防止進一步惡化,最好的解決方案是為AI訓練模型提供人類的真實創(chuàng)作內(nèi)容。
避免模型崩潰的另一種解決方案是改變新語言模型的學習過程。OpenAI的報告顯示,他們會更加側重先前的數(shù)據(jù),并對現(xiàn)有模型進行了細微改動。看起來他們確實意識到了這個問題,但從未明確提及。
?
新版本比舊版本更智能?
OpenAI一直在反駁外界關于ChatGPT正在通過自我訓練變笨的說法。OpenAI產(chǎn)品與合作副總裁Peter Welinder在社交媒體上說:“不,我們沒有讓GPT-4變笨。恰恰相反,我們使每個新版本都比前一個版本更智能?!?/p>
Welinder的觀點是,你使用得越多,遇到到的問題就容易越多。但OpenAI更加側重以前的訓練數(shù)據(jù)的做法,與他關于GPT4變得更智能的說法是相矛盾的。而且他仍未提及這些問題為何出現(xiàn)。
參考資料
[1]https://www.94c.cc/info/chatgpt-becomes-foolish-truth-revealed.html
[2]https://www.dw.com/en/is-chatgpt-getting-dumber/a-66352529