■ ChatGPT 是網(wǎng)絡(luò)文本的一張“JPEG”
■ ChatGPT 是網(wǎng)絡(luò)文本的一張“JPEG”
可將 ChatGPT 等大語(yǔ)言模型視為網(wǎng)上所有文本的壓縮數(shù)據(jù)。就像一張模糊的JPEG,是對(duì)圖片的有損壓縮。GPT對(duì)文本內(nèi)容的補(bǔ)全和JPEG數(shù)據(jù)恢復(fù)成圖像,都是在已有數(shù)據(jù)基礎(chǔ)上,根據(jù)概率,對(duì)缺失數(shù)據(jù)進(jìn)行填充。
這一精妙的類(lèi)比來(lái)自 Ted Chiang 發(fā)表在 Newyorker 的文章。Ted Chiang 是科幻小說(shuō)《你一生的故事》的作者,這部小說(shuō)在2016年被改編成電影《降臨》。
> https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web
文中還有提到壓縮文本和理解文本的關(guān)系,也做了一個(gè)類(lèi)比:
假設(shè)有個(gè)寫(xiě)了一百萬(wàn)個(gè)加減乘除四則算式的文本文件要壓縮。盡管任何壓縮算法都可以減小這個(gè)文件的大小,但要達(dá)到最大壓縮率的方法可能是推導(dǎo)出算術(shù)原理,然后編寫(xiě)計(jì)算器程序的代碼。使用計(jì)算器,你不僅可以完美地重構(gòu)文件中的數(shù)百萬(wàn)個(gè)示例,還可以重構(gòu)原文本中沒(méi)有的,將來(lái)可能遇到的任何的四則算式。
對(duì)于人類(lèi)學(xué)生來(lái)說(shuō),死記硬背并不是真正學(xué)習(xí)的指標(biāo),因此 ChatGPT 無(wú)法從網(wǎng)頁(yè)中生成準(zhǔn)確的引述正是讓我們認(rèn)為它學(xué)到了一些東西的原因。當(dāng)我們處理單詞序列時(shí),有損壓縮看起來(lái)比無(wú)損壓縮更聰明。
當(dāng)然,ChatGPT 還推導(dǎo)不出算數(shù)原理。這些類(lèi)比也只是輔助我們理解技術(shù)。