散文網(wǎng) » 生活 »日常 » 新書上市 |《這就是ChatGPT》劉江總編作序

新書上市 |《這就是ChatGPT》劉江總編作序

2023-07-13 14:11 作者:圖靈社區(qū) 0人讀過 | 我要投稿

奇事

本書的主題——ChatGPT可謂奇事。

從2022年11月發(fā)布到現(xiàn)在差不多半年的時(shí)間，ChatGPT所引起的關(guān)注、產(chǎn)生的影響，可能已經(jīng)超越了信息技術(shù)歷史上幾乎所有熱點(diǎn)。

它的用戶數(shù)2天達(dá)到100萬，2個(gè)月達(dá)到1億，打破TikTok之前的記錄。而在2023年5月iOS App發(fā)布后，也毫無懸念地登頂蘋果應(yīng)用商店總排行榜。

許多人平生第一次接觸到如此高智能、知錯(cuò)能改的對(duì)話系統(tǒng)。撰寫文章、雖然很多時(shí)候會(huì)非常自信、“一本正經(jīng)的胡說八道”，甚至簡(jiǎn)單的加減法也算不對(duì)，但你提示它錯(cuò)了，或者讓它一步步地來，它會(huì)很靈地真的變得非?？孔V，有條不紊地列出做事情的步驟，然后得出正確答案。有些復(fù)雜的任務(wù)，你正等著看它笑話呢，它卻不緊不慢地給你言之成理的回答，讓你大吃一驚。

眾多業(yè)界專家也被它征服：

原本不看好甚至在2019年微軟投資OpenAI的決策中投了反對(duì)票的蓋茨，現(xiàn)在將ChatGPT與PC、互聯(lián)網(wǎng)等相提并論，黃仁勛稱之為iPhone時(shí)刻，OpenAI的Sam Altman比作印刷機(jī)，Google CEO Sundar Pichai說是火和電，與騰訊馬化騰“幾百年不遇”的觀點(diǎn)所見略同，總之都是開啟了新時(shí)代。阿里巴巴張勇的建議是：“所有行業(yè)、應(yīng)用、軟件、服務(wù)，都值得基于大模型能力重做一遍”。以馬斯克為代表的很多專家更是因?yàn)镃hatGPT的突破性能力可能對(duì)人類產(chǎn)生威脅，呼吁應(yīng)該暫停強(qiáng)大AI模型的開發(fā)。

剛剛結(jié)束的2023智源大會(huì)上，Sam Altman很自信地說AGI很可能在十年之內(nèi)到來，需要全球合作解決由此帶來的各種問題。而因?yàn)楣餐苿?dòng)深度學(xué)習(xí)從邊緣到舞臺(tái)中央而獲得圖靈獎(jiǎng)的三位科學(xué)家，意見卻明顯不同：

Yann LeCun明確表示GPT代表的自回歸大模型存在本質(zhì)缺陷，需要圍繞世界模型另尋新路，所以他對(duì)AI的威脅并不擔(dān)心。
在另外一位講者插播視頻里出現(xiàn)的Yoshua Bengio雖然也不認(rèn)同單靠GPT路線就能通向AGI（他看好貝葉斯推理與神經(jīng)網(wǎng)絡(luò)的結(jié)合），但承認(rèn)大模型存在巨大潛力，從第一性原理來看也沒有明顯的天花板，因此他在呼吁暫停AI開發(fā)的公開信上簽了字。
壓軸演講的Geoffrey Hinton顯然同意自己的弟子Ilya Sutskever大模型能學(xué)習(xí)到真實(shí)世界壓縮表示的觀點(diǎn)，他意識(shí)到具備反向傳播（通俗地理解就是內(nèi)置知錯(cuò)能改機(jī)制）而且能輕易擴(kuò)大規(guī)模的人工神經(jīng)網(wǎng)絡(luò)，智能可能會(huì)很快超過人類，因此他也加入到呼吁AI風(fēng)險(xiǎn)的隊(duì)伍中來。

ChatGPT代表的人工神經(jīng)網(wǎng)絡(luò)的逆襲之旅，在整個(gè)科技史上也算得上跌宕起伏。它曾經(jīng)在流派眾多的人工智能界內(nèi)部屢受歧視和打擊。不止一位天才先驅(qū)以悲劇結(jié)束一生：

1943年Walter Pitts與Warren McCulloh提出神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)表示時(shí)才20歲，他中學(xué)都沒有念完，后來因?yàn)榕c導(dǎo)師維納失和，脫離學(xué)術(shù)界，因飲酒過度46歲即英年早逝；

1958年30歲時(shí)通過感知機(jī)實(shí)際實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的Frank Rosenblatt，43歲生日溺水身亡；

反向傳播的主要提出者David Rumelhart則是50多歲正值盛年罹患罕見的不治之癥，1998年開始逐漸失智，2011年與病魔斗爭(zhēng)十多年后離世。

……

一些頂級(jí)會(huì)議和明斯基這樣的學(xué)術(shù)巨人都曾毫不客氣地反對(duì)甚至排斥神經(jīng)網(wǎng)絡(luò)，逼得Hinton等人不得不先后采用“關(guān)聯(lián)記憶”、“并行分布式處理”、“卷積網(wǎng)絡(luò)”、“深度學(xué)習(xí)”等更中性或者晦澀的術(shù)語為自己贏得一隅生存空間。

Hinton自己從1970年代開始，堅(jiān)守冷門方向幾十年，從英國到美國最后立足曾經(jīng)的學(xué)術(shù)邊陲加拿大，在資金支持匱乏的情況下努力建立起一個(gè)人數(shù)不多但精英輩出的學(xué)派。

直到2012年他的博士生Ilya Sutskever等在ImageNet比賽中用新方法一飛沖天，深度學(xué)習(xí)開始成為AI的顯學(xué)，并廣泛應(yīng)用于各個(gè)產(chǎn)業(yè)。

2020年，他又在OpenAI帶隊(duì)，通過千億參數(shù)的GPT-3開啟了大模型時(shí)代。

ChatGPT自己的身世也極富戲劇性。

2015年30歲的Sam Altman和28歲的Greg Brockman與馬斯克聯(lián)手，召集了30歲的Ilya Sutskever等多位AI頂級(jí)人才，共同創(chuàng)立OpenAI，希望在谷歌、Facebook等諸多巨頭之外，建立中立的AI前沿科研力量，并雄心勃勃地把人類水平的人工智能作為自己的目標(biāo)。

那時(shí)候，媒體基本上報(bào)道基本上都是以馬斯克支持成立了一家非盈利AI機(jī)構(gòu)為標(biāo)題，并沒有多少人看好OpenAI。甚至Ilya Sutskever這樣的靈魂人物，加入前也經(jīng)過了一番思想斗爭(zhēng)。

前三年，他們?cè)趶?qiáng)化學(xué)習(xí)、機(jī)器人、多智能體、AI安全等方面多線出擊，也的確沒有取得特別有說服力的成果。以至于主要贊助人馬斯克對(duì)進(jìn)展不滿意，動(dòng)念要來直接管理，被理事會(huì)拒絕后，選擇了完全離開。

2019年3月，Sam Altman開始擔(dān)任OpenAI的CEO，并在幾個(gè)月內(nèi)完成了組建商業(yè)公司、獲得微軟10億美元投資等，為后續(xù)發(fā)展做好了準(zhǔn)備。

而科研方面，2014年Olin工學(xué)院本科畢業(yè)兩年后加入OpenAI的Alec Radford開始發(fā)力，作為主要作者，他在Ilya Sutskever等的指導(dǎo)下，連續(xù)完成了PPO(2017)、GPT-1(2018)、GPT-2(2019)、Jukebox(2020)、ImageGPT(2020)、CLIP(2021)、Whisper(2022)等多項(xiàng)開創(chuàng)性工作。尤其是2017年情感神經(jīng)元的工作，開創(chuàng)了“預(yù)測(cè)下一個(gè)字符”的極簡(jiǎn)架構(gòu)結(jié)合大模型、大算力、大數(shù)據(jù)的技術(shù)路線，對(duì)后續(xù)GPT產(chǎn)生了關(guān)鍵影響。

GPT的發(fā)展也不是一帆風(fēng)順的。

從下圖1可以清晰地看到，GPT-1論文發(fā)表之后，OpenAI這種有意為之的更加簡(jiǎn)單的decoder-only架構(gòu)（準(zhǔn)確地講是帶自回歸的encoder-decoder）并沒有得到太多關(guān)注，風(fēng)頭都被幾個(gè)月之后谷歌的BERT（encoder-only架構(gòu)，準(zhǔn)確地講是encoder-非自回歸的decoder）搶去了。出現(xiàn)了一系列xxBERT類的很有影響的工作。

圖1 大模型進(jìn)化樹，出自Amazon楊靖鋒等2023年4月的論文“Harnessing the Power of LLMs in Practice”

即使到今天，后者的引用數(shù)累計(jì)已經(jīng)超過6.8萬，比GPT-1的不到6000仍然高了一個(gè)數(shù)量級(jí)。兩篇論文技術(shù)路線不同，無論是學(xué)術(shù)界還是工業(yè)界，幾乎所有人當(dāng)時(shí)都選擇了BERT陣營。

2019年2月發(fā)布的GPT-2將最大參數(shù)規(guī)模提升到15億級(jí)別，同時(shí)使用了更大規(guī)模、更高質(zhì)量和更多樣的數(shù)據(jù)，模型開始展現(xiàn)很強(qiáng)的通用能力。

當(dāng)時(shí)令GPT-2登上技術(shù)社區(qū)頭條的，還不是研究本身（直到今天論文引用數(shù)也是6000出頭，遠(yuǎn)不如BERT），而是OpenAI出于安全考慮，最開始只開源了最小的3.45億參數(shù)模型，引起軒然大波。社區(qū)對(duì)OpenAI不Open的印象，始自這里。

這前后OpenAI還做了規(guī)模對(duì)語言模型能力影響的研究，提出了“規(guī)模定律”（Scaling Law），確定了整個(gè)組織的主要方向：大模型。為此，將強(qiáng)化學(xué)習(xí)、機(jī)器人等其他方向都砍掉了。難能可貴的是，大部分核心研發(fā)人員選擇了留下，改變自己的研究方向，放棄小我，集中力量做大事，很多人轉(zhuǎn)而做工程和數(shù)據(jù)等工作，或者圍繞大模型重新定位自己的研究方向（比如強(qiáng)化學(xué)習(xí)就在GPT 3.5以及之后的演進(jìn)中發(fā)揮了重大作用）。這種組織上的靈活性，也是OpenAI能成功的重要因素。

2020年GPT-3橫空出世，NLP小圈子里的一些有識(shí)之士開始意識(shí)到OpenAI技術(shù)路線的巨大潛力。在中國，北京智源人工智能研究院聯(lián)合清華大學(xué)等高校推出了GLM、CPM等模型，并積極在國內(nèi)學(xué)術(shù)界推廣大模型理念。從圖1看到，2021年之后，GPT路線已經(jīng)完全占據(jù)上風(fēng)，而BERT這一“物種”的進(jìn)化樹幾乎停止了。

2020年年底，OpenAI的兩位副總Dario和Daniela Amodei兄妹帶領(lǐng)多位GPT-3和安全團(tuán)隊(duì)的同事離開，創(chuàng)辦了Anthropic。Dario Amodei在OpenAI的地位非同一般，他是Ilya Sutskever之外，技術(shù)路線圖的另一個(gè)制定者，也是GPT-2和GPT-3項(xiàng)目以及安全方向的總負(fù)責(zé)人。而隨他離開的，有GPT-3和規(guī)模定律論文的多位核心。

一年后，Anthropic發(fā)表論文“A General Language Assistant as a Laboratory for Alignment” ，開始用聊天助手研究對(duì)齊問題。此后逐漸演變?yōu)镃laude這個(gè)智能聊天產(chǎn)品。

2022年6月，“Emergent Abilities of Large Language Models”論文發(fā)布，一作是從達(dá)特茅斯學(xué)院本科畢業(yè)才兩年的谷歌研究員Jason Wei（今年2月他也在谷歌精英跳槽潮中去了OpenAI）。文中研究了大模型的涌現(xiàn)能力，這類能力在小模型中不存在，只有模型規(guī)模擴(kuò)大到一定量級(jí)才會(huì)出現(xiàn)。也就是我們熟悉的“量變會(huì)導(dǎo)致質(zhì)變”。

到11月中旬，本來一直在研發(fā)GPT-4的OpenAI員工收到管理層的指令，所有工作暫停，全力推出一款聊天工具，原因是有競(jìng)爭(zhēng)。兩周后，ChatGPT誕生。這之后的事情已經(jīng)載入史冊(cè)。

業(yè)界推測(cè)，OpenAI管理層應(yīng)該是得到了Anthropic Claude的進(jìn)展情況，意識(shí)到這一產(chǎn)品的巨大潛力，決定先下手為強(qiáng)。這展現(xiàn)出核心人員超強(qiáng)的戰(zhàn)略判斷力。要知道，即使是ChatGPT的核心研發(fā)人員也不知道為什么產(chǎn)品推出后會(huì)這么火（“我爸媽終于知道我在干什么了”），他們?cè)谧约涸囉脮r(shí)完全沒有驚艷的感覺。

2023年3月，在長達(dá)半年的“評(píng)估、對(duì)抗性測(cè)試和對(duì)模型以及系統(tǒng)級(jí)緩解措施的迭代改進(jìn)”之后，GPT-4發(fā)布。

微軟研究院對(duì)其內(nèi)部版本（能力超出公開發(fā)布的線上版本）研究的結(jié)論是：“在所有這些任務(wù)中，GPT-4的表現(xiàn)與人類水平驚人的接近……鑒于GPT-4的廣度和深度，我們認(rèn)為它可以合理地被視為通用人工智能（AGI）系統(tǒng)早期（但仍然不完整）的版本?！?/p>

此后，國內(nèi)外的企業(yè)和科研機(jī)構(gòu)紛紛跟進(jìn)，幾乎每周都有一個(gè)甚至多個(gè)新模型推出，但綜合能力上OpenAI仍然一騎絕塵，唯一可以與之抗衡的，是Anthropic。

很多人會(huì)問，為什么中國沒有產(chǎn)生ChatGPT？其實(shí)正確的問題（prompt）應(yīng)該是：為什么全世界只有OpenAI能做出ChatGPT？他們成功的原因是什么？對(duì)此的思考，到今天仍有意義。

ChatGPT，真奇事也。

奇人

本書作者Stephen Wolfram可謂奇人。

他雖然并不是馬斯克那種大眾層面婦孺皆知的科技名人，但在科技極客小圈子里確是如雷貫耳的，被稱為“在世的最聰明的人”。

谷歌的創(chuàng)始人之一Sergey Brin大學(xué)期間曾經(jīng)慕名到Wolfram的公司實(shí)習(xí)。而搜狗和百川智能創(chuàng)始人王小川更是他出名的鐵桿粉絲，“帶著崇敬和狂熱的心……關(guān)注和追隨多年”。

Wolfram小時(shí)候是出名的神童。因?yàn)椴恍加诳磳W(xué)校推薦的“蠢書”，而且算術(shù)不好，也不愿意刷已經(jīng)被人解答過的題，一開始老師們還以為這孩子不行。

結(jié)果人家13歲就自己寫了幾本物理書，其中之一名為《亞原子粒子物理》。

15歲在 Australian Journal of Physics 發(fā)表了一篇正兒八經(jīng)的高能物理論文“Hadronic Electrons?”，提出了一種新形式的高能電子-強(qiáng)子耦合。這篇論文還有5次引用。

在英國的伊頓公學(xué)、牛津大學(xué)等名校Wolfram都是晃了幾年，也不怎么上課，他厭惡已經(jīng)被人解決的問題，結(jié)果沒畢業(yè)就跑了，最后20歲在加州理工學(xué)院直接拿了博士，導(dǎo)師是大名鼎鼎的費(fèi)曼。

隨后他留校，成為加州理工學(xué)院的教授。

1981年Wolfram榮獲第一屆麥克阿瑟天才獎(jiǎng)，是最年輕的獲獎(jiǎng)?wù)?。同一批都是各學(xué)科的大家，包括1992年諾貝爾文學(xué)獎(jiǎng)得主沃爾科特。

他很快對(duì)純物理失去了興趣。1983年轉(zhuǎn)到普林斯頓高等研究院，開始研究元胞自動(dòng)機(jī)，希望找到更多自然和社會(huì)現(xiàn)象的底層規(guī)律。

這一轉(zhuǎn)型產(chǎn)生了巨大影響。他成為復(fù)雜系統(tǒng)這一學(xué)科的開創(chuàng)者之一，有人認(rèn)為他做出了諾貝爾獎(jiǎng)級(jí)的工作。20多歲的他也的確與多位諾貝爾獎(jiǎng)得主蓋爾曼、菲利普·安德森（正是他1972年發(fā)表文章“More is Different”提出了涌現(xiàn)這一概念）等一起參與了圣塔菲研究所的早期工作，并在UIUC創(chuàng)立復(fù)雜系統(tǒng)研究中心。他還創(chuàng)辦了學(xué)術(shù)期刊 Complex Systems 。

為了更方便地做元胞自動(dòng)機(jī)相關(guān)的計(jì)算機(jī)實(shí)驗(yàn)，他開發(fā)了數(shù)學(xué)軟件Mathematica（這個(gè)名字還是他的好友喬布斯取的），又進(jìn)而創(chuàng)辦軟件公司W(wǎng)olfram Research，轉(zhuǎn)身為一位成功的企業(yè)家。

Mathematica軟件的強(qiáng)大，大家可以從本書后面對(duì)ChatGPT解讀時(shí)高度抽象和清晰的語法中直觀的感受到。說實(shí)話，這讓我動(dòng)了想認(rèn)真學(xué)一下這一軟件和相關(guān)技術(shù)的念頭。

1991年，Wolfram又返回研究狀態(tài)，開始晝伏夜出，每天深夜埋頭做實(shí)驗(yàn)、寫作長達(dá)十年，出版了1000多頁的巨著 A New Kind of Science。

書中的主要觀點(diǎn)是：萬事皆計(jì)算，宇宙中各種復(fù)雜現(xiàn)象，包括人產(chǎn)生的還是自然中自發(fā)的，都可以用一些規(guī)則簡(jiǎn)單的計(jì)算模擬。

Amazon上書評(píng)的說法可能更好懂：“伽利略曾宣稱自然界是用數(shù)學(xué)的語言書寫的，但Wolfram認(rèn)為自然界是用編程語言（而且是非常簡(jiǎn)單的編程語言）書寫的?！?/p>

而且這些現(xiàn)象或者系統(tǒng)，比如人類大腦的工作和氣象系統(tǒng)的演化，在計(jì)算方面是等效的，具有相同的復(fù)雜度，這稱為“計(jì)算等價(jià)原理”。

書很暢銷，因?yàn)檎Z言很通俗，又有近千幅圖片，但學(xué)術(shù)界尤其是物理老同行也有很多批評(píng)。主要集中在書中的理論并不原創(chuàng)（圖靈關(guān)于計(jì)算復(fù)雜性的工作，康威的生命游戲等都與此類似），而且缺乏數(shù)學(xué)嚴(yán)謹(jǐn)性，因此很多結(jié)論很難經(jīng)得住檢驗(yàn)（比如自然選擇不是生物復(fù)雜性的根本原因，圖靈出版的圖書《量子計(jì)算公開課》的作者Scott Aaronson也指出Wolfram的方法無法解釋量子計(jì)算中非常核心的貝爾測(cè)試的結(jié)果）。

而Wolfram回應(yīng)批評(píng)的方式是推出Wolfram|Alpha知識(shí)計(jì)算引擎，被很多人認(rèn)為是第一個(gè)真正實(shí)用的人工智能技術(shù)，結(jié)合知識(shí)和算法，實(shí)現(xiàn)了用戶采用自然語言發(fā)出命令，系統(tǒng)直接返回答案。全世界的用戶可以通過網(wǎng)頁、Siri、Alexa包括ChatGPT插件來使用這一強(qiáng)大的系統(tǒng)。

如果我們拿ChatGPT代表的神經(jīng)網(wǎng)絡(luò)來看Wolfram的理論，就會(huì)發(fā)現(xiàn)一種暗合關(guān)系：GPT底層的自回歸架構(gòu)，與很多機(jī)器學(xué)習(xí)模型相比，的確可以歸類為“規(guī)則簡(jiǎn)單的計(jì)算”，而其能力也是通過量變累積之下涌現(xiàn)出來的。

Wolfram經(jīng)常為好萊塢的科幻電影做技術(shù)支持，用Mathematica和Wolfram編程語言生成一些逼真的效果，比較著名的包括《星際穿越》里的黑洞引力透鏡效應(yīng)，和《降臨》里掌握了以后能夠超越時(shí)空的神奇外星人語言，都極富想象力。

他當(dāng)年最終離開學(xué)術(shù)界，與普林斯頓同事不和有關(guān)。老師費(fèi)曼寫信勸他：“你不會(huì)理解普通人的想法的，他們對(duì)你來說只是傻瓜。”

我行我素，活出了精彩的人生。

Stephen Wolfram真奇人也。

奇書

奇事+奇人，本書當(dāng)然可謂奇書了。

像Stephen Wolfram這樣的大神能動(dòng)手為廣大讀者關(guān)注度極高的主題寫一本通俗讀物，這本身就是一個(gè)奇跡。

他40年前從純物理轉(zhuǎn)向復(fù)雜系統(tǒng)，就是想解決人類智能等現(xiàn)象的第一性原理，有很深的積累。由于他交游廣泛，與Geffrey Hinton、Ilya Sutskever、Dario Amodei等關(guān)鍵人物都有交流，也有第一手資料，保證了技術(shù)的準(zhǔn)確性。難怪本書出版后，OpenAI的CEO稱之為“ChatGPT原理的最好解釋”。

全書分兩部分，篇幅很小，但是關(guān)于ChatGPT最重要的點(diǎn)都講到了，而且講得通俗透徹。

我在圖靈社區(qū)發(fā)起的“ChatGPT共學(xué)營”，與各種技術(shù)水平、專業(yè)背景的同學(xué)有很多交流，發(fā)現(xiàn)要理解大模型，正確建立一些核心概念，是非常關(guān)鍵的，沒有這些支柱，即使你是資深的算法工程師，認(rèn)知也可能有很大偏差。

比如，GPT技術(shù)路線的一大核心理念，是用最簡(jiǎn)單的自回歸生成架構(gòu)，來解決無監(jiān)督學(xué)習(xí)問題，也就是利用原始的數(shù)據(jù)無需人特意標(biāo)注，然后從中學(xué)習(xí)數(shù)據(jù)中對(duì)世界的映射。其中自回歸生成架構(gòu)，就是書中講得非常通俗的“只是一次添加一個(gè)詞”。這里特別要注意的是，選擇這種架構(gòu)的目的并不是為了做生成任務(wù)，而是為了理解或者學(xué)習(xí)，是為了實(shí)現(xiàn)模型的通用能力。在2020年之前甚至之后的幾年里，業(yè)界很多專業(yè)人士都想當(dāng)然地以為GPT是搞生成任務(wù)的而選擇了無視。殊不知GPT-1論文的標(biāo)題就是“通過生成式預(yù)訓(xùn)練改進(jìn)語言理解”。

再比如，對(duì)于沒有太多技術(shù)背景或者機(jī)器學(xué)習(xí)背景的讀者來說，了解人工智能最新動(dòng)態(tài)時(shí)可能遇到的直接困難，是聽不懂老出現(xiàn)的基本概念“模型”、“參數(shù)（在神經(jīng)網(wǎng)絡(luò)中就是權(quán)重）”是什么意思，而這些概念并不是那么容易講清楚。本書中，大神作者非常貼心地用直觀的例子（函數(shù)和旋鈕）做了解釋。（參見“什么是模型”一節(jié)）

而關(guān)于神經(jīng)網(wǎng)絡(luò)的幾節(jié)內(nèi)容圖文并茂，相信對(duì)各類讀者更深刻地理解神經(jīng)網(wǎng)絡(luò)及其訓(xùn)練過程的本質(zhì)，以及損失函數(shù)、梯度下降等概念都很有幫助。

作者在講解中也沒有忽視思想性，比如下面的段落很好地介紹了深度學(xué)習(xí)的意義：

“深度學(xué)習(xí)”在 2012 年左右的重大突破與如下發(fā)現(xiàn)有關(guān)：與權(quán)重相對(duì)較少時(shí)相比，在涉及許多權(quán)重時(shí)，進(jìn)行最小化（至少近似）可能會(huì)更容易。

換句話說，有時(shí)候用神經(jīng)網(wǎng)絡(luò)解決復(fù)雜問題比解決簡(jiǎn)單問題更容易——這似乎有些違反直覺。大致原因在于，當(dāng)有很多“權(quán)重變量”時(shí)，高維空間中有“很多不同的方向”可以引導(dǎo)我們到達(dá)最小值；而當(dāng)變量較少時(shí)，很容易陷入局部最小值的“山湖”，無法找到“出去的方向”。

這一段講清楚了端到端學(xué)習(xí)的價(jià)值：

在神經(jīng)網(wǎng)絡(luò)的早期發(fā)展階段，人們傾向于認(rèn)為應(yīng)該“讓神經(jīng)網(wǎng)絡(luò)做盡可能少的事”。例如，在將語音轉(zhuǎn)換為文本時(shí)，人們認(rèn)為應(yīng)該先分析語音的音頻，再將其分解為音素，等等。但是后來發(fā)現(xiàn)，（至少對(duì)于“類人任務(wù)”）最好的方法通常是嘗試訓(xùn)練神經(jīng)網(wǎng)絡(luò)來“解決端到端的問題”，讓它自己“發(fā)現(xiàn)”必要的中間特征、編碼等。

掌握這些概念的why，都有益于理解GPT的大背景。

嵌入這個(gè)概念無論對(duì)從事大模型研發(fā)的算法研究者，基于大模型應(yīng)用開發(fā)的程序員，還是想深入了解GPT的普通讀者，都是至關(guān)重要的，也是“ ChatGPT 的中心思想”，但相對(duì)比較抽象，不是特別容易理解。本書“‘嵌入’的概念”一節(jié)是我見過的對(duì)這一概念最好的解釋，通過圖、代碼和文字解讀三種方式，相信大家都能掌握。當(dāng)然，后文中“意義空間和語義運(yùn)動(dòng)定律”一節(jié)還有多張彩圖，可以進(jìn)一步深化這一概念。

本節(jié)最后還介紹了常見詞標(biāo)記（token），并舉了幾個(gè)直觀的英文例子。

接下來對(duì)ChatGPT工作原理和訓(xùn)練過程的介紹也是通俗而不失嚴(yán)謹(jǐn)。對(duì)Transformer這個(gè)比較復(fù)雜的技術(shù)講得非常細(xì)致，而且也如實(shí)告知了目前理論上并沒有搞清楚為什么這樣就有效果。

第一部分最后收尾，結(jié)合作者的計(jì)算不可約理論，將ChatGPT的理解上升到一個(gè)高度，與Illya Sutskever在多個(gè)訪談里強(qiáng)調(diào)的GPT的大思路是通過生成來獲取世界模型的壓縮表示異曲同工。

在我看來，這一段落是非常引人深思的：

產(chǎn)生“有意義的人類語言”需要什么？過去，我們可能認(rèn)為人類大腦必不可少。但現(xiàn)在我們知道，ChatGPT 的神經(jīng)網(wǎng)絡(luò)也可以做得非常出色?！覐?qiáng)烈懷疑 ChatGPT 的成功暗示了一個(gè)重要的“科學(xué)”事實(shí)：有意義的人類語言實(shí)際上比我們所知道的更加結(jié)構(gòu)化、更加簡(jiǎn)單，最終可能以相當(dāng)簡(jiǎn)單的規(guī)則來描述如何組織這樣的語言。

語言是嚴(yán)肅思考、決策和溝通的工具，相比感知、行動(dòng)，從孩子的獲取先后和難易程度來看，應(yīng)該是智能中最難的任務(wù)。但ChatGPT很可能已經(jīng)攻破了其中的密碼，正如Wolfram說的“”。這確實(shí)預(yù)示著未來我們通過計(jì)算語言或者其他表示方式，有可能進(jìn)一步大幅提升整體智能水平。

由此推廣開來，人工智能的進(jìn)展，有可能在各學(xué)科產(chǎn)生類似的效應(yīng)：原來以前認(rèn)為很難的課題，其實(shí)換個(gè)角度并不是那么難的。加上GPT這種通用智能助手的加持，“一些任務(wù)從基本不可能變成了基本可行”，最終使全人類的科技水平達(dá)到新高度。

本書的第二部分是ChatGPT與Wolfram|Alpha 系統(tǒng)對(duì)比與結(jié)合的介紹，有較多實(shí)例。如果說GPT這種通用智能更像人類的話，大部分人類確實(shí)是天生不擅長精確計(jì)算和思考的，未來通用模型與專用模型的結(jié)合，應(yīng)該也是前景廣闊的方向。

稍有遺憾的是，本書重點(diǎn)只講了ChatGPT的預(yù)訓(xùn)練部分，而沒有過多涉及后面也很重要的幾個(gè)微調(diào)步驟：監(jiān)督微調(diào)（SFT）、獎(jiǎng)勵(lì)建模和強(qiáng)化學(xué)習(xí)。這方面比較好的學(xué)習(xí)資料是2023年5月OpenAI創(chuàng)始成員、前Tesla AI負(fù)責(zé)人Andrej Karpathy在微軟Build大會(huì)上的演講“State of GPT”。