新書上市 |《這就是ChatGPT》劉江總編作序
奇事
本書的主題——ChatGPT可謂奇事。
從2022年11月發(fā)布到現(xiàn)在差不多半年的時(shí)間,ChatGPT所引起的關(guān)注、產(chǎn)生的影響,可能已經(jīng)超越了信息技術(shù)歷史上幾乎所有熱點(diǎn)。
它的用戶數(shù)2天達(dá)到100萬,2個(gè)月達(dá)到1億,打破TikTok之前的記錄。而在2023年5月iOS App發(fā)布后,也毫無懸念地登頂蘋果應(yīng)用商店總排行榜。
許多人平生第一次接觸到如此高智能、知錯(cuò)能改的對(duì)話系統(tǒng)。撰寫文章、雖然很多時(shí)候會(huì)非常自信、“一本正經(jīng)的胡說八道”,甚至簡(jiǎn)單的加減法也算不對(duì),但你提示它錯(cuò)了,或者讓它一步步地來,它會(huì)很靈地真的變得非??孔V,有條不紊地列出做事情的步驟,然后得出正確答案。有些復(fù)雜的任務(wù),你正等著看它笑話呢,它卻不緊不慢地給你言之成理的回答,讓你大吃一驚。
眾多業(yè)界專家也被它征服:
原本不看好甚至在2019年微軟投資OpenAI的決策中投了反對(duì)票的蓋茨,現(xiàn)在將ChatGPT與PC、互聯(lián)網(wǎng)等相提并論,黃仁勛稱之為iPhone時(shí)刻,OpenAI的Sam Altman比作印刷機(jī),Google CEO Sundar Pichai說是火和電,與騰訊馬化騰“幾百年不遇”的觀點(diǎn)所見略同,總之都是開啟了新時(shí)代。阿里巴巴張勇的建議是:“所有行業(yè)、應(yīng)用、軟件、服務(wù),都值得基于大模型能力重做一遍”。以馬斯克為代表的很多專家更是因?yàn)镃hatGPT的突破性能力可能對(duì)人類產(chǎn)生威脅,呼吁應(yīng)該暫停強(qiáng)大AI模型的開發(fā)。
剛剛結(jié)束的2023智源大會(huì)上,Sam Altman很自信地說AGI很可能在十年之內(nèi)到來,需要全球合作解決由此帶來的各種問題。而因?yàn)楣餐苿?dòng)深度學(xué)習(xí)從邊緣到舞臺(tái)中央而獲得圖靈獎(jiǎng)的三位科學(xué)家,意見卻明顯不同:
Yann LeCun明確表示GPT代表的自回歸大模型存在本質(zhì)缺陷,需要圍繞世界模型另尋新路,所以他對(duì)AI的威脅并不擔(dān)心。
在另外一位講者插播視頻里出現(xiàn)的Yoshua Bengio雖然也不認(rèn)同單靠GPT路線就能通向AGI(他看好貝葉斯推理與神經(jīng)網(wǎng)絡(luò)的結(jié)合),但承認(rèn)大模型存在巨大潛力,從第一性原理來看也沒有明顯的天花板,因此他在呼吁暫停AI開發(fā)的公開信上簽了字。
壓軸演講的Geoffrey Hinton顯然同意自己的弟子Ilya Sutskever大模型能學(xué)習(xí)到真實(shí)世界壓縮表示的觀點(diǎn),他意識(shí)到具備反向傳播(通俗地理解就是內(nèi)置知錯(cuò)能改機(jī)制)而且能輕易擴(kuò)大規(guī)模的人工神經(jīng)網(wǎng)絡(luò),智能可能會(huì)很快超過人類,因此他也加入到呼吁AI風(fēng)險(xiǎn)的隊(duì)伍中來。
ChatGPT代表的人工神經(jīng)網(wǎng)絡(luò)的逆襲之旅,在整個(gè)科技史上也算得上跌宕起伏。它曾經(jīng)在流派眾多的人工智能界內(nèi)部屢受歧視和打擊。不止一位天才先驅(qū)以悲劇結(jié)束一生:
1943年Walter Pitts與Warren McCulloh提出神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)表示時(shí)才20歲,他中學(xué)都沒有念完,后來因?yàn)榕c導(dǎo)師維納失和,脫離學(xué)術(shù)界,因飲酒過度46歲即英年早逝;
1958年30歲時(shí)通過感知機(jī)實(shí)際實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的Frank Rosenblatt,43歲生日溺水身亡;
反向傳播的主要提出者David Rumelhart則是50多歲正值盛年罹患罕見的不治之癥,1998年開始逐漸失智,2011年與病魔斗爭(zhēng)十多年后離世。
……
一些頂級(jí)會(huì)議和明斯基這樣的學(xué)術(shù)巨人都曾毫不客氣地反對(duì)甚至排斥神經(jīng)網(wǎng)絡(luò),逼得Hinton等人不得不先后采用“關(guān)聯(lián)記憶”、“并行分布式處理”、“卷積網(wǎng)絡(luò)”、“深度學(xué)習(xí)”等更中性或者晦澀的術(shù)語為自己贏得一隅生存空間。
Hinton自己從1970年代開始,堅(jiān)守冷門方向幾十年,從英國到美國最后立足曾經(jīng)的學(xué)術(shù)邊陲加拿大,在資金支持匱乏的情況下努力建立起一個(gè)人數(shù)不多但精英輩出的學(xué)派。
直到2012年他的博士生Ilya Sutskever等在ImageNet比賽中用新方法一飛沖天,深度學(xué)習(xí)開始成為AI的顯學(xué),并廣泛應(yīng)用于各個(gè)產(chǎn)業(yè)。
2020年,他又在OpenAI帶隊(duì),通過千億參數(shù)的GPT-3開啟了大模型時(shí)代。
ChatGPT自己的身世也極富戲劇性。
2015年30歲的Sam Altman和28歲的Greg Brockman與馬斯克聯(lián)手,召集了30歲的Ilya Sutskever等多位AI頂級(jí)人才,共同創(chuàng)立OpenAI,希望在谷歌、Facebook等諸多巨頭之外,建立中立的AI前沿科研力量,并雄心勃勃地把人類水平的人工智能作為自己的目標(biāo)。
那時(shí)候,媒體基本上報(bào)道基本上都是以馬斯克支持成立了一家非盈利AI機(jī)構(gòu)為標(biāo)題,并沒有多少人看好OpenAI。甚至Ilya Sutskever這樣的靈魂人物,加入前也經(jīng)過了一番思想斗爭(zhēng)。
前三年,他們?cè)趶?qiáng)化學(xué)習(xí)、機(jī)器人、多智能體、AI安全等方面多線出擊,也的確沒有取得特別有說服力的成果。以至于主要贊助人馬斯克對(duì)進(jìn)展不滿意,動(dòng)念要來直接管理,被理事會(huì)拒絕后,選擇了完全離開。
2019年3月,Sam Altman開始擔(dān)任OpenAI的CEO,并在幾個(gè)月內(nèi)完成了組建商業(yè)公司、獲得微軟10億美元投資等,為后續(xù)發(fā)展做好了準(zhǔn)備。
而科研方面,2014年Olin工學(xué)院本科畢業(yè)兩年后加入OpenAI的Alec Radford開始發(fā)力,作為主要作者,他在Ilya Sutskever等的指導(dǎo)下,連續(xù)完成了PPO(2017)、GPT-1(2018)、GPT-2(2019)、Jukebox(2020)、ImageGPT(2020)、CLIP(2021)、Whisper(2022)等多項(xiàng)開創(chuàng)性工作。尤其是2017年情感神經(jīng)元的工作,開創(chuàng)了“預(yù)測(cè)下一個(gè)字符”的極簡(jiǎn)架構(gòu)結(jié)合大模型、大算力、大數(shù)據(jù)的技術(shù)路線,對(duì)后續(xù)GPT產(chǎn)生了關(guān)鍵影響。
GPT的發(fā)展也不是一帆風(fēng)順的。
從下圖1可以清晰地看到,GPT-1論文發(fā)表之后,OpenAI這種有意為之的更加簡(jiǎn)單的decoder-only架構(gòu)(準(zhǔn)確地講是帶自回歸的encoder-decoder)并沒有得到太多關(guān)注,風(fēng)頭都被幾個(gè)月之后谷歌的BERT(encoder-only架構(gòu),準(zhǔn)確地講是encoder-非自回歸的decoder)搶去了。出現(xiàn)了一系列xxBERT類的很有影響的工作。

圖1 大模型進(jìn)化樹,出自Amazon楊靖鋒等2023年4月的論文“Harnessing the Power of LLMs in Practice”
即使到今天,后者的引用數(shù)累計(jì)已經(jīng)超過6.8萬,比GPT-1的不到6000仍然高了一個(gè)數(shù)量級(jí)。兩篇論文技術(shù)路線不同,無論是學(xué)術(shù)界還是工業(yè)界,幾乎所有人當(dāng)時(shí)都選擇了BERT陣營。
2019年2月發(fā)布的GPT-2將最大參數(shù)規(guī)模提升到15億級(jí)別,同時(shí)使用了更大規(guī)模、更高質(zhì)量和更多樣的數(shù)據(jù),模型開始展現(xiàn)很強(qiáng)的通用能力。
當(dāng)時(shí)令GPT-2登上技術(shù)社區(qū)頭條的,還不是研究本身(直到今天論文引用數(shù)也是6000出頭,遠(yuǎn)不如BERT),而是OpenAI出于安全考慮,最開始只開源了最小的3.45億參數(shù)模型,引起軒然大波。社區(qū)對(duì)OpenAI不Open的印象,始自這里。
這前后OpenAI還做了規(guī)模對(duì)語言模型能力影響的研究,提出了“規(guī)模定律”(Scaling Law),確定了整個(gè)組織的主要方向:大模型。為此,將強(qiáng)化學(xué)習(xí)、機(jī)器人等其他方向都砍掉了。難能可貴的是,大部分核心研發(fā)人員選擇了留下,改變自己的研究方向,放棄小我,集中力量做大事,很多人轉(zhuǎn)而做工程和數(shù)據(jù)等工作,或者圍繞大模型重新定位自己的研究方向(比如強(qiáng)化學(xué)習(xí)就在GPT 3.5以及之后的演進(jìn)中發(fā)揮了重大作用)。這種組織上的靈活性,也是OpenAI能成功的重要因素。
2020年GPT-3橫空出世,NLP小圈子里的一些有識(shí)之士開始意識(shí)到OpenAI技術(shù)路線的巨大潛力。在中國,北京智源人工智能研究院聯(lián)合清華大學(xué)等高校推出了GLM、CPM等模型,并積極在國內(nèi)學(xué)術(shù)界推廣大模型理念。從圖1看到,2021年之后,GPT路線已經(jīng)完全占據(jù)上風(fēng),而BERT這一“物種”的進(jìn)化樹幾乎停止了。
2020年年底,OpenAI的兩位副總Dario和Daniela Amodei兄妹帶領(lǐng)多位GPT-3和安全團(tuán)隊(duì)的同事離開,創(chuàng)辦了Anthropic。Dario Amodei在OpenAI的地位非同一般,他是Ilya Sutskever之外,技術(shù)路線圖的另一個(gè)制定者,也是GPT-2和GPT-3項(xiàng)目以及安全方向的總負(fù)責(zé)人。而隨他離開的,有GPT-3和規(guī)模定律論文的多位核心。
一年后,Anthropic發(fā)表論文“A General Language Assistant as a Laboratory for Alignment” ,開始用聊天助手研究對(duì)齊問題。此后逐漸演變?yōu)镃laude這個(gè)智能聊天產(chǎn)品。

2022年6月,“Emergent Abilities of Large Language Models”論文發(fā)布,一作是從達(dá)特茅斯學(xué)院本科畢業(yè)才兩年的谷歌研究員Jason Wei(今年2月他也在谷歌精英跳槽潮中去了OpenAI)。文中研究了大模型的涌現(xiàn)能力,這類能力在小模型中不存在,只有模型規(guī)模擴(kuò)大到一定量級(jí)才會(huì)出現(xiàn)。也就是我們熟悉的“量變會(huì)導(dǎo)致質(zhì)變”。
到11月中旬,本來一直在研發(fā)GPT-4的OpenAI員工收到管理層的指令,所有工作暫停,全力推出一款聊天工具,原因是有競(jìng)爭(zhēng)。兩周后,ChatGPT誕生。這之后的事情已經(jīng)載入史冊(cè)。
業(yè)界推測(cè),OpenAI管理層應(yīng)該是得到了Anthropic Claude的進(jìn)展情況,意識(shí)到這一產(chǎn)品的巨大潛力,決定先下手為強(qiáng)。這展現(xiàn)出核心人員超強(qiáng)的戰(zhàn)略判斷力。要知道,即使是ChatGPT的核心研發(fā)人員也不知道為什么產(chǎn)品推出后會(huì)這么火(“我爸媽終于知道我在干什么了”),他們?cè)谧约涸囉脮r(shí)完全沒有驚艷的感覺。
2023年3月,在長達(dá)半年的“評(píng)估、對(duì)抗性測(cè)試和對(duì)模型以及系統(tǒng)級(jí)緩解措施的迭代改進(jìn)”之后,GPT-4發(fā)布。
微軟研究院對(duì)其內(nèi)部版本(能力超出公開發(fā)布的線上版本)研究的結(jié)論是:“在所有這些任務(wù)中,GPT-4的表現(xiàn)與人類水平驚人的接近……鑒于GPT-4的廣度和深度,我們認(rèn)為它可以合理地被視為通用人工智能(AGI)系統(tǒng)早期(但仍然不完整)的版本?!?/p>
此后,國內(nèi)外的企業(yè)和科研機(jī)構(gòu)紛紛跟進(jìn),幾乎每周都有一個(gè)甚至多個(gè)新模型推出,但綜合能力上OpenAI仍然一騎絕塵,唯一可以與之抗衡的,是Anthropic。
很多人會(huì)問,為什么中國沒有產(chǎn)生ChatGPT?其實(shí)正確的問題(prompt)應(yīng)該是:為什么全世界只有OpenAI能做出ChatGPT?他們成功的原因是什么?對(duì)此的思考,到今天仍有意義。
ChatGPT,真奇事也。
奇人
本書作者Stephen Wolfram可謂奇人。

他雖然并不是馬斯克那種大眾層面婦孺皆知的科技名人,但在科技極客小圈子里確是如雷貫耳的,被稱為“在世的最聰明的人”。
谷歌的創(chuàng)始人之一Sergey Brin大學(xué)期間曾經(jīng)慕名到Wolfram的公司實(shí)習(xí)。而搜狗和百川智能創(chuàng)始人王小川更是他出名的鐵桿粉絲,“帶著崇敬和狂熱的心……關(guān)注和追隨多年”。
Wolfram小時(shí)候是出名的神童。因?yàn)椴恍加诳磳W(xué)校推薦的“蠢書”,而且算術(shù)不好,也不愿意刷已經(jīng)被人解答過的題,一開始老師們還以為這孩子不行。
結(jié)果人家13歲就自己寫了幾本物理書,其中之一名為《亞原子粒子物理》。
15歲在 Australian Journal of Physics 發(fā)表了一篇正兒八經(jīng)的高能物理論文“Hadronic Electrons?”,提出了一種新形式的高能電子-強(qiáng)子耦合。這篇論文還有5次引用。

在英國的伊頓公學(xué)、牛津大學(xué)等名校Wolfram都是晃了幾年,也不怎么上課,他厭惡已經(jīng)被人解決的問題,結(jié)果沒畢業(yè)就跑了,最后20歲在加州理工學(xué)院直接拿了博士,導(dǎo)師是大名鼎鼎的費(fèi)曼。
隨后他留校,成為加州理工學(xué)院的教授。
1981年Wolfram榮獲第一屆麥克阿瑟天才獎(jiǎng),是最年輕的獲獎(jiǎng)?wù)?。同一批都是各學(xué)科的大家,包括1992年諾貝爾文學(xué)獎(jiǎng)得主沃爾科特。
他很快對(duì)純物理失去了興趣。1983年轉(zhuǎn)到普林斯頓高等研究院,開始研究元胞自動(dòng)機(jī),希望找到更多自然和社會(huì)現(xiàn)象的底層規(guī)律。
這一轉(zhuǎn)型產(chǎn)生了巨大影響。他成為復(fù)雜系統(tǒng)這一學(xué)科的開創(chuàng)者之一,有人認(rèn)為他做出了諾貝爾獎(jiǎng)級(jí)的工作。20多歲的他也的確與多位諾貝爾獎(jiǎng)得主蓋爾曼、菲利普·安德森(正是他1972年發(fā)表文章“More is Different”提出了涌現(xiàn)這一概念)等一起參與了圣塔菲研究所的早期工作,并在UIUC創(chuàng)立復(fù)雜系統(tǒng)研究中心。他還創(chuàng)辦了學(xué)術(shù)期刊 Complex Systems 。
為了更方便地做元胞自動(dòng)機(jī)相關(guān)的計(jì)算機(jī)實(shí)驗(yàn),他開發(fā)了數(shù)學(xué)軟件Mathematica(這個(gè)名字還是他的好友喬布斯取的),又進(jìn)而創(chuàng)辦軟件公司W(wǎng)olfram Research,轉(zhuǎn)身為一位成功的企業(yè)家。
Mathematica軟件的強(qiáng)大,大家可以從本書后面對(duì)ChatGPT解讀時(shí)高度抽象和清晰的語法中直觀的感受到。說實(shí)話,這讓我動(dòng)了想認(rèn)真學(xué)一下這一軟件和相關(guān)技術(shù)的念頭。
1991年,Wolfram又返回研究狀態(tài),開始晝伏夜出,每天深夜埋頭做實(shí)驗(yàn)、寫作長達(dá)十年,出版了1000多頁的巨著 A New Kind of Science。
書中的主要觀點(diǎn)是:萬事皆計(jì)算,宇宙中各種復(fù)雜現(xiàn)象,包括人產(chǎn)生的還是自然中自發(fā)的,都可以用一些規(guī)則簡(jiǎn)單的計(jì)算模擬。
Amazon上書評(píng)的說法可能更好懂:“伽利略曾宣稱自然界是用數(shù)學(xué)的語言書寫的,但Wolfram認(rèn)為自然界是用編程語言(而且是非常簡(jiǎn)單的編程語言)書寫的?!?/p>
而且這些現(xiàn)象或者系統(tǒng),比如人類大腦的工作和氣象系統(tǒng)的演化,在計(jì)算方面是等效的,具有相同的復(fù)雜度,這稱為“計(jì)算等價(jià)原理”。
書很暢銷,因?yàn)檎Z言很通俗,又有近千幅圖片,但學(xué)術(shù)界尤其是物理老同行也有很多批評(píng)。主要集中在書中的理論并不原創(chuàng)(圖靈關(guān)于計(jì)算復(fù)雜性的工作,康威的生命游戲等都與此類似),而且缺乏數(shù)學(xué)嚴(yán)謹(jǐn)性,因此很多結(jié)論很難經(jīng)得住檢驗(yàn)(比如自然選擇不是生物復(fù)雜性的根本原因,圖靈出版的圖書《量子計(jì)算公開課》的作者Scott Aaronson也指出Wolfram的方法無法解釋量子計(jì)算中非常核心的貝爾測(cè)試的結(jié)果)。
而Wolfram回應(yīng)批評(píng)的方式是推出Wolfram|Alpha知識(shí)計(jì)算引擎,被很多人認(rèn)為是第一個(gè)真正實(shí)用的人工智能技術(shù),結(jié)合知識(shí)和算法,實(shí)現(xiàn)了用戶采用自然語言發(fā)出命令,系統(tǒng)直接返回答案。全世界的用戶可以通過網(wǎng)頁、Siri、Alexa包括ChatGPT插件來使用這一強(qiáng)大的系統(tǒng)。
如果我們拿ChatGPT代表的神經(jīng)網(wǎng)絡(luò)來看Wolfram的理論,就會(huì)發(fā)現(xiàn)一種暗合關(guān)系:GPT底層的自回歸架構(gòu),與很多機(jī)器學(xué)習(xí)模型相比,的確可以歸類為“規(guī)則簡(jiǎn)單的計(jì)算”,而其能力也是通過量變累積之下涌現(xiàn)出來的。
Wolfram經(jīng)常為好萊塢的科幻電影做技術(shù)支持,用Mathematica和Wolfram編程語言生成一些逼真的效果,比較著名的包括《星際穿越》里的黑洞引力透鏡效應(yīng),和《降臨》里掌握了以后能夠超越時(shí)空的神奇外星人語言,都極富想象力。


他當(dāng)年最終離開學(xué)術(shù)界,與普林斯頓同事不和有關(guān)。老師費(fèi)曼寫信勸他:“你不會(huì)理解普通人的想法的,他們對(duì)你來說只是傻瓜。”
我行我素,活出了精彩的人生。
Stephen Wolfram真奇人也。
奇書
奇事+奇人,本書當(dāng)然可謂奇書了。
像Stephen Wolfram這樣的大神能動(dòng)手為廣大讀者關(guān)注度極高的主題寫一本通俗讀物,這本身就是一個(gè)奇跡。
他40年前從純物理轉(zhuǎn)向復(fù)雜系統(tǒng),就是想解決人類智能等現(xiàn)象的第一性原理,有很深的積累。由于他交游廣泛,與Geffrey Hinton、Ilya Sutskever、Dario Amodei等關(guān)鍵人物都有交流,也有第一手資料,保證了技術(shù)的準(zhǔn)確性。難怪本書出版后,OpenAI的CEO稱之為“ChatGPT原理的最好解釋”。
全書分兩部分,篇幅很小,但是關(guān)于ChatGPT最重要的點(diǎn)都講到了,而且講得通俗透徹。
我在圖靈社區(qū)發(fā)起的“ChatGPT共學(xué)營”,與各種技術(shù)水平、專業(yè)背景的同學(xué)有很多交流,發(fā)現(xiàn)要理解大模型,正確建立一些核心概念,是非常關(guān)鍵的,沒有這些支柱,即使你是資深的算法工程師,認(rèn)知也可能有很大偏差。
比如,GPT技術(shù)路線的一大核心理念,是用最簡(jiǎn)單的自回歸生成架構(gòu),來解決無監(jiān)督學(xué)習(xí)問題,也就是利用原始的數(shù)據(jù)無需人特意標(biāo)注,然后從中學(xué)習(xí)數(shù)據(jù)中對(duì)世界的映射。其中自回歸生成架構(gòu),就是書中講得非常通俗的“只是一次添加一個(gè)詞”。這里特別要注意的是,選擇這種架構(gòu)的目的并不是為了做生成任務(wù),而是為了理解或者學(xué)習(xí),是為了實(shí)現(xiàn)模型的通用能力。在2020年之前甚至之后的幾年里,業(yè)界很多專業(yè)人士都想當(dāng)然地以為GPT是搞生成任務(wù)的而選擇了無視。殊不知GPT-1論文的標(biāo)題就是“通過生成式預(yù)訓(xùn)練改進(jìn)語言理解”。
再比如,對(duì)于沒有太多技術(shù)背景或者機(jī)器學(xué)習(xí)背景的讀者來說,了解人工智能最新動(dòng)態(tài)時(shí)可能遇到的直接困難,是聽不懂老出現(xiàn)的基本概念“模型”、“參數(shù)(在神經(jīng)網(wǎng)絡(luò)中就是權(quán)重)”是什么意思,而這些概念并不是那么容易講清楚。本書中,大神作者非常貼心地用直觀的例子(函數(shù)和旋鈕)做了解釋。(參見“什么是模型”一節(jié))
而關(guān)于神經(jīng)網(wǎng)絡(luò)的幾節(jié)內(nèi)容圖文并茂,相信對(duì)各類讀者更深刻地理解神經(jīng)網(wǎng)絡(luò)及其訓(xùn)練過程的本質(zhì),以及損失函數(shù)、梯度下降等概念都很有幫助。
作者在講解中也沒有忽視思想性,比如下面的段落很好地介紹了深度學(xué)習(xí)的意義:
“深度學(xué)習(xí)”在 2012 年左右的重大突破與如下發(fā)現(xiàn)有關(guān):與權(quán)重相對(duì)較少時(shí)相比,在涉及許多權(quán)重時(shí),進(jìn)行最小化 (至少近似)可能會(huì)更容易。
換句話說,有時(shí)候用神經(jīng)網(wǎng)絡(luò)解決復(fù)雜問題比解決簡(jiǎn)單問題更容易——這似乎有些違反直覺。大致原因在于,當(dāng)有很多“權(quán)重變量”時(shí),高維空間中有“很多不同的方向”可以引導(dǎo)我們到達(dá)最小值;而當(dāng)變量較少時(shí),很容易陷入局部最小值的“山湖”,無法找到“出去的方向”。
這一段講清楚了端到端學(xué)習(xí)的價(jià)值:
在神經(jīng)網(wǎng)絡(luò)的早期發(fā)展階段,人們傾向于認(rèn)為應(yīng)該“讓神經(jīng)網(wǎng)絡(luò)做 盡可能少的事”。例如,在將語音轉(zhuǎn)換為文本時(shí),人們認(rèn)為應(yīng)該先 分析語音的音頻,再將其分解為音素,等等。但是后來發(fā)現(xiàn),(至 少對(duì)于“類人任務(wù)”)最好的方法通常是嘗試訓(xùn)練神經(jīng)網(wǎng)絡(luò)來“解 決端到端的問題”,讓它自己“發(fā)現(xiàn)”必要的中間特征、編碼等。
掌握這些概念的why,都有益于理解GPT的大背景。
嵌入這個(gè)概念無論對(duì)從事大模型研發(fā)的算法研究者,基于大模型應(yīng)用開發(fā)的程序員,還是想深入了解GPT的普通讀者,都是至關(guān)重要的,也是“ ChatGPT 的中心思想”,但相對(duì)比較抽象,不是特別容易理解。本書“‘嵌入’的概念”一節(jié)是我見過的對(duì)這一概念最好的解釋,通過圖、代碼和文字解讀三種方式,相信大家都能掌握。當(dāng)然,后文中“意義空間和語義運(yùn)動(dòng)定律”一節(jié)還有多張彩圖,可以進(jìn)一步深化這一概念。
本節(jié)最后還介紹了常見詞標(biāo)記(token),并舉了幾個(gè)直觀的英文例子。
接下來對(duì)ChatGPT工作原理和訓(xùn)練過程的介紹也是通俗而不失嚴(yán)謹(jǐn)。對(duì)Transformer這個(gè)比較復(fù)雜的技術(shù)講得非常細(xì)致,而且也如實(shí)告知了目前理論上并沒有搞清楚為什么這樣就有效果。
第一部分最后收尾,結(jié)合作者的計(jì)算不可約理論,將ChatGPT的理解上升到一個(gè)高度,與Illya Sutskever在多個(gè)訪談里強(qiáng)調(diào)的GPT的大思路是通過生成來獲取世界模型的壓縮表示異曲同工。
在我看來,這一段落是非常引人深思的:
產(chǎn)生“有意義的人類語言”需要什么?過去,我們可能認(rèn)為人類大腦必不可少。但現(xiàn)在我們知道,ChatGPT 的神經(jīng)網(wǎng)絡(luò)也可以做得非常出色?!覐?qiáng)烈懷疑 ChatGPT 的成功暗示了一個(gè)重要的“科學(xué)”事實(shí):有意義的人類語言實(shí)際上比我們所知道的更加結(jié)構(gòu)化、更加簡(jiǎn)單,最終可能以相當(dāng)簡(jiǎn)單的規(guī)則來描述如何組織這樣的語言。
語言是嚴(yán)肅思考、決策和溝通的工具,相比感知、行動(dòng),從孩子的獲取先后和難易程度來看,應(yīng)該是智能中最難的任務(wù)。但ChatGPT很可能已經(jīng)攻破了其中的密碼,正如Wolfram說的“”。這確實(shí)預(yù)示著未來我們通過計(jì)算語言或者其他表示方式,有可能進(jìn)一步大幅提升整體智能水平。
由此推廣開來,人工智能的進(jìn)展,有可能在各學(xué)科產(chǎn)生類似的效應(yīng):原來以前認(rèn)為很難的課題,其實(shí)換個(gè)角度并不是那么難的。加上GPT這種通用智能助手的加持,“一些任務(wù)從基本不可能變成了基本可行”,最終使全人類的科技水平達(dá)到新高度。
本書的第二部分是ChatGPT與Wolfram|Alpha 系統(tǒng)對(duì)比與結(jié)合的介紹,有較多實(shí)例。如果說GPT這種通用智能更像人類的話,大部分人類確實(shí)是天生不擅長精確計(jì)算和思考的,未來通用模型與專用模型的結(jié)合,應(yīng)該也是前景廣闊的方向。
稍有遺憾的是,本書重點(diǎn)只講了ChatGPT的預(yù)訓(xùn)練部分,而沒有過多涉及后面也很重要的幾個(gè)微調(diào)步驟:監(jiān)督微調(diào)(SFT)、獎(jiǎng)勵(lì)建模和強(qiáng)化學(xué)習(xí)。這方面比較好的學(xué)習(xí)資料是2023年5月OpenAI創(chuàng)始成員、前Tesla AI負(fù)責(zé)人Andrej Karpathy在微軟Build大會(huì)上的演講“State of GPT”。

