譯學(xué)文獻(xiàn) | GPT與語言研究
語言智能與外語教育變革專欄
馮志偉 教授
新疆大學(xué)
教授、博士生導(dǎo)師,教育部語言文字應(yīng)用研究所研究員,新疆大學(xué)天山學(xué)者,黑龍江大學(xué)兼職研究員。出版論著30多部,發(fā)表論文400多篇,主持研制國際標(biāo)準(zhǔn)1項(xiàng)、國家標(biāo)準(zhǔn)1項(xiàng)、國家規(guī)范3項(xiàng),參與研制國家標(biāo)準(zhǔn)13項(xiàng)。擔(dān)任國內(nèi)外著名雜志編委,2006年獲奧地利維斯特獎(jiǎng),2018年獲中國計(jì)算機(jī)學(xué)會(huì)NLPCC 杰出貢獻(xiàn)獎(jiǎng),2021年獲中國中文信息學(xué)會(huì)會(huì)士稱號(hào),2022年獲香港圣弗朗西斯科技人文獎(jiǎng)。主要研究方向?yàn)橛?jì)算語言學(xué)、理論語言學(xué)、術(shù)語學(xué)。
張燈柯
新疆大學(xué)講師,主要研究方向?yàn)橛?jì)算語言學(xué)、維吾爾語-漢語翻譯。
GPT與語言研究
新疆大學(xué) 馮志偉 張燈柯
摘要:本文描述了GPT的發(fā)展歷程,分析了生成式預(yù)訓(xùn)練模型的特點(diǎn),說明了GPT給外語教學(xué)和語言服務(wù)行業(yè)帶來的機(jī)遇和挑戰(zhàn)。本文還比較了喬姆斯基關(guān)于語言知識(shí)的本質(zhì)、來源和使用的理論與GPT的不同,說明了GPT沒有可解釋性。最后本文指出,由于GPT沒有可解釋性,可能帶來深遠(yuǎn)的風(fēng)險(xiǎn)。
關(guān)鍵詞:人工智能 GPT 預(yù)訓(xùn)練模型 大語言模型 涌現(xiàn) 可解釋性
01、自然語言處理的四個(gè)范式
自然語言處理(Natural Language Processing, NLP)大約經(jīng)歷了四個(gè)不同的階段,這四個(gè)階段可以歸納為四個(gè)范式(paradigm)。自然語言處理范式是自然語言處理系統(tǒng)的工作模式(working model),回顧從1954年第一次機(jī)器翻譯試驗(yàn)開始的自然語言處理的歷程,自然語言處理的范式已經(jīng)歷了三代變遷,現(xiàn)在開始進(jìn)入第四代。第一代自然語言處理范式是“詞典+規(guī)則”(dictionary/lexicon+rule)范式,流行于20世紀(jì)50年代至20世紀(jì)90年代。第二代自然語言處理范式是“數(shù)據(jù)驅(qū)動(dòng)+統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型”范式,簡稱為“統(tǒng)計(jì)模型”(statistical models)范式,流行于20世紀(jì)90年代至2012年。第三代自然語言處理范式是“神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型”范式,簡稱為“深度學(xué)習(xí)模型”(deep learning models)范式,流行于2012年至2018年前后。第四代自然語言處理范式是“預(yù)訓(xùn)練模型”(pre-trained models)范式,流行于2018年以后,直到現(xiàn)在。
02、預(yù)訓(xùn)練范式
在當(dāng)前的自然語言處理研究中,語言數(shù)據(jù)資源的貧乏是一個(gè)非常嚴(yán)重的問題,幾百萬個(gè)句子的語料都不能算作是大數(shù)據(jù)(big data)。為了解決語言數(shù)據(jù)貧乏的問題,學(xué)者開始探討小規(guī)模語言數(shù)據(jù)資源下自然語言處理的可行性問題,因而提出了“預(yù)訓(xùn)練語言模型”(Pre-trained Language Models),如圖1所示。
圖1 預(yù)訓(xùn)練語言模型(馮志偉、李穎, 2021)
在圖1中,這樣的語言模型使用大規(guī)模的文本語料庫數(shù)據(jù)(Large-scale text corpus)進(jìn)行“預(yù)訓(xùn)練”(Pre-training),建立“預(yù)訓(xùn)練語言模型”,然后使用面向特定任務(wù)的小規(guī)模語言數(shù)據(jù)集(Task datasets),根據(jù)遷移學(xué)習(xí)的原理進(jìn)行“微調(diào)”(Fine-tuning),形成“下游任務(wù)的模型”(Models for downstream tasks)。
這樣的預(yù)訓(xùn)練語言模型新范式使得研究者能夠?qū)W⒂谔囟ǖ娜蝿?wù),而適用于各種任務(wù)的通用的預(yù)訓(xùn)練語言模型可以降低自然語言處理系統(tǒng)的研制難度,從而加快了自然語言處理研究創(chuàng)新的步伐(馮志偉等, 2023)。使用這樣的“預(yù)訓(xùn)練范式”,研究人員設(shè)計(jì)出各種預(yù)訓(xùn)練模型,這些預(yù)訓(xùn)練模型可以把通過預(yù)訓(xùn)練從大規(guī)模文本數(shù)據(jù)中學(xué)習(xí)到的語言知識(shí)遷移到下游的自然語言處理和生成任務(wù)模型的學(xué)習(xí)中。預(yù)訓(xùn)練模型在幾乎所有自然語言處理的下游任務(wù)上都表現(xiàn)出了優(yōu)異的性能。預(yù)訓(xùn)練模型也從單語言的預(yù)訓(xùn)練模型擴(kuò)展到了多語言和多模態(tài)的預(yù)訓(xùn)練模型,并在相應(yīng)的下游任務(wù)上都表現(xiàn)出色,這進(jìn)一步驗(yàn)證了預(yù)訓(xùn)練模型確實(shí)是一個(gè)功能強(qiáng)大的大語言模型(Large Language Model, LLM)。
當(dāng)前發(fā)布的預(yù)訓(xùn)練模型出現(xiàn)了如下幾個(gè)趨勢:第一,預(yù)訓(xùn)練模型的規(guī)模越來越大,參數(shù)越來越多。從 ELMo(AI2研制) 的9300萬參數(shù),到 BERT(Google研制) 的3億4千萬參數(shù),以及到 GPT-2(OpenAI研制) 的15億參數(shù)和 T5(Google研制) 的 1110億參數(shù),預(yù)訓(xùn)練模型越來越大。第二,預(yù)訓(xùn)練用到的文本數(shù)據(jù)越來越多。由于預(yù)訓(xùn)練模型的規(guī)模越來越大,預(yù)訓(xùn)練用到的文本數(shù)據(jù)也越來越多, GPT-1為8億單詞, GPT-2為400億單詞, GPT-3為5000億單詞。第三,預(yù)訓(xùn)練的任務(wù)越來越廣。預(yù)訓(xùn)練模型開始的時(shí)候,主要是面向自然語言理解,然后發(fā)展到支持自然語言生成,最新的預(yù)訓(xùn)練模型可以同時(shí)支持自然語言理解和自然語言生成。例如, Microsoft的UniLM、 Google的T5和Facebook的BART等預(yù)訓(xùn)練模型都能支持多種自然語言處理的任務(wù)。
03、GPT系列
由OpenAI公司開發(fā)的基于轉(zhuǎn)換器的生成式預(yù)訓(xùn)練模型(Generative Pre-trained Transformer, GPT)已經(jīng)成為當(dāng)前自然語言處理研究的核心技術(shù),包括GPT-1、 GPT-2、 GPT-3、 InstructGPT、 ChatGPT、 GPT-4,我們把它們統(tǒng)稱為GPT系列,簡稱為GPT。GPT利用轉(zhuǎn)換器模型,從語言大數(shù)據(jù)中獲取了豐富的語言知識(shí),GPT在語言生成任務(wù)上達(dá)到了相當(dāng)高的水平。這樣一來,GPT便成為深度學(xué)習(xí)時(shí)代自然語言處理研究的最重要的神經(jīng)網(wǎng)絡(luò)模型。GPT系列的訓(xùn)練參數(shù)越來越多,性能越來越好。
2018年6月開發(fā)的GPT-1有1.17億參數(shù)。它使用預(yù)測下一個(gè)單詞的方式訓(xùn)練出基礎(chǔ)的語言模型,然后針對分類、蘊(yùn)含、近義、多選等下游任務(wù),使用特定數(shù)據(jù)集,更新模型參數(shù),對模型進(jìn)行調(diào)優(yōu)與適配。
2019年2月開發(fā)的GPT-2有15億參數(shù), GPT-2開始訓(xùn)練的數(shù)據(jù)取自社交站點(diǎn)Reddit上的文章,累計(jì)有800萬篇文章。它通過多任務(wù)學(xué)習(xí),獲得了遷移學(xué)習(xí)的能力,能夠在零樣本(zero-shot)設(shè)定下執(zhí)行各類任務(wù),無需進(jìn)行任何參數(shù)或架構(gòu)修改,具有一定的自我糾偏能力。
2020年5月, GPT-3啟動(dòng),有1750億參數(shù),開始了大規(guī)模的機(jī)器學(xué)習(xí),把能獲取到的人類書籍、學(xué)術(shù)論文、新聞、高質(zhì)量的各種信息作為學(xué)習(xí)內(nèi)容,參數(shù)總量約是GPT-2參數(shù)的117倍。GPT-3顯示出強(qiáng)大的上下文學(xué)習(xí)(in-context learning)能力,用戶只要使用少量的示例就可以說明任務(wù),如用戶只要給出幾對英語到法語的單詞作為示例,再給出一個(gè)英語單詞,GPT-3就可以理解用戶意圖是要進(jìn)行翻譯,繼而給出對應(yīng)的法語單詞譯文。
OpenAI在此基礎(chǔ)上于2022年1月開發(fā)出InstructGPT,形成了“基于人類反饋的強(qiáng)化學(xué)習(xí)方案”(Reinforcement Learning from Human Feedback, RLHF),通過人類的反饋來提高系統(tǒng)的性能。接著又增強(qiáng)了安全性(safety),清理文本數(shù)據(jù),力爭把有害的、錯(cuò)誤的、不合乎倫理規(guī)范的內(nèi)容減少到最低限度。OpenAI在此基礎(chǔ)上開發(fā)出ChatGPT。ChatGPT的訓(xùn)練語料高達(dá)100億個(gè)句子,約5000億個(gè)詞,訓(xùn)練的總文本超過45T。ChatGPT可以通過使用大量的訓(xùn)練數(shù)據(jù)來模擬人的語言行為,生成人類可以理解的文本,并能夠根據(jù)上下文語境,提供恰當(dāng)?shù)幕卮穑踔吝€能進(jìn)行句法分析和語義分析,幫助用戶調(diào)試計(jì)算機(jī)程序,寫計(jì)算機(jī)程序的代碼,而且能夠通過人類反饋的信息,不斷改善生成的功能,已經(jīng)達(dá)到了很強(qiáng)的自然語言生成能力。ChatGPT使用轉(zhuǎn)換器(transformer)進(jìn)行訓(xùn)練,在訓(xùn)練過程中,使用海量的自然語言文本數(shù)據(jù)來學(xué)習(xí)單詞的嵌入表示以及上下文之間的關(guān)系,形成知識(shí)表示(knowledge representation)。一旦訓(xùn)練完成,知識(shí)表示就被編碼在神經(jīng)網(wǎng)絡(luò)的參數(shù)中,可以使用這些參數(shù)來生成回答。當(dāng)用戶提出問題時(shí),神經(jīng)網(wǎng)絡(luò)就根據(jù)已經(jīng)學(xué)習(xí)到的知識(shí),把回答返回給用戶。
ChatGPT是一種對話場景優(yōu)化語言模型(optimizing language models for dialogue)。這個(gè)時(shí)候的ChatGPT已經(jīng)進(jìn)化到具備執(zhí)行自然語言指令的能力,用戶不必給出示例,只要使用自然語言給出指令,ChatGPT就可以理解用戶意圖。例如,用戶只要直接告訴ChatGPT把某個(gè)英語單詞譯成法語,它就可以執(zhí)行,并給出翻譯結(jié)果。ChatGPT可以根據(jù)上下文提示,自動(dòng)理解并執(zhí)行各類任務(wù),不必更新模型參數(shù)或架構(gòu)。2022年11月30日, ChatGPT開放公眾測試,真正實(shí)現(xiàn)了完全自主的“人工智能內(nèi)容生成”(AI Generated Content,AIGC),包括文本生成、代碼生成、視頻生成、文本問答、圖像生成、論文寫作、影視創(chuàng)作、科學(xué)實(shí)驗(yàn)設(shè)計(jì)等。
現(xiàn)在的ChatGPT是由效果比GPT-3更強(qiáng)大的GPT-3.5系列模型提供支持的,這些模型使用微軟Azure AI超級計(jì)算基礎(chǔ)設(shè)施上的文本和代碼數(shù)據(jù)進(jìn)行訓(xùn)練。交互式是ChatGPT的一大優(yōu)點(diǎn),用戶可以自如地與ChatGPT進(jìn)行多輪對話,ChatGPT的回答是連續(xù)的、穩(wěn)定的、一致的,用戶與ChatGPT對話,就像是與朋友聊天。ChatGPT具有高度的可擴(kuò)展性和靈活性,可以根據(jù)不同需求進(jìn)行二次開發(fā)和定制。ChatGPT可以快速從大量數(shù)據(jù)中學(xué)習(xí),并且在后續(xù)應(yīng)用中可以持續(xù)更新、優(yōu)化。ChatGPT可以應(yīng)用于在線客服、虛擬助手、教育培訓(xùn)、游戲娛樂等領(lǐng)域,為用戶提供高效、便捷、個(gè)性化的服務(wù)和體驗(yàn)。ChatGPT通常需要進(jìn)行訓(xùn)練和調(diào)試,以達(dá)到最佳的對話效果,可以利用第三方工具或平臺(tái)來集成ChatGPT,并將其應(yīng)用于具體場景中。
ChatGPT推出五天,注冊用戶就超過百萬,推出短短的兩個(gè)月,月活躍用戶就超過1億。TikTok月活躍用戶超過1億用了九個(gè)月時(shí)間, Twitter月活躍用戶超過1億用了90個(gè)月時(shí)間。ChatGPT引起了全球網(wǎng)民的廣泛注意,在NLP中掀起了一場史無前例的“海嘯”。成千上萬的用戶從不同角度對它進(jìn)行了應(yīng)用體驗(yàn),關(guān)于它的各種說法也是滿天飛。有人說,ChatGPT已經(jīng)擁有通用人工智能(Artificial General Intelligence, AGI);有人說,很多崗位上的人都會(huì)被ChatGPT取代。
ChatGPT是一個(gè)偉大的人工智能項(xiàng)目,它使用指令學(xué)習(xí)、基于人類反饋的強(qiáng)化學(xué)習(xí)、人工智能內(nèi)容生成等一系列創(chuàng)新技術(shù),使大語言模型在之前版本的基礎(chǔ)上實(shí)現(xiàn)了飛躍式的發(fā)展,在意圖理解、語言生成、對話控制和知識(shí)服務(wù)方面取得了重大突破,刷新了非人類實(shí)體(包括動(dòng)物和機(jī)器)理解人類自然語言的高度。除了創(chuàng)新技術(shù)的使用之外, ChatGPT使用了規(guī)模巨大的算力,擁有1750億個(gè)參數(shù)。這種大語言模型的規(guī)模效應(yīng)還導(dǎo)致了一些語言水平接近于人類的智力行為的涌現(xiàn),至今仍在不斷地迭代。ChatGPT的成功具有劃時(shí)代的里程碑性質(zhì),足以載入人工智能發(fā)展的史冊。如何正確認(rèn)識(shí)ChatGPT這種大語言模型的技術(shù)實(shí)質(zhì),是理解并應(yīng)對ChatGPT給人類社會(huì)帶來的影響的關(guān)鍵。ChatGPT首先是在語言能力方面取得了重大的突破。ChatGPT的這些技術(shù)突破都跟語言能力直接有關(guān)。
從技術(shù)上說,在大語言模型中,語言成分的“遠(yuǎn)距離依存”(long distance dependency)以及語言的“詞匯歧義”(lexical ambiguity)和“結(jié)構(gòu)歧義”(structure ambiguity)的處理,其功夫都在語言之外。如果把語言能力比作一座冰山,那么語言形式只是冰山露在水面之上的部分,而語義本體知識(shí)(semantic ontology knowledge)、常識(shí)事理(common sense)和專業(yè)領(lǐng)域知識(shí)(field knowledge)則是水面之下的部分,這些知識(shí)也正是解決遠(yuǎn)距離關(guān)聯(lián)問題和歧義消解問題的關(guān)鍵。
在NLP 1.0和NLP 2.0時(shí)期,人們曾寄希望于靠人類專家手工構(gòu)造冰山下的部分,但相關(guān)研究項(xiàng)目并不成功,收效甚微。大語言模型則是采用數(shù)據(jù)驅(qū)動(dòng)的“端到端嵌入”(end-to-end embedding)的方式,首先把語言數(shù)據(jù)轉(zhuǎn)化成高維向量空間里的詞向量,然后在向量空間里進(jìn)行深度學(xué)習(xí),讓大數(shù)據(jù)代替人類專家來構(gòu)造冰山下的部分。ChatGPT成功地證明了這種數(shù)據(jù)驅(qū)動(dòng)的“端到端嵌入”技術(shù)路線對于構(gòu)建非人類實(shí)體的語言能力是非常正確的。
目前ChatGPT的確也有一定的知識(shí)處理能力,但與其語言處理能力相比,知識(shí)處理能力的“火候”還稍微欠缺,特別是缺乏跟專業(yè)領(lǐng)域相關(guān)的知識(shí)能力,說多了就會(huì)“露餡”,有時(shí)甚至?xí)峁┎环鲜聦?shí)的錯(cuò)誤答案,或者“一本正經(jīng)地胡說八道”,或者說一些永遠(yuǎn)正確的廢話。因?yàn)镃hatGPT實(shí)際上只是一個(gè)大規(guī)模的語言模型,它只能在大規(guī)模數(shù)據(jù)基礎(chǔ)上對于人類的語言行為進(jìn)行模仿,并沒有真正理解聊天的內(nèi)容。ChatGPT盡管能夠針對人類的輸入產(chǎn)生類似于人類的反應(yīng),但是ChatGPT并不知道它知道什么,也不知道它不知道什么,它并不能真正地理解自然語言。
2023年3月17日, OpenAI發(fā)布GPT-4。GPT-4 具有強(qiáng)大的識(shí)圖能力,文字輸入限制由3千詞提升至2.5萬詞,回答問題的準(zhǔn)確性顯著提高,能夠生成歌詞、創(chuàng)意文本,并能改變文本的寫作風(fēng)格。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí), GPT-4比ChatGPT更加可靠、更具有創(chuàng)意,并且能夠處理更細(xì)微的指令。許多現(xiàn)有的機(jī)器學(xué)習(xí)基準(zhǔn)測試都是用英語編寫的,為了了解GPT-4 在其他語言上的能力, OpenAI研究團(tuán)隊(duì)使用Azure Translate 將一套涵蓋57個(gè)主題的14000個(gè)多項(xiàng)英語選擇題翻譯成多種語言。在測試的26種語言的24種中, GPT-4優(yōu)于 ChatGPT和其他大語言模型的英語語言性能。
04、GPT對傳統(tǒng)教育觀念的沖擊
GPT的出現(xiàn)沖擊了傳統(tǒng)的教育觀念。GPT使得事實(shí)性知識(shí)顯得不再重要。很多知識(shí)都可以在與GPT的聊天中唾手可得。一些依靠記憶力就有可能做到的事情,GPT幾乎都能代替。GPT使死記硬背的傳統(tǒng)學(xué)習(xí)方式顯得蒼白無力。在今后的教育中,批判性思維(critical thinking)、創(chuàng)造性(creativity)、溝通能力(communication)、協(xié)作精神(collaboration)將會(huì)成為教育的新目標(biāo)。在這種情況下,學(xué)校應(yīng)當(dāng)保持開放心態(tài),把GPT作為教學(xué)的助手,協(xié)助教師開展創(chuàng)造性工作,鼓勵(lì)學(xué)生規(guī)范地使用GPT,學(xué)會(huì)與GPT協(xié)作共事。
GPT是一種人工智能技術(shù),它可以在教育領(lǐng)域中提供多種機(jī)遇:(1)根據(jù)每個(gè)學(xué)生的需求和興趣進(jìn)行個(gè)性化學(xué)習(xí),為不同水平的學(xué)生提供更好的學(xué)習(xí)體驗(yàn);(2)在傳統(tǒng)課堂教學(xué)中扮演輔助教學(xué)的角色,從而讓教師有更多的時(shí)間關(guān)注學(xué)生的個(gè)性化需求;(3)與學(xué)生互動(dòng),讓學(xué)生主動(dòng)參與到學(xué)習(xí)過程中,提高學(xué)習(xí)的積極性和熱情;(4)提供各種形式的學(xué)習(xí)資源,豐富學(xué)生的學(xué)習(xí)經(jīng)驗(yàn)。
GPT也對傳統(tǒng)的教育提出了挑戰(zhàn):(1)學(xué)校和教育機(jī)構(gòu)需要投入大量的資金來購買硬件設(shè)備和軟件系統(tǒng),并修建必要的網(wǎng)絡(luò)基礎(chǔ)設(shè)施來支持GPT的使用,因而存在技術(shù)障礙;(2)GPT需要收集大量有關(guān)學(xué)生的個(gè)人數(shù)據(jù),包括學(xué)習(xí)過程中的行為和表現(xiàn),因而保護(hù)這些數(shù)據(jù)的安全性和隱私成了一個(gè)重要問題;(3)盡管GPT可以通過模仿自然語言來與學(xué)生進(jìn)行對話,但它仍然存在無法理解某些語言或概念的局限性;(4)如果我們使用GPT來取代傳統(tǒng)教學(xué),在某種程度上,可能會(huì)使學(xué)生更加依賴技術(shù)而不是教師,從而導(dǎo)致他們失去與教師互動(dòng)和交流的機(jī)會(huì)。
我們需要認(rèn)真評估GPT在教育領(lǐng)域中的優(yōu)缺點(diǎn),并采取必要的措施,使其潛力最大化,風(fēng)險(xiǎn)最小化。
05、GPT給外語教育帶來的機(jī)遇和挑戰(zhàn)
GPT為中國外語教育帶來了機(jī)遇。GPT可以在較短時(shí)間內(nèi)提供大量真實(shí)的語言輸入,從而提高學(xué)習(xí)者的語言學(xué)習(xí)效率;GPT基于大語言模型的學(xué)習(xí)平臺(tái)可以分析學(xué)習(xí)者的學(xué)習(xí)情況和特點(diǎn),推薦符合其學(xué)習(xí)需求和興趣的學(xué)習(xí)材料,實(shí)現(xiàn)個(gè)性化教學(xué);GPT通過大語言模型的遠(yuǎn)程交流功能,可以幫助學(xué)習(xí)者與全球范圍內(nèi)的人進(jìn)行跨地域的溝通和交流,拓寬視野,提高語言應(yīng)用能力;GPT利用大語言模型開展在線語言學(xué)習(xí),不僅可以節(jié)約教育資源、降低教育成本,還可以提升學(xué)習(xí)者的學(xué)習(xí)效果和體驗(yàn)。
GPT也給中國外語教育帶來了挑戰(zhàn)。GPT的大語言模型需要高超的技術(shù)和算法支持,這對教育機(jī)構(gòu)和教師的技術(shù)水平提出了更高的要求;GPT的大語言模型所需要的海量數(shù)據(jù)涉及個(gè)人隱私,如何保障學(xué)習(xí)者的數(shù)據(jù)安全是一個(gè)重要的問題;GPT的大語言模型主要是基于自然語言處理技術(shù)開發(fā)的,其在多媒體、口語等方面的適應(yīng)性還有待進(jìn)一步提高。
我們需要充分利用GPT的優(yōu)勢,同時(shí)也需要解決其存在的問題和挑戰(zhàn),以更好地滿足外語教育的需求。
06、GPT給語言服務(wù)行業(yè)帶來的機(jī)遇和挑戰(zhàn)
GPT給傳統(tǒng)的語言服務(wù)行業(yè)提供了新的機(jī)遇。GPT使用機(jī)器學(xué)習(xí)和自然語言處理技術(shù)來實(shí)現(xiàn)自動(dòng)翻譯,這使得翻譯變得更加快速、便捷、準(zhǔn)確,減少了人工翻譯的成本和時(shí)間;GPT可以根據(jù)不同用戶的需求和偏好進(jìn)行定制化翻譯,提高翻譯的質(zhì)量和用戶體驗(yàn),實(shí)現(xiàn)個(gè)性化的翻譯;GPT可以幫助企業(yè)與客戶進(jìn)行更加智能化、交互式的溝通,提升客戶滿意度和忠誠度,增強(qiáng)與用戶的互動(dòng);GPT使得不同語言和文化之間的溝通和交流變得更加容易,促進(jìn)了全球化和跨文化交流;GPT可以收集大量的語言數(shù)據(jù),并通過深度學(xué)習(xí)等技術(shù)進(jìn)行分析和挖掘,從而產(chǎn)生有價(jià)值的商業(yè)洞察和見解;GPT通過技術(shù)革新和創(chuàng)新,將推動(dòng)語言服務(wù)業(yè)向更加智能化、高效化和創(chuàng)新化方向發(fā)展。
GPT也給傳統(tǒng)的語言服務(wù)行業(yè)帶來一些挑戰(zhàn)。GPT具有自動(dòng)翻譯的能力,可在不需要人類干預(yù)的情況下對文本進(jìn)行翻譯,這將使傳統(tǒng)的翻譯服務(wù)面臨激烈的競爭;相比于傳統(tǒng)的人工翻譯, GPT是一種低成本、高效率的選擇,能夠在很短時(shí)間內(nèi)創(chuàng)造出大量的翻譯結(jié)果,這將導(dǎo)致部分傳統(tǒng)語言服務(wù)公司的市場份額逐步下降;隨著GPT技術(shù)的不斷發(fā)展,越來越多的企業(yè)將會(huì)開始使用它來提升其語言服務(wù)產(chǎn)品的質(zhì)量和效率,因此,那些不能提供更優(yōu)質(zhì)服務(wù)的企業(yè)將會(huì)面臨退出市場的風(fēng)險(xiǎn)。要應(yīng)對這些挑戰(zhàn),傳統(tǒng)語言服務(wù)行業(yè)可以通過加強(qiáng)自身核心競爭力、提高服務(wù)質(zhì)量、拓展新領(lǐng)域等方式來保持市場競爭力。同時(shí),也可以考慮與GPT技術(shù)結(jié)合,以提高自身服務(wù)質(zhì)量和效率。
07、GPT與N元語法模型
GPT是一個(gè)大語言模型,它是用來處理自然語言的,那么,它與語言學(xué)研究有什么關(guān)系呢?從語言學(xué)的角度看來, GPT實(shí)際上是一個(gè)N元語法模型(N-gram model),這種模型根據(jù)前面出現(xiàn)的單詞來預(yù)測后面的單詞(馮志偉、丁曉梅, 2021)。在計(jì)算語言學(xué)中,一個(gè)單詞的概率依賴于它前面單詞的概率的這種假設(shè)叫作馬爾可夫假設(shè)(Markov assumption)。根據(jù)馬爾可夫假設(shè),如果每一個(gè)語言符號(hào)的概率依賴于它前面的語言符號(hào)的概率,那么這種語言符號(hào)的鏈就叫作“馬爾可夫鏈”(Markov chain)。在馬爾可夫鏈中,前面的語言符號(hào)對后面的語言符號(hào)是有影響的,這種鏈?zhǔn)怯梢粋€(gè)有記憶信源發(fā)出的。如果我們只考慮前面一個(gè)語言符號(hào)對后面一個(gè)語言符號(hào)出現(xiàn)概率的影響,這樣得出的語言成分的鏈,叫作一階馬爾可夫鏈,也就是二元語法。如果我們考慮到前面兩個(gè)語言符號(hào)對后面一個(gè)語言符號(hào)出現(xiàn)概率的影響,這樣得出的語言符號(hào)的鏈,叫作二階馬爾可夫鏈,也就是三元語法。類似地,我們還可以考慮前面四個(gè)語言符號(hào)、五個(gè)語言符號(hào)……對后面的語言符號(hào)出現(xiàn)概率的影響,分別得出四階馬爾可夫鏈(五元語法)、五階馬爾可夫鏈(六元語法)……。隨著馬爾可夫鏈階數(shù)的增大,隨機(jī)試驗(yàn)所得出的語言符號(hào)鏈越來越接近有意義的自然語言文本。
美國語言學(xué)家喬姆斯基(N. Chomsky)和心理學(xué)家米勒(G. Miller)指出,這樣的馬爾可夫鏈的階數(shù)并不是無窮地增加的,它的極限就是語法上和語義上成立的自然語言句子的集合。這樣一來,我們就有理由把自然語言的句子看成是階數(shù)很大的馬爾可夫鏈。馬爾可夫鏈在數(shù)學(xué)上刻畫了自然語言句子的生成過程,是一個(gè)早期的自然語言的形式模型。在馬爾可夫鏈的基礎(chǔ)上,學(xué)者們提出了N元語法模型。
按照馬爾可夫鏈的假設(shè),我們根據(jù)前面一個(gè)語言符號(hào)的概率,就可以預(yù)見它后面的語言符號(hào)將來的概率。這樣的模型叫作二元語法模型。基本的二元語法模型可以看成是每個(gè)語言符號(hào)只有一個(gè)狀態(tài)的馬爾可夫鏈。我們可以把二元語法模型(只看前面的一個(gè)語言符號(hào))推廣到三元語法模型(看前面的兩個(gè)語言符號(hào)),再推廣到N元語法模型(看前面的N-1個(gè)語言符號(hào))。二元語法模型叫作一階馬爾可夫模型(因?yàn)樗豢辞懊娴囊粋€(gè)語言符號(hào)),三元語法模型叫作二階馬爾可夫模型, N元語法模型叫作N-1階馬爾可夫模型。在一個(gè)序列中,N元語法對于下一個(gè)語言符號(hào)的條件概率逼近的通用等式是:
這個(gè)等式說明,對于所有給定的前面的語言符號(hào),語言符號(hào)wn的概率可以只通過前面N-1個(gè)語言符號(hào)的概率來逼近。N元語法的能力隨著它的階數(shù)的增高而增高,訓(xùn)練模型的上下文越長,句子的連貫性就越好。
在GPT中,把自然語言中的離散符號(hào)(discrete symbols)映射為N維空間中的連續(xù)向量(continuous vectors),這樣的連續(xù)向量叫作“詞向量”(word vector),如圖2所示。
圖2 把離散的語言符號(hào)映射為連續(xù)的詞向量(馮志偉, 2019)
由于把語言符號(hào)都映射為向量空間中的詞向量,不再需要手工設(shè)計(jì)語言特征,計(jì)算機(jī)能夠自動(dòng)地從語料庫中獲取和計(jì)算向量化的語言特征,大大節(jié)省了人力(馮志偉, 2019)。
構(gòu)造語言符號(hào)的向量化特征表示也就是進(jìn)行“詞嵌入”(word embedding, WE)?!霸~嵌入”把自然語言中的每一個(gè)語言符號(hào)映射為向量空間中的一個(gè)詞向量,并且在這個(gè)向量空間中形式化地定義自然語言的語言符號(hào)之間的相互關(guān)系。詞向量的長度也就代表了N元語法的階數(shù)(Mikolov et al., 2013)。所以,我們認(rèn)為, GPT是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的“端到端嵌入”(end to end embedding)的大語言模型。在GPT的研制中,隨著訓(xùn)練數(shù)據(jù)的增加,詞向量的長度和參數(shù)量也隨之增加。
人們發(fā)現(xiàn),隨著參數(shù)量的增加,生成語言的質(zhì)量越來越好。當(dāng)訓(xùn)練參數(shù)超過500億的時(shí)候,系統(tǒng)會(huì)出現(xiàn)“涌現(xiàn)”(emergence)現(xiàn)象,顯示出越來越接近于人類的優(yōu)秀表現(xiàn),生成的語言也就越來越接近人類的語言,如圖3所示。
圖3 “涌現(xiàn)”現(xiàn)象
這樣的“涌現(xiàn)”現(xiàn)象似乎意味著,當(dāng)訓(xùn)練數(shù)據(jù)在數(shù)量上增加到500億時(shí), GPT系統(tǒng)發(fā)生了從量變到質(zhì)變的重大變化。因此,只要不斷地增加訓(xùn)練數(shù)據(jù),就會(huì)產(chǎn)生質(zhì)變的飛躍。
GPT采用的方法是一種經(jīng)驗(yàn)主義的方法,在大規(guī)模數(shù)據(jù)的基礎(chǔ)上,通過機(jī)器學(xué)習(xí)獲得各語言要素之間的統(tǒng)計(jì)規(guī)律,生成越來越接近人類自然語言的輸出,使得用戶感覺到計(jì)算機(jī)似乎理解了自然語言。對于這種“涌現(xiàn)”現(xiàn)象的本質(zhì),至今在科學(xué)上還不能作出解釋。
自從計(jì)算機(jī)問世之后,就出現(xiàn)了人與計(jì)算機(jī)怎樣交互的問題,叫作人機(jī)交互(Human-Computer Interaction, HCI)。早期人們需要使用符號(hào)指令來與計(jì)算機(jī)交互,需要用戶記住大量的符號(hào)指令,人機(jī)交互非常困難;后來研制出圖形界面(Graphical User Interface, GUI),用圖形方式顯示計(jì)算機(jī)操作的用戶界面,人機(jī)交互變得容易。鼠標(biāo)、觸摸屏都是進(jìn)行人機(jī)交互的重要工具。GPT出現(xiàn)之后,人們可以使用自然語言自如地與計(jì)算機(jī)交互,人機(jī)交互變得更加方便。人與計(jì)算機(jī)的交互終于回歸到最自然的狀態(tài),自然語言不單是人與人之間進(jìn)行交互的工具,也是人與計(jì)算機(jī)進(jìn)行交際的工具。這是人類文明發(fā)展史上的重要事件,自然語言真正成了“人工智能皇冠上的明珠”。以語言研究為己任的語言學(xué),應(yīng)關(guān)注這樣的事件,不但要研究人與人之間用自然語言交互的規(guī)律,也應(yīng)研究人與計(jì)算機(jī)之間用自然語言交互的規(guī)律,這是人工智能時(shí)代賦予語言學(xué)的重大使命。
“涌現(xiàn)”現(xiàn)象說明,當(dāng)訓(xùn)練參數(shù)達(dá)到500億的時(shí)候,計(jì)算機(jī)的自然語言水平可以提升到接近人類的水平,貌似計(jì)算機(jī)已經(jīng)能夠通過大語言模型習(xí)得人類的自然語言。實(shí)踐說明了上述的這種數(shù)據(jù)驅(qū)動(dòng)的“端到端嵌入”技術(shù)對于非人類實(shí)體的自然語言習(xí)得是行之有效的。
08、喬姆斯基與GPT
2023年3月8日,著名語言學(xué)家喬姆斯基與羅伯茨(Ian Roberts)、瓦圖穆爾(Jeffrey Watmull)共同在《紐約時(shí)報(bào)》發(fā)表了題為“ChatGPT的虛假承諾”的文章。他們強(qiáng)調(diào),人工智能和人類在思考方式、學(xué)習(xí)語言與生成解釋的能力,以及道德思考方面有著極大的差異,并提醒讀者如果ChatGPT式機(jī)器學(xué)習(xí)程序繼續(xù)主導(dǎo)人工智能領(lǐng)域,那么人類的科學(xué)水平以及道德標(biāo)準(zhǔn)都可能因此降低。喬姆斯基還認(rèn)為, ChatGPT使用的大語言模型實(shí)質(zhì)上是一種剽竊。
喬姆斯基對于GPT持否定態(tài)度,這是不足為奇的。在喬姆斯基生成語法(Generative Grammar)的發(fā)展過程中,賦予生成語法以生命活力的是生成語法的語言哲學(xué)理論。其中,最為重要的是關(guān)于人類知識(shí)的本質(zhì)、來源和使用問題(Chomsky, 1995)。喬姆斯基把語言知識(shí)的本質(zhì)問題叫作“洪堡特問題”(Humboldt's problem)。
德國學(xué)者洪堡特(W. Humboldt)曾經(jīng)提出“語言絕不是產(chǎn)品(Ergon),而是一種創(chuàng)造性活動(dòng)(Energeria)”,語言實(shí)際上是心智不斷重復(fù)的活動(dòng),它使音節(jié)得以成為思想的表達(dá)。人類語言知識(shí)的本質(zhì)就是語言知識(shí)如何構(gòu)成的問題,其核心是洪堡特指出的“有限手段的無限使用”。語言知識(shí)的本質(zhì)在于人類成員的心智(mind)/大腦(brain)中存在著一套語言認(rèn)知系統(tǒng),這樣的認(rèn)知系統(tǒng)表現(xiàn)為某種數(shù)量有限原則和規(guī)則體系。高度抽象的語法規(guī)則構(gòu)成了語言應(yīng)用所需要的語言知識(shí),由于人們不能自覺地意識(shí)到這些抽象的語法規(guī)則,喬姆斯基主張,這些語言知識(shí)是一些不言而喻的或者無意識(shí)的知識(shí)。
喬姆斯基主張把語言知識(shí)和語言的使用能力區(qū)分開來。兩個(gè)人擁有同一語言的知識(shí),他們在發(fā)音、詞匯知識(shí)、對于句子結(jié)構(gòu)的掌握等方面是一樣的。但是,這兩個(gè)人可能在語言使用的能力方面表現(xiàn)得非常不同。因此,語言知識(shí)和語言能力是兩個(gè)不同的概念。語言能力可以改進(jìn),而語言知識(shí)則保持不變。語言能力可以損傷或者消失,而人們并不至于失去語言知識(shí)。所以,語言知識(shí)是內(nèi)在于心智的特征和表現(xiàn),語言能力是外在行為的表現(xiàn)。生成語法研究的是語言的心智知識(shí),而不是語言的行為能力。語言知識(shí)體現(xiàn)為存在于心智/大腦中的認(rèn)知系統(tǒng)。
GPT采用的數(shù)據(jù)驅(qū)動(dòng)的“端到端嵌入”技術(shù)對于非人類的自然語言行為是行之有效的,但是,這種技術(shù)是處于人類的心智之外的,根本不存在“有限手段的無限使用”問題,與喬姆斯基對于語言知識(shí)本質(zhì)的認(rèn)識(shí)是迥然不同的。
語言知識(shí)的來源問題,是西方哲學(xué)中的“柏拉圖問題”(Plato's problem)的一個(gè)特例。“柏拉圖問題”是:我們可以得到的經(jīng)驗(yàn)明證是如此貧乏,而我們是怎樣獲得如此豐富和具體明確的知識(shí)、如此復(fù)雜的信念和理智系統(tǒng)呢?人與世界的接觸是那么短暫、狹隘、有限,為什么能知道那么多的事情呢?刺激的貧乏(stimulus poverty)和所獲得的知識(shí)之間為什么會(huì)存在如此巨大的差異呢(楊小璐, 2004)?與“柏拉圖問題”相應(yīng),人類語言知識(shí)的來源問題是:為什么人類兒童在較少直接語言經(jīng)驗(yàn)的情況下,能夠快速一致地學(xué)會(huì)語言?喬姆斯基認(rèn)為,在人類成員的心智/大腦中,存在著由生物遺傳而由天賦決定的認(rèn)知機(jī)制系統(tǒng)。在適當(dāng)?shù)慕?jīng)驗(yàn)引發(fā)或一定的經(jīng)驗(yàn)環(huán)境下,這些認(rèn)知系統(tǒng)得以正常地生長和成熟。這些認(rèn)知系統(tǒng)叫作“心智器官”(mental organs)。決定構(gòu)成人類語言知識(shí)的是心智器官中的一個(gè)系統(tǒng),叫作“語言機(jī)能”(language faculty)。這個(gè)語言機(jī)能在經(jīng)驗(yàn)環(huán)境引發(fā)下的生長和成熟,決定著人類語言知識(shí)的獲得(Pullum & Scholz, 2002)。
研究發(fā)現(xiàn),F(xiàn)OXP2是人類的獨(dú)特基因。這一基因與其他哺乳動(dòng)物的類似基因同屬于一個(gè)家族,然而,這一基因的排序卻是人類特有的。因此, FOXP2也許就是喬姆斯基所假設(shè)的“語言機(jī)能”的生物學(xué)基礎(chǔ)。由于存在FOXP2,所以,語言是天賦的, FOXP2給語言天賦論和刺激貧乏論提供了生物學(xué)上的支持(俞建梁, 2011)。
語言機(jī)能有初始狀態(tài)(initial state)和獲得狀態(tài)(attained state)。初始狀態(tài)是人類共同的、普遍一致的;獲得狀態(tài)是具體的、個(gè)別的。語言機(jī)能的初始狀態(tài)叫作“普遍語法”(Universal Grammar, UG),語言機(jī)能的獲得狀態(tài)叫作“具體語法”(Particular Grammar, PG)。對普遍語法的本質(zhì)特征及其與具體語法的關(guān)系的研究和確定,是解決關(guān)于語言知識(shí)的“柏拉圖問題”的關(guān)鍵。
GPT采用的數(shù)據(jù)驅(qū)動(dòng)的“端到端嵌入”技術(shù)對于非人類的自然語言機(jī)器學(xué)習(xí)是行之有效的,但是,這種技術(shù)依靠大規(guī)模的語言數(shù)據(jù),根本不存在“刺激貧乏”的問題,與喬姆斯基對于語言知識(shí)來源的認(rèn)識(shí)是大相徑庭的。
喬姆斯基把語言知識(shí)的使用問題叫作“笛卡兒問題”(Cartesian problem)?;跈C(jī)械論哲學(xué)的物質(zhì)概念,法國哲學(xué)家和數(shù)學(xué)家笛卡兒(Descartes)認(rèn)為,所有非生命物質(zhì)世界的現(xiàn)象、動(dòng)物的生理與行為、大部分的人類器官活動(dòng),都能夠納入物質(zhì)科學(xué)(science of body)的范疇。但是,笛卡兒又指出,某些現(xiàn)象不能處于物質(zhì)科學(xué)的范疇之內(nèi),其中最為顯著的就是人類語言,特別是“語言使用的創(chuàng)造性方面”,更是超出了機(jī)械論的物質(zhì)概念所能夠解釋的范圍。所以,對于語言的正常使用,是人類與其他動(dòng)物或機(jī)器的真正區(qū)別。為了尋求對于語言這一類現(xiàn)象的解釋,笛卡兒設(shè)定了一種“第二實(shí)體”的存在,這種第二實(shí)體就是“思維實(shí)體”(thinking substance)?!八季S實(shí)體”明顯不同于物質(zhì)實(shí)體,它與物質(zhì)實(shí)體相分離,并通過某種方式與物質(zhì)實(shí)體相互作用。這一種“思維實(shí)體”就是心靈或者心智。語言知識(shí)的使用是內(nèi)在于心智/大腦的。因此,對于這樣的問題是很難解決和回答的。
GPT采用的數(shù)據(jù)驅(qū)動(dòng)的“端到端嵌入”技術(shù)對于非人類自然語言的使用是行之有效的,但是,這種技術(shù)與“思維實(shí)體”沒有關(guān)系,與喬姆斯基對于語言知識(shí)使用的認(rèn)識(shí)是完全不同的。喬姆斯基主張,語言是語言機(jī)能或者語言器官所呈現(xiàn)的狀態(tài),說某個(gè)人具有語言L,就是說他的語言技能處于狀態(tài)L。語言機(jī)能所獲得的狀態(tài)能夠生成無限數(shù)目的語言表達(dá)式,每一個(gè)表達(dá)式都是語音、結(jié)構(gòu)和語義特征的某種排列組合。這個(gè)語言機(jī)能所獲得的狀態(tài)是一個(gè)生成系統(tǒng)或者運(yùn)算系統(tǒng)。
為了與一般人理解的外在語言相區(qū)別,喬姆斯基把這樣的運(yùn)算系統(tǒng)叫作“I語言”。字母I代表內(nèi)在的(internal)、個(gè)體的(individual)、內(nèi)涵的(intensional)等概念。這意味著,I語言是心智的組成部分,最終表現(xiàn)于大腦的神經(jīng)機(jī)制之中,因此,I語言是“內(nèi)在的”。I語言直接與個(gè)體有關(guān),與語言社團(tuán)存在間接的聯(lián)系。語言社團(tuán)的存在取決于該社團(tuán)的成員具有相似的I語言,因此,I語言是“個(gè)體的”。I語言是一個(gè)函數(shù)或者生成程序,它生成一系列內(nèi)在的表現(xiàn)與心智/大腦中的結(jié)構(gòu)描寫,因此,I 語言是“內(nèi)涵的”。根據(jù)這種對于I語言的認(rèn)識(shí),喬姆斯基指出,基于社會(huì)政治和規(guī)范目的論因素之上的關(guān)于語言的通常概念,與科學(xué)的語言學(xué)研究沒有任何關(guān)系,這些概念都不適合用來進(jìn)行科學(xué)的語言研究。
生成語法對于語言的科學(xué)認(rèn)識(shí)是內(nèi)在主義(internalist)的,而GPT的大語言模型則是外在主義(externalist)的。GPT的方法是在廣泛搜集語言材料的基礎(chǔ)上,把離散的語言符號(hào)轉(zhuǎn)化為詞向量,通過機(jī)器學(xué)習(xí)來獲取概率性的語言參數(shù)。這些參數(shù)存在于外部世界,處于人類的心智/大腦之外。GPT的方法是經(jīng)驗(yàn)主義的方法,這種方法的基礎(chǔ)是外在主義的語言觀。喬姆斯基認(rèn)為,根據(jù)外在主義的語言觀,人們不能正確地認(rèn)識(shí)和揭示人類語言的本質(zhì)特征,不能解釋人類語言知識(shí)獲得的過程。只有內(nèi)在主義的語言觀才有可能正確地、全面地認(rèn)識(shí)和解釋人類語言知識(shí)的本質(zhì)、來源和使用等問題。
喬姆斯基認(rèn)為,生成語法的研究應(yīng)當(dāng)遵循自然科學(xué)研究中的“伽利略—牛頓風(fēng)格”(Galilean-Newtonian style)。“伽利略風(fēng)格”的核心內(nèi)容是:人們正在構(gòu)建的理論體系是確實(shí)的真理,由于存在過多的因素和各種各樣的事物,現(xiàn)象序列往往是對于真理的某種歪曲。所以,在科學(xué)研究中,最有意義的不是考慮現(xiàn)象,而應(yīng)尋求那些看起來確實(shí)能夠給予人們深刻見解的原則。伽利略告誡人們,如果事實(shí)駁斥理論的話,那么事實(shí)可能是錯(cuò)誤的。伽利略忽視或無視那些有悖于理論的事實(shí)。“牛頓風(fēng)格”的核心內(nèi)容是:在目前的科學(xué)水平下,世界本身還是不可解釋的,科學(xué)研究所要做的最好的事情就是努力構(gòu)建具有可解釋性的理論,牛頓關(guān)注的是理論的可解釋性,而不是世界本身的可解釋性,科學(xué)理論不是為了滿足常識(shí)理解而構(gòu)建的,常識(shí)和直覺不足以理解科學(xué)的理論。牛頓摒棄那些無助于理論構(gòu)建的常識(shí)和直覺。因此,“伽利略—牛頓風(fēng)格”的核心內(nèi)容是:人們應(yīng)努力構(gòu)建最好的理論,不要為干擾理論解釋力的現(xiàn)象而分散精力,同時(shí)應(yīng)認(rèn)識(shí)到世界與常識(shí)直覺是不相一致的(吳剛, 2006)。
生成語法的發(fā)展過程,處處體現(xiàn)著這種“伽利略—牛頓風(fēng)格”。生成語法的目的是構(gòu)建關(guān)于人類語言的理論,而不是描寫語言的各種事實(shí)和現(xiàn)象(馮志偉, 2009)。
語言學(xué)理論的構(gòu)建需要語言事實(shí)作為其經(jīng)驗(yàn)的明證,但是,采用經(jīng)驗(yàn)明證的目的是為了更好地服務(wù)于理論的構(gòu)建,生成語法所采用的一般是與理論的構(gòu)建有關(guān)的那些經(jīng)驗(yàn)明證。因此,生成語法研究的目的不是全面地、廣泛地、客觀地描寫語言事實(shí)和現(xiàn)象,而是探索和發(fā)現(xiàn)那些在語言事實(shí)和現(xiàn)象后面掩藏著的本質(zhì)和原則,從而構(gòu)建具有可解釋性的語言學(xué)理論。所以,在生成語法看來,收集和獲得的語言客觀事實(shí)材料越多,越不利于人們對于語言本質(zhì)特征的抽象性的把握和洞察,而探索語言現(xiàn)象的可解釋性才是語言研究的目標(biāo)所在。GPT盡管功能強(qiáng)大,但是至今仍然是一個(gè)“黑箱”(black box),不具有可解釋性(Linzen, 2019)。
喬姆斯基對于人類語言知識(shí)的本質(zhì)、來源和使用問題的看法,與GPT對于非人類語言知識(shí)的本質(zhì)、來源和使用問題的看法針鋒相對,且GPT不具有可解釋性,因此,喬姆斯基對于GPT持否定的態(tài)度,也就不足為奇了。
09
GPT仍是一個(gè)“黑箱”
最近,機(jī)器之心對美國人工智能專家羅素(Stuart Russell)就GPT問題進(jìn)行了專訪。羅素教授認(rèn)為,對于ChatGPT,我們要區(qū)分任務(wù)領(lǐng)域,清楚在什么情況下使用它:ChatGPT可以是一種很好的工具,如果它能錨定在事實(shí)基礎(chǔ)上,與規(guī)劃系統(tǒng)相結(jié)合,將帶來更大的價(jià)值。但問題是,我們目前不清楚ChatGPT的工作原理, ChatGPT沒有可解釋性,這需要一些概念上的突破,而這樣的突破是很難預(yù)測的。羅素教授認(rèn)為,要構(gòu)建真正智能的系統(tǒng),我們應(yīng)更加關(guān)注數(shù)理邏輯和知識(shí)推理,因?yàn)槲覀冃枰獙⑾到y(tǒng)建立在我們了解的方法之上,這樣才能確保人工智能不會(huì)失控。他不認(rèn)為擴(kuò)大規(guī)模是答案,也不看好用更多數(shù)據(jù)和更多算力就能解決問題。他認(rèn)為,這種想法過于樂觀。
OpenAI推出GPT-4后,研究團(tuán)隊(duì)甚至連GPT之父奧特曼(Altman)本人,仍然不能完全解讀GPT-4。在不斷測試中, OpenAI發(fā)現(xiàn),從ChatGPT開始, GPT系列出現(xiàn)了推理能力,至于這種能力究竟是怎樣出現(xiàn)的,仍然是一個(gè)“黑箱”,目前沒有人能夠回答。于是在3月29日,生命未來研究所發(fā)布了1000多位人工智能界人士的聯(lián)名信,呼吁所有的人工智能實(shí)驗(yàn)立即暫停訓(xùn)練比GPT-4更強(qiáng)的人工智能,暫停期至少為六個(gè)月。聯(lián)名信表示,大量的研究說明,由于GPT系列沒有可解釋性,具有人類競爭智能的人工智能系統(tǒng),可能會(huì)對社會(huì)和人類構(gòu)成深遠(yuǎn)的風(fēng)險(xiǎn)。先進(jìn)的人工智能技術(shù)可能代表地球生命歷史的深刻變化,應(yīng)以相應(yīng)的謹(jǐn)慎和資源進(jìn)行規(guī)劃和管理。只有當(dāng)我們確信它們的影響是積極的,它們的風(fēng)險(xiǎn)是可控的時(shí)候,才可以開發(fā)強(qiáng)大的人工智能系統(tǒng)。
語言是人類文明的操作系統(tǒng)。標(biāo)志人類文明的科學(xué)、藝術(shù)、思想、感情都離不開語言。人工智能對語言的掌控,意味著它可以入侵并操縱人類文明的操作系統(tǒng)。因此,自然語言處理如果沒有可解釋性,就相當(dāng)于摩天大樓沒有堅(jiān)實(shí)的地基。而如果地基坍塌,自然語言處理組裝的摩天大樓無論有多高也是沒有價(jià)值的。對于GPT,我們必須研究其可解釋性,揭開這個(gè)“黑箱”的奧秘,在這一方面,語言學(xué)家責(zé)無旁貸,應(yīng)對此做出自己的貢獻(xiàn)。
轉(zhuǎn)載來源:外語電化教學(xué)