散文網(wǎng) » 生活 »日常 » 有了ChatGPT，讀書還有用嗎？

有了ChatGPT，讀書還有用嗎？

2023-08-15 23:41 作者:Tomgis 0人讀過 | 我要投稿

上半年ChatGPT橫空出世，人工智能的潛能展現(xiàn)，給許多職業(yè)帶來了一場生存危機(jī)的探討。它能夠通過律師和工程師資格考試，寫的大學(xué)論文能不掛科，甚至能夠“理解”笑話。它能回答人們的疑問，組織生動(dòng)的語言結(jié)構(gòu)，模仿各式各樣的語言風(fēng)格；而大語言模型和圖像生成AI結(jié)合的技術(shù)，例如Midjourney，能夠讓絲毫沒有受過藝術(shù)訓(xùn)練的人，用只言片語“創(chuàng)造”出驚人的藝術(shù)圖像。

ChatGPT的本質(zhì)，實(shí)際上是大語言模型（Large?Language Model，LLM）疊加生成式人工智能。大語言模型，顧名思義，就是大，用海量的語素，用機(jī)器學(xué)習(xí)的方法訓(xùn)練一個(gè)計(jì)算機(jī)模型。生成式，則是用預(yù)測(cè)的方式，在對(duì)話時(shí)把最有可能出現(xiàn)的語素聯(lián)系展示出來。

對(duì)于知識(shí)“加工”和“消費(fèi)”者而言，大語言模型加上生成式人工智能的能力是巨大的。海量語素?cái)?shù)據(jù)、深度神經(jīng)網(wǎng)絡(luò)和極大的計(jì)算力，相當(dāng)于把整個(gè)來自互聯(lián)網(wǎng)的知識(shí)“壓平”，再通過人機(jī)互動(dòng)進(jìn)行“整裝”。

從計(jì)算邏輯上來講，ChatGPT相當(dāng)于一個(gè)更加強(qiáng)大的搜索引擎。普通的搜索引擎例如谷歌和百度通過爬蟲的模式“扒”整個(gè)互聯(lián)網(wǎng)的信息，并通過復(fù)雜的算法進(jìn)行排序。而人工智能使用機(jī)器學(xué)習(xí)的方法，相當(dāng)于把這些扒出來的信息，用預(yù)測(cè)的方式進(jìn)行了符合語言邏輯的整理。知識(shí)加工變得更加便捷迅速，消費(fèi)變得更加簡明清晰——有的時(shí)候甚至過于簡便，給了考試論文作弊以可乘之機(jī)。

針對(duì)這一點(diǎn)，技術(shù)樂觀主義者認(rèn)為，既然從今以后機(jī)器能夠生成的內(nèi)容，或許也不需要大多數(shù)的人類去動(dòng)腦實(shí)現(xiàn)，就如同搜索引擎取代了圖書館的館藏卡片、計(jì)算器取代珠算一般。的確，那些需要大量重復(fù)的文字類工作，或者機(jī)械地列舉、整理工作，即使AI不介入最終決策，確實(shí)也能夠提供相當(dāng)程度的生產(chǎn)力，輔助人類進(jìn)行知識(shí)的加工和消費(fèi)。

那么，讀書還有用嗎？各大高校、研究機(jī)構(gòu)的人員，是否也可以下班了？

機(jī)器能“學(xué)到”什么？

大語言模型和生成式人工智能，為將來的知識(shí)“生產(chǎn)者”帶來了一個(gè)繞不過的課題：何為知識(shí)？如何生產(chǎn)多樣、公正、真實(shí)的知識(shí)？

人工智能的“學(xué)習(xí)”能力是驚人的?，F(xiàn)有的大語言模型和人工智能的應(yīng)用，都脫不開機(jī)器學(xué)習(xí)作為其底色。“學(xué)習(xí)”二字，實(shí)質(zhì)上是用大量的數(shù)據(jù)訓(xùn)練預(yù)測(cè)模型，并在預(yù)測(cè)的準(zhǔn)確度，以及普適性上找到平衡。這種預(yù)測(cè)實(shí)際上是基于現(xiàn)有知識(shí)的，語言模型的預(yù)測(cè)，也是基于現(xiàn)有語言之間的聯(lián)系。例如輸入“紅燒”，機(jī)器預(yù)測(cè)“肉”；然后根據(jù)更多的輸入，例如地點(diǎn)，人，習(xí)慣等等，給出更加精確的預(yù)測(cè)，比如“外婆做的紅燒牛肉”等等。

這種預(yù)測(cè)是怎么實(shí)現(xiàn)的呢？我們熟悉的坐標(biāo)系是二維的。比如整個(gè)人群中，身高和體重有一個(gè)大致的對(duì)應(yīng)關(guān)系，給出身高，機(jī)器預(yù)測(cè)一個(gè)平均體重，就是基于現(xiàn)有數(shù)據(jù)的預(yù)測(cè)。再加入另一個(gè)維度，比如性別，那么就成為了一個(gè)三維坐標(biāo)，男女的預(yù)測(cè)會(huì)有所不同。如此下去，數(shù)據(jù)的維度可以是無限的，而機(jī)器學(xué)習(xí)的模型，就是在人腦所不能想象的多維空間中尋找此類聯(lián)系，并不斷調(diào)整各個(gè)維度之間的權(quán)重。比如，身高對(duì)體重的預(yù)測(cè)“有多重要”，可以在大量的數(shù)據(jù)輸入之后進(jìn)行調(diào)整。

因此，基于機(jī)器學(xué)習(xí)的人工智能，會(huì)把各種維度的數(shù)據(jù)，在更高維度的空間里聯(lián)系起來，有發(fā)現(xiàn)數(shù)據(jù)之間潛在聯(lián)系的能力，也會(huì)“學(xué)到”一些現(xiàn)實(shí)中不存在的，但很可能發(fā)生的聯(lián)系。用在語言模型中，人工智能也能學(xué)習(xí)到不同的語言風(fēng)格，挖掘現(xiàn)有文字中的“精髓”和“問題”。

數(shù)據(jù)越大，模型越成熟，其計(jì)算和挖掘能力也越高。類似于 BERT、GPT 這樣誕生于大機(jī)構(gòu)的 AI，被許多人認(rèn)為走到了技術(shù)的“拐點(diǎn)”，量變產(chǎn)生質(zhì)變也不無道理——這對(duì)于知識(shí)生產(chǎn)者來講是好事。不過，大模型也有其內(nèi)在的問題，模型越大，問題也越尖銳，特別是涉及到知識(shí)的多樣、公正和真實(shí)方面。

怎樣才能生產(chǎn)真實(shí)且公正的知識(shí)？

新的知識(shí)能從現(xiàn)有知識(shí)的連結(jié)和新模式中產(chǎn)生，這一點(diǎn)不管是從人還是機(jī)器的層面都是成立的。然而，現(xiàn)有的知識(shí)是否足夠？是否充分？是否公平？如果現(xiàn)有知識(shí)的基礎(chǔ)是不足的、甚至是有偏見的，那么在此基礎(chǔ)上建立的新知識(shí)也會(huì)產(chǎn)生偏差。

自從機(jī)器學(xué)習(xí)的AI投入大規(guī)模應(yīng)用以來，學(xué)者們就在不斷地揭示出這些模型內(nèi)在的偏見：性別歧視、種族歧視、有違倫理的輸出等等。開發(fā)者們用各種補(bǔ)丁和糾偏的方式去彌補(bǔ)，但大部分問題都潛藏于數(shù)據(jù)生產(chǎn)和訓(xùn)練過程中，而AI的偏見，亦是對(duì)社會(huì)偏見的反映和放大。

另外一個(gè)問題則是數(shù)據(jù)的質(zhì)量。機(jī)器學(xué)習(xí)不僅牽涉到訓(xùn)練模型的能力，還有數(shù)據(jù)的數(shù)量和質(zhì)量?，F(xiàn)有的開發(fā)過程，對(duì)模型的性能有著更多的強(qiáng)調(diào)甚至是迷信，反而會(huì)忽視更底層的數(shù)據(jù)來源問題?，F(xiàn)在的大部分?jǐn)?shù)據(jù)都要依賴人工來清洗和格式，為數(shù)據(jù)分類、打標(biāo)簽等等。很多時(shí)候，這個(gè)制作數(shù)據(jù)的過程是不透明的，甚至是潦草的。比如，大公司的AI開發(fā)背后，是大量“臟亂差”的人工被外包到欠發(fā)達(dá)地區(qū)的“AI工廠”。這種過程一方面存在著勞工倫理問題，另一方面也對(duì)數(shù)據(jù)質(zhì)量提出了挑戰(zhàn)。

到了大模型時(shí)代，這個(gè)問題可能會(huì)被隱藏得更深一些：不是每個(gè)研究者或者團(tuán)隊(duì)都有能力從0開始開發(fā)AI模型，尤其是大語言、大圖像模型，大多都是在現(xiàn)有模型的基礎(chǔ)上進(jìn)行微調(diào)。而大模型本身的問題和偏差，會(huì)被遷移到更多的應(yīng)用模型上。而越是底層的偏差，越是難以通過微調(diào)糾偏的方式進(jìn)行處理。

現(xiàn)有語言模型的預(yù)測(cè)生成模式，甚至還會(huì)將數(shù)據(jù)現(xiàn)有的偏差放大，產(chǎn)生“過擬合”的效果：例如，某種疾病在某個(gè)族群中統(tǒng)計(jì)數(shù)據(jù)占比偏高，約有60%；但若讓語言模型去生成一個(gè)病人的畫像，那么有超過90%的可能，生成的病人描述會(huì)屬于該族群。

現(xiàn)在一些AI的模型訓(xùn)練，采用的是一種“互搏”模式——所謂“生成對(duì)抗網(wǎng)絡(luò)”（generative adversarial network），讓兩個(gè)模型不斷互相生成、彼此糾正。這種方式的確是提高了模型訓(xùn)練的效率，然而任何小的偏差，都會(huì)在這種“互搏”中被放大。同樣的原理，如果一個(gè)與機(jī)器緊密合作的知識(shí)生產(chǎn)者，其生產(chǎn)依賴于這類“生成”，那么一些來自于模型的偏見，就會(huì)被嵌入更多的新知識(shí)中，新知識(shí)再被吸收為數(shù)據(jù)，又進(jìn)一步加強(qiáng)了模型的偏差。知識(shí)生產(chǎn)者在這個(gè)過程中必須保持警惕。

什么是新知識(shí)？AI的“生成”能代表新知識(shí)嗎？

所謂的新知識(shí)，究竟是什么？如果要充分使用AI來生產(chǎn)知識(shí)，那么知識(shí)生產(chǎn)者就必須要從人機(jī)的結(jié)合點(diǎn)去思考這個(gè)問題。任何信息，以及人類從真實(shí)世界中獲取的知識(shí)，都需要被“清洗”和“格式”成數(shù)據(jù)。除了上面提到的數(shù)據(jù)質(zhì)量以外，數(shù)據(jù)生成的過程也很重要。簡而言之，人們要研究的問題是什么？這個(gè)問題被翻譯成為了怎樣的數(shù)據(jù)？這些數(shù)據(jù)是怎么被生產(chǎn)出來的，又是否全面、公正地代表了知識(shí)生產(chǎn)者們想要研究的問題？

這個(gè)問題，對(duì)于“傳統(tǒng)”的知識(shí)生產(chǎn)者而言也是成立的。以歷史學(xué)為例，雖然歷史研究的是過去的事情，但過去的事情沒有百分百能夠蓋棺定論的。學(xué)者們通常會(huì)不斷地尋找新的史料，去補(bǔ)充對(duì)于歷史問題的理解，去不斷地挖掘過去被忽略的視角和聲音。有趣的是，當(dāng)下的史學(xué)，也常常會(huì)求助于大量的數(shù)據(jù)，特別是過去的經(jīng)濟(jì)、人口、氣候數(shù)據(jù)，甚至依靠機(jī)器學(xué)習(xí)，為歷史帶來的新認(rèn)識(shí)、新觀點(diǎn)。

同樣的，依靠機(jī)器生成的認(rèn)識(shí)和觀點(diǎn)，也有可能放大了某一些數(shù)據(jù)來源的重要性。現(xiàn)在的知識(shí)生產(chǎn)者，過于依賴那些主流的、存在于互聯(lián)網(wǎng)的、電子的信息，去在那些已經(jīng)被別人“翻譯”為數(shù)據(jù)的東西上進(jìn)行創(chuàng)造。在AI時(shí)代，AI提供的便利和可延展性，也會(huì)潛在地讓人們更容易忽視沒有被數(shù)據(jù)化、電子化的，非主流的，經(jīng)驗(yàn)性的知識(shí)，從而錯(cuò)過形成新觀點(diǎn)、新視角的可能性。

往更深層次講，新知識(shí)往往產(chǎn)生于對(duì)于新材料的挖掘，不同觀點(diǎn)、不同視角之間的碰撞，對(duì)于現(xiàn)有知識(shí)的重新解構(gòu)。大語言模型為知識(shí)的展現(xiàn)提供了許多可能性，然而其內(nèi)在的邏輯和架構(gòu)可能是和這種生產(chǎn)方式相悖的。

基于大語言模型的訓(xùn)練方式，和模型生成輸出的特征，排序靠前的、概率更高的輸出內(nèi)容，權(quán)重會(huì)變得更大，特征會(huì)變得更單一。“AI生成的”幾乎已經(jīng)變成了一個(gè)形容詞，去描述那些沒有特征的、不斷重復(fù)、說了像是沒說的片湯話。誠然，對(duì)于知識(shí)消費(fèi)者而言，那些“最有可能”出現(xiàn)的答案大大降低了理解門檻；但對(duì)于知識(shí)生產(chǎn)者而言，這些東西反而有可能成為阻礙。

新時(shí)代的知識(shí)生產(chǎn)者，該往哪里走？

可能很多和我一樣的社科研究者，都在使用ChatGPT的時(shí)候遇到過這個(gè)問題：問它解釋一個(gè)概念，說得頭頭是道；然而問起來源，就是“一本正經(jīng)地胡說八道”了，比如列舉出一個(gè)作者從來沒寫過的書、從來沒發(fā)表過的論文。領(lǐng)域越是狹窄、專業(yè)，“胡說”的可能性越大。

退回到AI的原理，這種“創(chuàng)造”其實(shí)也是在海量的數(shù)據(jù)中，挖掘詞句“有可能”的聯(lián)系，但這些聯(lián)系在現(xiàn)實(shí)中是不存在的，說白了只是“聽起來很像”。這種新現(xiàn)象，在當(dāng)下被稱為“幻視”（hallucination）。對(duì)于知識(shí)生產(chǎn)者而言，如何活用人工智能去挖掘現(xiàn)有知識(shí)庫中的模式和聯(lián)系，但又對(duì)機(jī)器的“幻視”保持警惕，什么存在，什么存疑，是非常重要的技能。

與AI“對(duì)話”，也會(huì)變成一個(gè)新的技能。當(dāng)下的AI對(duì)于大部分非技術(shù)人員而言（甚至技術(shù)人員），依然是一個(gè)神秘的“黑箱”。如何從技術(shù)的底層或者中層入手，去更有效地與機(jī)器對(duì)話，理解和對(duì)抗“幻視”，需要知識(shí)生產(chǎn)者和技術(shù)從業(yè)人員的合作。

而對(duì)于新知識(shí)、新視角、新材料的研究，各個(gè)領(lǐng)域獨(dú)有的結(jié)構(gòu)和詮釋，在當(dāng)下依然是十分關(guān)鍵的。大語言模型和生成式AI的預(yù)測(cè)模式，依然是傾向單一、重復(fù)的，越是訓(xùn)練材料少的領(lǐng)域，能力就越是有限。想要機(jī)器和人能力的結(jié)合，就必須從數(shù)據(jù)的生產(chǎn)根源上著手，去用準(zhǔn)確的、多樣的、公正的、新穎的數(shù)據(jù)訓(xùn)練AI模型，建立良性的人機(jī)互動(dòng)模式。大語言模型和生成式AI的問世對(duì)研究人員帶來的挑戰(zhàn)，僅僅是一個(gè)開始。與其探討“取代”，不如在更加審慎的目光下，尋求磨合與發(fā)展的可能。

標(biāo)簽：

有了ChatGPT，讀書還有用嗎？的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

有了ChatGPT，讀書還有用嗎？

有了ChatGPT，讀書還有用嗎？的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

有了ChatGPT，讀書還有用嗎？

本文作者的其他文章

有了ChatGPT，讀書還有用嗎？的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

有了ChatGPT，讀書還有用嗎？

有了ChatGPT，讀書還有用嗎？的評(píng)論 (共條)