最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

有了ChatGPT,讀書還有用嗎?

2023-08-15 23:41 作者:Tomgis  | 我要投稿

上半年ChatGPT橫空出世,人工智能的潛能展現(xiàn),給許多職業(yè)帶來了一場生存危機(jī)的探討。它能夠通過律師和工程師資格考試,寫的大學(xué)論文能不掛科,甚至能夠“理解”笑話。它能回答人們的疑問,組織生動(dòng)的語言結(jié)構(gòu),模仿各式各樣的語言風(fēng)格;而大語言模型和圖像生成AI結(jié)合的技術(shù),例如Midjourney,能夠讓絲毫沒有受過藝術(shù)訓(xùn)練的人,用只言片語“創(chuàng)造”出驚人的藝術(shù)圖像。


ChatGPT的本質(zhì),實(shí)際上是大語言模型(Large?Language Model,LLM)疊加生成式人工智能。大語言模型,顧名思義,就是大,用海量的語素,用機(jī)器學(xué)習(xí)的方法訓(xùn)練一個(gè)計(jì)算機(jī)模型。生成式,則是用預(yù)測(cè)的方式,在對(duì)話時(shí)把最有可能出現(xiàn)的語素聯(lián)系展示出來。

對(duì)于知識(shí)“加工”和“消費(fèi)”者而言,大語言模型加上生成式人工智能的能力是巨大的。海量語素?cái)?shù)據(jù)、深度神經(jīng)網(wǎng)絡(luò)和極大的計(jì)算力,相當(dāng)于把整個(gè)來自互聯(lián)網(wǎng)的知識(shí)“壓平”,再通過人機(jī)互動(dòng)進(jìn)行“整裝”。


從計(jì)算邏輯上來講,ChatGPT相當(dāng)于一個(gè)更加強(qiáng)大的搜索引擎。普通的搜索引擎例如谷歌和百度通過爬蟲的模式“扒”整個(gè)互聯(lián)網(wǎng)的信息,并通過復(fù)雜的算法進(jìn)行排序。而人工智能使用機(jī)器學(xué)習(xí)的方法,相當(dāng)于把這些扒出來的信息,用預(yù)測(cè)的方式進(jìn)行了符合語言邏輯的整理。知識(shí)加工變得更加便捷迅速,消費(fèi)變得更加簡明清晰——有的時(shí)候甚至過于簡便,給了考試論文作弊以可乘之機(jī)。


針對(duì)這一點(diǎn),技術(shù)樂觀主義者認(rèn)為,既然從今以后機(jī)器能夠生成的內(nèi)容,或許也不需要大多數(shù)的人類去動(dòng)腦實(shí)現(xiàn),就如同搜索引擎取代了圖書館的館藏卡片、計(jì)算器取代珠算一般。的確,那些需要大量重復(fù)的文字類工作,或者機(jī)械地列舉、整理工作,即使AI不介入最終決策,確實(shí)也能夠提供相當(dāng)程度的生產(chǎn)力,輔助人類進(jìn)行知識(shí)的加工和消費(fèi)。


那么,讀書還有用嗎?各大高校、研究機(jī)構(gòu)的人員,是否也可以下班了?


機(jī)器能“學(xué)到”什么?


大語言模型和生成式人工智能,為將來的知識(shí)“生產(chǎn)者”帶來了一個(gè)繞不過的課題:何為知識(shí)?如何生產(chǎn)多樣、公正、真實(shí)的知識(shí)?


人工智能的“學(xué)習(xí)”能力是驚人的?,F(xiàn)有的大語言模型和人工智能的應(yīng)用,都脫不開機(jī)器學(xué)習(xí)作為其底色。“學(xué)習(xí)”二字,實(shí)質(zhì)上是用大量的數(shù)據(jù)訓(xùn)練預(yù)測(cè)模型,并在預(yù)測(cè)的準(zhǔn)確度,以及普適性上找到平衡。這種預(yù)測(cè)實(shí)際上是基于現(xiàn)有知識(shí)的,語言模型的預(yù)測(cè),也是基于現(xiàn)有語言之間的聯(lián)系。例如輸入“紅燒”,機(jī)器預(yù)測(cè)“肉”;然后根據(jù)更多的輸入,例如地點(diǎn),人,習(xí)慣等等,給出更加精確的預(yù)測(cè),比如“外婆做的紅燒牛肉”等等。


這種預(yù)測(cè)是怎么實(shí)現(xiàn)的呢?我們熟悉的坐標(biāo)系是二維的。比如整個(gè)人群中,身高和體重有一個(gè)大致的對(duì)應(yīng)關(guān)系,給出身高,機(jī)器預(yù)測(cè)一個(gè)平均體重,就是基于現(xiàn)有數(shù)據(jù)的預(yù)測(cè)。再加入另一個(gè)維度,比如性別,那么就成為了一個(gè)三維坐標(biāo),男女的預(yù)測(cè)會(huì)有所不同。如此下去,數(shù)據(jù)的維度可以是無限的,而機(jī)器學(xué)習(xí)的模型,就是在人腦所不能想象的多維空間中尋找此類聯(lián)系,并不斷調(diào)整各個(gè)維度之間的權(quán)重。比如,身高對(duì)體重的預(yù)測(cè)“有多重要”,可以在大量的數(shù)據(jù)輸入之后進(jìn)行調(diào)整。


因此,基于機(jī)器學(xué)習(xí)的人工智能,會(huì)把各種維度的數(shù)據(jù),在更高維度的空間里聯(lián)系起來,有發(fā)現(xiàn)數(shù)據(jù)之間潛在聯(lián)系的能力,也會(huì)“學(xué)到”一些現(xiàn)實(shí)中不存在的,但很可能發(fā)生的聯(lián)系。用在語言模型中,人工智能也能學(xué)習(xí)到不同的語言風(fēng)格,挖掘現(xiàn)有文字中的“精髓”和“問題”。


數(shù)據(jù)越大,模型越成熟,其計(jì)算和挖掘能力也越高。類似于 BERT、GPT 這樣誕生于大機(jī)構(gòu)的 AI,被許多人認(rèn)為走到了技術(shù)的“拐點(diǎn)”,量變產(chǎn)生質(zhì)變也不無道理——這對(duì)于知識(shí)生產(chǎn)者來講是好事。不過,大模型也有其內(nèi)在的問題,模型越大,問題也越尖銳,特別是涉及到知識(shí)的多樣、公正和真實(shí)方面。


怎樣才能生產(chǎn)真實(shí)且公正的知識(shí)?


新的知識(shí)能從現(xiàn)有知識(shí)的連結(jié)和新模式中產(chǎn)生,這一點(diǎn)不管是從人還是機(jī)器的層面都是成立的。然而,現(xiàn)有的知識(shí)是否足夠?是否充分?是否公平?如果現(xiàn)有知識(shí)的基礎(chǔ)是不足的、甚至是有偏見的,那么在此基礎(chǔ)上建立的新知識(shí)也會(huì)產(chǎn)生偏差。


自從機(jī)器學(xué)習(xí)的AI投入大規(guī)模應(yīng)用以來,學(xué)者們就在不斷地揭示出這些模型內(nèi)在的偏見:性別歧視、種族歧視、有違倫理的輸出等等。開發(fā)者們用各種補(bǔ)丁和糾偏的方式去彌補(bǔ),但大部分問題都潛藏于數(shù)據(jù)生產(chǎn)和訓(xùn)練過程中,而AI的偏見,亦是對(duì)社會(huì)偏見的反映和放大。


另外一個(gè)問題則是數(shù)據(jù)的質(zhì)量。機(jī)器學(xué)習(xí)不僅牽涉到訓(xùn)練模型的能力,還有數(shù)據(jù)的數(shù)量和質(zhì)量?,F(xiàn)有的開發(fā)過程,對(duì)模型的性能有著更多的強(qiáng)調(diào)甚至是迷信,反而會(huì)忽視更底層的數(shù)據(jù)來源問題?,F(xiàn)在的大部分?jǐn)?shù)據(jù)都要依賴人工來清洗和格式,為數(shù)據(jù)分類、打標(biāo)簽等等。很多時(shí)候,這個(gè)制作數(shù)據(jù)的過程是不透明的,甚至是潦草的。比如,大公司的AI開發(fā)背后,是大量“臟亂差”的人工被外包到欠發(fā)達(dá)地區(qū)的“AI工廠”。這種過程一方面存在著勞工倫理問題,另一方面也對(duì)數(shù)據(jù)質(zhì)量提出了挑戰(zhàn)。


到了大模型時(shí)代,這個(gè)問題可能會(huì)被隱藏得更深一些:不是每個(gè)研究者或者團(tuán)隊(duì)都有能力從0開始開發(fā)AI模型,尤其是大語言、大圖像模型,大多都是在現(xiàn)有模型的基礎(chǔ)上進(jìn)行微調(diào)。而大模型本身的問題和偏差,會(huì)被遷移到更多的應(yīng)用模型上。而越是底層的偏差,越是難以通過微調(diào)糾偏的方式進(jìn)行處理。


現(xiàn)有語言模型的預(yù)測(cè)生成模式,甚至還會(huì)將數(shù)據(jù)現(xiàn)有的偏差放大,產(chǎn)生“過擬合”的效果:例如,某種疾病在某個(gè)族群中統(tǒng)計(jì)數(shù)據(jù)占比偏高,約有60%;但若讓語言模型去生成一個(gè)病人的畫像,那么有超過90%的可能,生成的病人描述會(huì)屬于該族群。


現(xiàn)在一些AI的模型訓(xùn)練,采用的是一種“互搏”模式——所謂“生成對(duì)抗網(wǎng)絡(luò)”(generative adversarial network),讓兩個(gè)模型不斷互相生成、彼此糾正。這種方式的確是提高了模型訓(xùn)練的效率,然而任何小的偏差,都會(huì)在這種“互搏”中被放大。同樣的原理,如果一個(gè)與機(jī)器緊密合作的知識(shí)生產(chǎn)者,其生產(chǎn)依賴于這類“生成”,那么一些來自于模型的偏見,就會(huì)被嵌入更多的新知識(shí)中,新知識(shí)再被吸收為數(shù)據(jù),又進(jìn)一步加強(qiáng)了模型的偏差。知識(shí)生產(chǎn)者在這個(gè)過程中必須保持警惕。


什么是新知識(shí)?AI的“生成”能代表新知識(shí)嗎?


所謂的新知識(shí),究竟是什么?如果要充分使用AI來生產(chǎn)知識(shí),那么知識(shí)生產(chǎn)者就必須要從人機(jī)的結(jié)合點(diǎn)去思考這個(gè)問題。任何信息,以及人類從真實(shí)世界中獲取的知識(shí),都需要被“清洗”和“格式”成數(shù)據(jù)。除了上面提到的數(shù)據(jù)質(zhì)量以外,數(shù)據(jù)生成的過程也很重要。簡而言之,人們要研究的問題是什么?這個(gè)問題被翻譯成為了怎樣的數(shù)據(jù)?這些數(shù)據(jù)是怎么被生產(chǎn)出來的,又是否全面、公正地代表了知識(shí)生產(chǎn)者們想要研究的問題?


這個(gè)問題,對(duì)于“傳統(tǒng)”的知識(shí)生產(chǎn)者而言也是成立的。以歷史學(xué)為例,雖然歷史研究的是過去的事情,但過去的事情沒有百分百能夠蓋棺定論的。學(xué)者們通常會(huì)不斷地尋找新的史料,去補(bǔ)充對(duì)于歷史問題的理解,去不斷地挖掘過去被忽略的視角和聲音。有趣的是,當(dāng)下的史學(xué),也常常會(huì)求助于大量的數(shù)據(jù),特別是過去的經(jīng)濟(jì)、人口、氣候數(shù)據(jù),甚至依靠機(jī)器學(xué)習(xí),為歷史帶來的新認(rèn)識(shí)、新觀點(diǎn)。


同樣的,依靠機(jī)器生成的認(rèn)識(shí)和觀點(diǎn),也有可能放大了某一些數(shù)據(jù)來源的重要性。現(xiàn)在的知識(shí)生產(chǎn)者,過于依賴那些主流的、存在于互聯(lián)網(wǎng)的、電子的信息,去在那些已經(jīng)被別人“翻譯”為數(shù)據(jù)的東西上進(jìn)行創(chuàng)造。在AI時(shí)代,AI提供的便利和可延展性,也會(huì)潛在地讓人們更容易忽視沒有被數(shù)據(jù)化、電子化的,非主流的,經(jīng)驗(yàn)性的知識(shí),從而錯(cuò)過形成新觀點(diǎn)、新視角的可能性。


往更深層次講,新知識(shí)往往產(chǎn)生于對(duì)于新材料的挖掘,不同觀點(diǎn)、不同視角之間的碰撞,對(duì)于現(xiàn)有知識(shí)的重新解構(gòu)。大語言模型為知識(shí)的展現(xiàn)提供了許多可能性,然而其內(nèi)在的邏輯和架構(gòu)可能是和這種生產(chǎn)方式相悖的。


基于大語言模型的訓(xùn)練方式,和模型生成輸出的特征,排序靠前的、概率更高的輸出內(nèi)容,權(quán)重會(huì)變得更大,特征會(huì)變得更單一。“AI生成的”幾乎已經(jīng)變成了一個(gè)形容詞,去描述那些沒有特征的、不斷重復(fù)、說了像是沒說的片湯話。誠然,對(duì)于知識(shí)消費(fèi)者而言,那些“最有可能”出現(xiàn)的答案大大降低了理解門檻;但對(duì)于知識(shí)生產(chǎn)者而言,這些東西反而有可能成為阻礙。


新時(shí)代的知識(shí)生產(chǎn)者,該往哪里走?


可能很多和我一樣的社科研究者,都在使用ChatGPT的時(shí)候遇到過這個(gè)問題:問它解釋一個(gè)概念,說得頭頭是道;然而問起來源,就是“一本正經(jīng)地胡說八道”了,比如列舉出一個(gè)作者從來沒寫過的書、從來沒發(fā)表過的論文。領(lǐng)域越是狹窄、專業(yè),“胡說”的可能性越大。


退回到AI的原理,這種“創(chuàng)造”其實(shí)也是在海量的數(shù)據(jù)中,挖掘詞句“有可能”的聯(lián)系,但這些聯(lián)系在現(xiàn)實(shí)中是不存在的,說白了只是“聽起來很像”。這種新現(xiàn)象,在當(dāng)下被稱為“幻視”(hallucination)。對(duì)于知識(shí)生產(chǎn)者而言,如何活用人工智能去挖掘現(xiàn)有知識(shí)庫中的模式和聯(lián)系,但又對(duì)機(jī)器的“幻視”保持警惕,什么存在,什么存疑,是非常重要的技能。


與AI“對(duì)話”,也會(huì)變成一個(gè)新的技能。當(dāng)下的AI對(duì)于大部分非技術(shù)人員而言(甚至技術(shù)人員),依然是一個(gè)神秘的“黑箱”。如何從技術(shù)的底層或者中層入手,去更有效地與機(jī)器對(duì)話,理解和對(duì)抗“幻視”,需要知識(shí)生產(chǎn)者和技術(shù)從業(yè)人員的合作。

而對(duì)于新知識(shí)、新視角、新材料的研究,各個(gè)領(lǐng)域獨(dú)有的結(jié)構(gòu)和詮釋,在當(dāng)下依然是十分關(guān)鍵的。大語言模型和生成式AI的預(yù)測(cè)模式,依然是傾向單一、重復(fù)的,越是訓(xùn)練材料少的領(lǐng)域,能力就越是有限。想要機(jī)器和人能力的結(jié)合,就必須從數(shù)據(jù)的生產(chǎn)根源上著手,去用準(zhǔn)確的、多樣的、公正的、新穎的數(shù)據(jù)訓(xùn)練AI模型,建立良性的人機(jī)互動(dòng)模式。大語言模型和生成式AI的問世對(duì)研究人員帶來的挑戰(zhàn),僅僅是一個(gè)開始。與其探討“取代”,不如在更加審慎的目光下,尋求磨合與發(fā)展的可能。


有了ChatGPT,讀書還有用嗎?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
莎车县| 曲沃县| 仙桃市| 东海县| 北碚区| 阳高县| 剑阁县| 神农架林区| 青浦区| 松阳县| 大宁县| 竹溪县| 柯坪县| 南昌市| 武强县| 焦作市| 青海省| 黔西县| 揭西县| 朔州市| 高安市| 波密县| 乌什县| 莱西市| 保康县| 蓬溪县| 宜春市| 抚顺市| 迭部县| 大同市| 昌吉市| 南投县| 西吉县| 呼图壁县| 双鸭山市| 拉萨市| 云浮市| 灵寿县| 准格尔旗| 河曲县| 中阳县|