從80年代的第一個“神經(jīng)元”到 ChatGPT,語言 AI 模型如何演變
流行的 ChatGPT 聊天機(jī)器人建立在 OpenAI?的?GPT-3 語言模型之上,該模型于 2020 年發(fā)布。 這項技術(shù)的基礎(chǔ)是在計算機(jī)時代的黎明奠定的。出版物《麻省理工學(xué)院技術(shù)評論》分享了使用自然語音的神經(jīng)網(wǎng)絡(luò)的創(chuàng)建歷史。
1980年代:第一個項目
現(xiàn)代語言處理算法由于許多參數(shù)的廣泛網(wǎng)絡(luò)而起作用。它們可以與大腦神經(jīng)元進(jìn)行比較。該模型在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,教授跟蹤文本中的統(tǒng)計模式。因此,人工智能開始識別不同情況的背景,并在此基礎(chǔ)上像人一樣形成判斷。
早在 1980 年代,首次亮相的網(wǎng)絡(luò)就能夠處理有限的詞序。但與此同時,他們學(xué)習(xí)的時間太長,經(jīng)?!巴洝毙蛄兄械那皫讉€單詞。1997年,科學(xué)家Sepp Hochreiter和Jürgen Schmidhuber糾正了這一缺陷。他們發(fā)明了神經(jīng)網(wǎng)絡(luò)LTSM(長短期記憶)技術(shù),該技術(shù)可以處理數(shù)百個單詞的文本,并更好地“記住”序列數(shù)據(jù)。然而,他們的語言技能在當(dāng)時仍然有限。
2017-2019:谷歌的“變形金剛”
人工智能領(lǐng)域的下一個重大突破要歸功于一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)——變形金剛。它是由谷歌專家于 2017 年創(chuàng)建的。該技術(shù)提供了許多好處,包括與長文本段落的交互,以及提高對單詞含義以及它們之間聯(lián)系的識別。通過跟蹤上下文的細(xì)微差別,算法已經(jīng)學(xué)會了更好地預(yù)測下一個單詞在序列中是合適的。
幾個月后,OpenAI進(jìn)入游戲,引入了第一代主要語言模型:GPT和GPT-2(生成預(yù)訓(xùn)練轉(zhuǎn)換器)。開發(fā)人員稱他們的創(chuàng)意是“創(chuàng)建能夠執(zhí)行任何語言場景的多任務(wù)、多功能人工智能的關(guān)鍵一步”。模型訓(xùn)練過程也實現(xiàn)了現(xiàn)代化:數(shù)據(jù)不再手動標(biāo)記,這使得更快地分析大量信息成為可能。
2020-2022:GPT-3 和 ChatGPT
隨著所有開發(fā)技術(shù)的進(jìn)一步完善,當(dāng)前的 GPT-3 超出了所有預(yù)期。Ai 生成問題的答案、創(chuàng)建原創(chuàng)故事、縮短文檔和翻譯成不同語言的能力得到了顯著提高。然而,在向公眾展示結(jié)果之前,OpenAI專家必須解決幾個重要問題。
其中一個主要的是偏見,這是由于不受控制地吸收了來自互聯(lián)網(wǎng)的大量信息而產(chǎn)生的。工程師們還關(guān)注道德問題,并于 2020 年 3 月修改了 GPT-2022,以避免矛盾和不可接受的答案。最后,在2022年,神經(jīng)網(wǎng)絡(luò)取得了明顯的進(jìn)展:它幾乎沒有給出錯誤信息和令人反感的內(nèi)容。
基于當(dāng)前的模型,OpenAI創(chuàng)建了一個易于使用的ChatGPT聊天機(jī)器人,并于去年12月向公眾展示。由于許多測試AI助手的用戶的反饋,大多數(shù)錯誤被最小化。剩下的就是歷史了。