ChatGPT 最好的替代品
前兩天我們邀請了微軟工程師為我們揭秘 ChatGPT,直播期間有個(gè)讀者問到:有了 ChatGPT,BERT 未來還有發(fā)展前途嗎?我想起來最近讀過的一篇博客“最好的 ChatGPT 替代品”。
不過聊到這倆模型,就不得不提到 Transformer。
作為當(dāng)下最先進(jìn)的深度學(xué)習(xí)架構(gòu)之一,Transformer 被廣泛應(yīng)用于自然語言處理領(lǐng)域。它不但替代了以前流行的 RNN 和 LSTM,并且以它為基礎(chǔ)衍生出了諸如 BERT、GPT-3、T5 等知名架構(gòu),最近爆火的 ChatGPT 就是基于 GPT-3.5 。
那 Transformer 是如何工作的呢?我們通過一個(gè)文本翻譯實(shí)例來解釋。
Transformer 由編碼器和解碼器兩部分組成。假設(shè)我們需要將一個(gè)句子從英文翻譯為法文。首先,我們需要將這個(gè)英文句子(原句)輸進(jìn)編碼器。編碼器將提取英文句子的特征并提供給解碼器。最后,解碼器通過特征完成法文句子(目標(biāo)句)的翻譯。

此方法看起來很簡單,如何實(shí)現(xiàn)呢?Transformer 中的編碼器和解碼器是如何將英文轉(zhuǎn)換為法文的呢?編碼器和解碼器的內(nèi)部又是怎樣工作的呢?
在 Transformer 中,編碼器不止一個(gè),而是由?N?個(gè)編碼器串聯(lián)而成。一個(gè)編碼器的輸出作為下一個(gè)編碼器的輸入。以此類推,原句中的特征會(huì)由最后一個(gè)編碼器輸出。編碼器模塊的主要功能就是提取原句中的特征。

然后我們將編碼器分解,每一個(gè)編碼器的構(gòu)造都是相同的,包含多頭注意力層和前饋網(wǎng)絡(luò)層兩部分:

這兩部分是如何工作的?我們先來看多頭注意力層,很顯然,要了解多頭注意力機(jī)制的工作原理,我們首先需要理解什么是自注意力機(jī)制。請看下面的例句:
A dog ate the food because it was hungry
(一只狗吃了食物,因?yàn)樗莛I)
代詞 it 可以指代 dog 或者 food。當(dāng)讀這段文字的時(shí)候,會(huì)自然而然地認(rèn)為 it 指代的是 dog,而不是 food。但是計(jì)算機(jī)模型在面對這兩種選擇時(shí)該如何決定呢?這時(shí),自注意力機(jī)制有助于解決這個(gè)問題。
我們的模型首先計(jì)算出句子中每個(gè)單詞的特征值,即首先計(jì)算 A 的特征值,其次計(jì)算 dog 的特征值,然后計(jì)算 ate 的特征值……當(dāng)計(jì)算每個(gè)詞的特征值時(shí),模型都需要遍歷每個(gè)詞與句子中其他詞的“關(guān)系”,這個(gè)“關(guān)系”就能幫助計(jì)算機(jī)更好地理解當(dāng)前詞的意思。
比如計(jì)算 it 的特征值時(shí),模型會(huì)將 it 與句子中的其他詞一一關(guān)聯(lián),it 的特征值由它本身與句子中其他詞的關(guān)系計(jì)算所得。通過關(guān)系連線,模型可以明確知道原句中 it 所指代的是 dog 而不是 food,這是因?yàn)?it 與 dog 的關(guān)系更緊密,關(guān)系連線相較于其他詞也更粗。

到這里,我們已經(jīng)初步了解了什么是自注意力機(jī)制,那它具體是如何實(shí)現(xiàn)的呢?
大家可以繼續(xù)閱讀《BERT基礎(chǔ)教程:Transformer大模型實(shí)戰(zhàn)》,作為 ChatGPT 的“同胞兄弟”,本書會(huì)帶你理解與整合編碼器、解碼器,訓(xùn)練Transformer,簡化自然語言處理任務(wù)!

這本書從深入解析Transformer 的編碼器和解碼器的組成部分開始,幫你理解自然語言處理模型的工作原理,同時(shí)由淺入深地介紹了 BERT 自然語言處理模型的工作原理、BERT 的各種變體及其應(yīng)用。如果你希望了解:
如何訓(xùn)練 BERT 模型?
如何使用 BERT 模型執(zhí)行自然語言推理任務(wù)、文本摘要任務(wù)、問答任務(wù)、命名實(shí)體識(shí)別任務(wù)等各種下游任務(wù)?
如何將 BERT 模型應(yīng)用于不同的語言?
那么《BERT 基礎(chǔ)教程》這本書將通過大量示意圖、代碼、實(shí)例,給你答案!
循序漸進(jìn),輕松上手
本教程由淺入深地介紹了有關(guān) BERT 的各種概念、術(shù)語,能讓你感受到是一個(gè)老師在一步步去引導(dǎo)你,然后親手訓(xùn)練和理解BERT模型。
以簡馭繁,逐步拆解
這本書對小白非常友好,通過大量的示意圖,逐步拆解復(fù)雜原理
全面系統(tǒng),技巧靈動(dòng)
本書為大家呈現(xiàn)了多種下游任務(wù),同時(shí)詳細(xì)講解十余種BERT變體的原理,隨處可見作者實(shí)戰(zhàn)多年凝練出的小技巧,讓你運(yùn)用起來更靈活?
大量練習(xí),運(yùn)用自如
自己不上手試試,理論總會(huì)浮在書本上。本教程中包含了大量作者精心挑選的示例和習(xí)題,讓你不僅能夠全面了解有關(guān)BERT 的各種概念、術(shù)語和原理,還能夠使用BERT 模型及其變體執(zhí)行各種自然語言處理任務(wù)。
希望利用 BERT 超強(qiáng)的理解能力來簡化自然語言處理任務(wù)的伙伴們,本書預(yù)售已開啟,到手價(jià) 49.8!

小編提到的博客,詳見:
https://www.digitaltrends.com/computing/the-best-chatgpt-alternatives-according-to-chatgpt/