大語(yǔ)言模型的預(yù)訓(xùn)練[2]:GPT3、GPT3.5、GPT4相關(guān)理論知識(shí)模型實(shí)現(xiàn)

大語(yǔ)言模型的預(yù)訓(xùn)練[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相關(guān)理論知識(shí)和模型實(shí)現(xiàn)、模型應(yīng)用以及各個(gè)版本之間的區(qū)別詳解
1.GPT 模型
1.1 GPT 模型簡(jiǎn)介
在自然語(yǔ)言處理問(wèn)題中,可從互聯(lián)網(wǎng)上下載大量無(wú)標(biāo)注數(shù)據(jù),而針對(duì)具體問(wèn)題的有標(biāo)注數(shù)據(jù)卻非常少,GPT 是一種半監(jiān)督學(xué)習(xí)方法,它致力于用大量無(wú)標(biāo)注數(shù)據(jù)讓模型學(xué)習(xí) “常識(shí)”,以緩解標(biāo)注信息不足的問(wèn)題。其具體方法是在針對(duì)有標(biāo)簽數(shù)據(jù)訓(xùn)練 Fine-tune 之前,用無(wú)標(biāo)簽數(shù)據(jù)預(yù)訓(xùn)練模型 Pretrain,并保證兩種訓(xùn)練具有同樣的網(wǎng)絡(luò)結(jié)構(gòu)。 GPT 底層也基于 Transformer 模型,與針對(duì)翻譯任務(wù)的 Transformer 模型不同的是:它只使用了多個(gè) Deocder 層。
下圖展示了 GPT 模型結(jié)構(gòu)和在不修改模型主體結(jié)構(gòu)的情況下,如何使用模型適配多分類(lèi)、文本蘊(yùn)含、相似度、多項(xiàng)選擇這幾類(lèi)問(wèn)題。

其左側(cè)展示了 12 層的 Transformer Decoder 模型,與 Transformer 基礎(chǔ)模型一致。右側(cè)展示了在 Fine-Tune 時(shí),先將不同任務(wù)通過(guò)數(shù)據(jù)組合,代入 Transformer 模型,然后在基礎(chǔ)模型輸出的數(shù)據(jù)后加全連接層(Linear)以適配標(biāo)注數(shù)據(jù)的格式。
例如其中最簡(jiǎn)單的分類(lèi)任務(wù),如對(duì)于句子的感情色彩識(shí)別問(wèn)題,只涉及單個(gè)句子,結(jié)果是二分類(lèi)。因此,只需要代入句子,其在最后加一個(gè)全連接層即可;而判斷相似度問(wèn)題,由于兩句之間沒(méi)有相互關(guān)系,則需要將兩句用加入定界符按不同前后順序連接,分別輸入模型,生成不同的隱藏層數(shù)據(jù)再代入最終的全連接層。
1.2 模型實(shí)現(xiàn)
在預(yù)訓(xùn)練 Pretrain 部分,用 u 表示每一個(gè) token(詞),當(dāng)設(shè)置窗口長(zhǎng)度為 k,預(yù)測(cè)句中的第 i 個(gè)詞時(shí),則使用第 i 個(gè)詞之前的 k 個(gè)詞,同時(shí)也根據(jù)超參數(shù)Θ,來(lái)預(yù)測(cè)第 i 個(gè)詞最可能是什么。簡(jiǎn)言之,用前面的詞預(yù)測(cè)后面的詞。

具體方法是代入 Transformer 模型,下式中的模型由 L 組隱藏層組成,最初輸入隱藏層的數(shù)據(jù)是詞編碼 U 乘詞嵌入?yún)?shù) We 加上位置參數(shù) Wp;后面經(jīng)過(guò) L 個(gè)層(如上圖左側(cè)的 Transformer 組)處理。

在有監(jiān)督訓(xùn)練 Fine-tune 部分,比如判斷句子感情色彩 (二分類(lèi)問(wèn)題) 的句子中包含 m 個(gè)詞 x1…xm,在 pretain 訓(xùn)練好的模型之加后再加一個(gè)全連接層,用于學(xué)習(xí)描述輸入信息 x 與目標(biāo) y 關(guān)系的參數(shù) Wy,最終預(yù)測(cè)目標(biāo) y。

兼顧上式中的 L1 和 L2,加入權(quán)重參數(shù)λ控制其比例計(jì)算出 L3,作為優(yōu)化的依據(jù)。

GPT 與基本的 Transformer 相比,還進(jìn)行了以下修改:
將 GLUE(Gaussian Error Linear Unit)作為誤差函數(shù),GLUE 可視為 ReLU 的改進(jìn)方法,ReLU 將小于 1 的數(shù)據(jù)轉(zhuǎn)換成 0,大于 1 的部分不變,而 GELU 對(duì)其稍做調(diào)整,如下圖所示:

位置編碼:基礎(chǔ) Transformer 使用正余弦函數(shù)構(gòu)造位置信息,位置信息不需要訓(xùn)練相應(yīng)的參數(shù);而 GPT 將絕對(duì)位置信息作為編碼。
1.3 模型效果
GPT 基于 Transformer 修改,在一個(gè) 8 億單詞的語(yǔ)料庫(kù)上訓(xùn)練,12 個(gè) Decoder 層,12 個(gè) attention 頭,隱藏層維度為 768。
GPT 在自然語(yǔ)言推理、分類(lèi)、問(wèn)答、對(duì)比相似度的多種測(cè)評(píng)中均超越了之前的模型。且從小數(shù)據(jù)集如 STS-B(約 5.7k 訓(xùn)練數(shù)據(jù)實(shí)例)到大數(shù)據(jù)集(550k 訓(xùn)練數(shù)據(jù))都表現(xiàn)優(yōu)異。甚至通過(guò)預(yù)訓(xùn)練,也能實(shí)現(xiàn)一些 Zero-Shot 任務(wù)。但由于無(wú)標(biāo)簽數(shù)據(jù)與具體問(wèn)題的契合度低,因此,學(xué)起來(lái)更慢,需要的算力也更多。
1.4 模型應(yīng)用

GPT 模型可以用于生成自然語(yǔ)言文本。在實(shí)際應(yīng)用中,GPT 模型可以應(yīng)用于多個(gè)場(chǎng)景,下面是一些常見(jiàn)的應(yīng)用場(chǎng)景:
語(yǔ)言生成:GPT 模型可以用于生成自然語(yǔ)言文本,例如文章、對(duì)話、新聞、小說(shuō)等。這種應(yīng)用場(chǎng)景可以應(yīng)用于自動(dòng)寫(xiě)作、機(jī)器翻譯、智能客服等領(lǐng)域。
語(yǔ)言理解:GPT 模型可以用于自然語(yǔ)言理解,例如文本分類(lèi)、情感分析、實(shí)體識(shí)別等。這種應(yīng)用場(chǎng)景可以應(yīng)用于搜索引擎、廣告推薦、輿情監(jiān)測(cè)等領(lǐng)域。
對(duì)話系統(tǒng):GPT 模型可以用于構(gòu)建對(duì)話系統(tǒng),例如智能客服、聊天機(jī)器人等。這種應(yīng)用場(chǎng)景可以應(yīng)用于客戶服務(wù)、娛樂(lè)等領(lǐng)域。
語(yǔ)言模型:GPT 模型可以用于構(gòu)建語(yǔ)言模型,例如語(yǔ)音識(shí)別、機(jī)器翻譯等。這種應(yīng)用場(chǎng)景可以應(yīng)用于智能家居、智能交通等領(lǐng)域。
總之,GPT 模型可以應(yīng)用于多個(gè)領(lǐng)域,包括自然語(yǔ)言生成、自然語(yǔ)言理解、對(duì)話系統(tǒng)、語(yǔ)言模型等。隨著人工智能技術(shù)的不斷發(fā)展和應(yīng)用,GPT 模型的應(yīng)用場(chǎng)景也將不斷擴(kuò)展和深化。
2.GPT2 模型
GPT2 是 Open AI 發(fā)布的一個(gè)預(yù)訓(xùn)練語(yǔ)言模型,在文本生成上有著驚艷的表現(xiàn),其生成的文本在上下文連貫性和情感表達(dá)上都超過(guò)了人們的預(yù)期。僅從模型架構(gòu)而言,GPT-2 并沒(méi)有特別新穎的架構(gòu),GPT-2 繼續(xù)沿用了原來(lái)在 GPT 中使用的單向 Transformer 模型,而 GPT-2 的目的就是盡可能利用單向 Transformer 的優(yōu)勢(shì),做出 BERT 使用的雙向 Transformer 所無(wú)法實(shí)現(xiàn)的功能,即通過(guò)上文生成下文文本。
2.1 GPT2 模型架構(gòu)
GPT-2 的結(jié)構(gòu)類(lèi)似于 GPT 模型,仍然使用單向的 Transformer 模型,只做了一些局部修改:如將歸一化層移到 Block 的輸入位置;在最后一個(gè)自注意力塊之后加了一層歸一化;增大詞匯量等等,GPT2 模型結(jié)構(gòu)圖:

其中 Transformer 解碼器結(jié)構(gòu)如下圖:

GPT-2 模型由多層單向 Transformer 的解碼器部分構(gòu)成,本質(zhì)上是自回歸模型,即每次產(chǎn)生新單詞后,將新單詞加到原輸入句后面,作為新的輸入句。
GPT-2 將 Transformer 堆疊的層數(shù)增加到 48 層,隱層的維度為 1600,參數(shù)量更是達(dá)到了 15 億 (Bert large 是 3.4 億)?!感√?hào)」12 層,「中號(hào)」24 層,「大號(hào)」36 層,「特大號(hào)」48 層。GPT-2 訓(xùn)練了 4 組不同的層數(shù)和詞向量的長(zhǎng)度的模型,如圖:

GPT-2 去掉了 fine-tuning 訓(xùn)練:只有無(wú)監(jiān)督的 pre-training 階段,不再針對(duì)不同任務(wù)分別進(jìn)行微調(diào)建模,而是不定義這個(gè)模型應(yīng)該做什么任務(wù),模型會(huì)自動(dòng)識(shí)別出來(lái)需要做什么任務(wù)。收集了更加廣泛、數(shù)量更多的語(yǔ)料組成數(shù)據(jù)集。數(shù)據(jù)集包含 800 萬(wàn)個(gè)網(wǎng)頁(yè),大小為 40G,GPT2 需要的是帶有任務(wù)信息的數(shù)據(jù)。提出了新的 NLP 范式,強(qiáng)調(diào)通過(guò)更多的高質(zhì)量訓(xùn)練數(shù)據(jù)訓(xùn)練高容量語(yǔ)言模型從而無(wú)監(jiān)督完成下游多任務(wù)。嘗試以一種通用的語(yǔ)言模型的方法,去解決現(xiàn)有的大部分 NLP 任務(wù)。
2.2 模型應(yīng)用
GPT-2 模型主要用于自然語(yǔ)言處理任務(wù),例如:
文本生成:GPT-2 可以學(xué)習(xí)大量的文本數(shù)據(jù),并生成類(lèi)似于人類(lèi)寫(xiě)作的文章、故事或詩(shī)歌。
機(jī)器翻譯:GPT-2 可以將一種語(yǔ)言的文本翻譯成另一種語(yǔ)言的文本,如中英文互譯。
情感分析:利用 GPT-2 進(jìn)行情感分析,可以判斷一段文本表達(dá)的情感是積極、消極還是中立。
文本分類(lèi):GPT-2 可以將文本歸類(lèi)為不同的類(lèi)別,如新聞分類(lèi)、電影評(píng)價(jià)分類(lèi)等。
問(wèn)答系統(tǒng):GPT-2 可以回答用戶提出的問(wèn)題,并提供相關(guān)的信息和解決方案。
對(duì)話系統(tǒng):GPT-2 可以模擬人類(lèi)對(duì)話,與用戶進(jìn)行交互,并回答用戶提出的問(wèn)題。
2.3模型評(píng)價(jià)
優(yōu)點(diǎn):
生成能力強(qiáng)大:GPT-2 在生成文本方面具有出色的能力,可以生成連貫、流暢的文章、故事甚至代碼片段。
上下文理解:該模型通過(guò)學(xué)習(xí)大量的文本數(shù)據(jù),能夠理解上下文并生成具有邏輯關(guān)聯(lián)性的回復(fù)。
多領(lǐng)域應(yīng)用:GPT-2 對(duì)于多個(gè)領(lǐng)域的任務(wù)都具有良好的適用性,包括機(jī)器翻譯、摘要生成、對(duì)話系統(tǒng)等。
預(yù)訓(xùn)練模型可用性:GPT-2 的預(yù)訓(xùn)練模型已經(jīng)在公開(kāi)領(lǐng)域發(fā)布,可以方便地進(jìn)行微調(diào)以適應(yīng)特定任務(wù)需求。
語(yǔ)言表達(dá)多樣性:GPT-2 能夠生成多樣化的語(yǔ)言表達(dá),從正式到口語(yǔ)化、幽默到嚴(yán)肅,使得生成的文本更加生動(dòng)和富有趣味性。
缺點(diǎn):
缺乏常識(shí)和實(shí)際知識(shí):盡管 GPT-2 可以生成連貫的文本,但它沒(méi)有自己的常識(shí)和實(shí)際知識(shí),容易受到錯(cuò)誤或誤導(dǎo)性信息的影響。
對(duì)抗性樣本的漏洞:GPT-2 容易受到對(duì)抗性樣本的攻擊,即通過(guò)故意構(gòu)造的輸入來(lái)欺騙模型,導(dǎo)致不準(zhǔn)確或誤導(dǎo)性的輸出。
缺乏創(chuàng)造性和主動(dòng)性:GPT-2 是基于大量數(shù)據(jù)的統(tǒng)計(jì)模型,沒(méi)有真正的創(chuàng)造性和主動(dòng)性,只能在已有的知識(shí)范圍內(nèi)生成文本。
存在長(zhǎng)期依賴問(wèn)題:GPT-2 在處理長(zhǎng)文本時(shí),可能會(huì)遇到長(zhǎng)期依賴問(wèn)題,導(dǎo)致生成的文本在邏輯上不一致或不連貫。
可解釋性差:GPT-2 是一個(gè)黑盒模型,它的決策過(guò)程難以解釋?zhuān)瑹o(wú)法提供詳細(xì)的推理或證據(jù)支持。
3.GPT3 模型
GPT3(Generative Pre-trained Transformer 3)是由 OpenAI 開(kāi)發(fā)的自然語(yǔ)言處理模型,是目前公認(rèn)的大語(yǔ)言模型的開(kāi)山鼻祖。在 GPT 系列中,第一代 GPT 發(fā)布于 2018 年,包含 1.17 億個(gè)參數(shù)。2019 年發(fā)布的 GPT2 包含 15 億個(gè)參數(shù)。而 GPT3 擁有 1750 億個(gè)參數(shù),是其前身的 100 多倍,是同類(lèi)程序的 10 多倍。GPT3 使用了深度學(xué)習(xí)中的 Transformer 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并利用了無(wú)監(jiān)督預(yù)訓(xùn)練技術(shù),可以自動(dòng)處理各種自然語(yǔ)言任務(wù),如文本生成、問(wèn)答、翻譯等。
GPT3 延續(xù)自己的單向語(yǔ)言模型訓(xùn)練方式,不僅大量增加模型參數(shù),而且 GPT3 主要聚焦于更通用的 NLP 模型,GPT3 模型在一系列基準(zhǔn)測(cè)試和特定領(lǐng)域的自然語(yǔ)言處理任務(wù)(從語(yǔ)言翻譯到生成新聞)中達(dá)到最新的 SOTA 結(jié)果。對(duì)于所有任務(wù),GPT3 沒(méi)有進(jìn)行任何微調(diào),僅通過(guò)文本與模型進(jìn)行交互。與 GPT2 模型架構(gòu)一樣,如下圖所示:

但與 GPT-2 相比,GPT-3 的圖像生成功能更成熟,不需經(jīng)過(guò)微調(diào),就可以在不完整的圖像樣本基礎(chǔ)上補(bǔ)全完整的圖像。GPT-3 意味著從一代到三代的跨越實(shí)現(xiàn)了兩個(gè)轉(zhuǎn)向:
從語(yǔ)言到圖像的轉(zhuǎn)向;
使用更少的領(lǐng)域數(shù)據(jù)、甚至不經(jīng)過(guò)微調(diào)步驟去解決問(wèn)題。
3.1 GPT3 訓(xùn)練策略
GPT3 在下游任務(wù)中采用 in-context learning 進(jìn)行訓(xùn)練。情境學(xué)習(xí)(in-context learning):在被給定的幾個(gè)任務(wù)示例或一個(gè)任務(wù)說(shuō)明的情況下,模型應(yīng)該能通過(guò)簡(jiǎn)單預(yù)測(cè)以補(bǔ)全任務(wù)中其他的實(shí)例。以下是三種情景學(xué)習(xí)方法:
few-shot learning (沒(méi)有梯度傳播,在預(yù)測(cè)時(shí)將一些例子也作為輸入輸出模型)
定義:允許輸入數(shù)條范例和一則任務(wù)說(shuō)明
下圖為示例:one-shot learning (沒(méi)有梯度傳播,在預(yù)測(cè)時(shí)將一個(gè)例子也作為輸入輸出模型)
定義:只允許輸入一條范例和一則任務(wù)說(shuō)明
下圖為示例:zero-shot learning (沒(méi)有梯度傳播)
定義:不允許輸入任何范例,只允許輸入一則任務(wù)說(shuō)明
下圖為示例:
3.2 模型性能
GPT-3 在 few-shot / zero-shot 設(shè)置下比 LAMBADA 和 Penn Tree Bank 這樣的語(yǔ)言建模數(shù)據(jù)集表現(xiàn)得更好。對(duì)于其他數(shù)據(jù)集,它無(wú)法擊敗最先進(jìn)的技術(shù),但提高了 zero-shot 的最先進(jìn)的性能。
GPT-3 在 NLP 的任務(wù)中也表現(xiàn)得相當(dāng)好,比如回答閉書(shū)的問(wèn)題、模式解析、翻譯等,通常優(yōu)于最先進(jìn)的技術(shù),或者與經(jīng)過(guò)微調(diào)的模型相當(dāng)。對(duì)于大多數(shù)任務(wù),該模型在 few-shot 設(shè)置比 one-shot 和 zero-shot 更好。
GPT-3 除了在傳統(tǒng)的 NLP 任務(wù)中進(jìn)行評(píng)估外,還在算術(shù)加法、單詞解讀、新聞生成、學(xué)習(xí)和使用新單詞等綜合任務(wù)中進(jìn)行評(píng)估。對(duì)于這些任務(wù),性能也隨著參數(shù)數(shù)量的增加而增加,并且模型在 few shot 設(shè)置中比 one-shot 和 zero-shot 設(shè)置中表現(xiàn)得更好。
下圖解釋了如何將 GPT-3 理解為元學(xué)習(xí)(meta learning),模型學(xué)習(xí)了很多不同的任務(wù),可以類(lèi)比成元學(xué)習(xí)的過(guò)程,因此具有更好的泛化性。

3.3 局限性
雖然 GPT-3 能夠生成高質(zhì)量的文本,但有時(shí)它在形成長(zhǎng)句子和反復(fù)重復(fù)文本序列時(shí)開(kāi)始失去連貫性。
GPT-3 的限制包括復(fù)雜和昂貴的模型推理,這是由于其沉重的架構(gòu),語(yǔ)言和模型產(chǎn)生的結(jié)果的可解釋性較低,以及關(guān)于幫助模型實(shí)現(xiàn)其少量的學(xué)習(xí)行為的不確定性。
3.4 模型應(yīng)用
GPT-3 是一個(gè)非常強(qiáng)大的語(yǔ)言模型,可以用于許多不同的應(yīng)用和領(lǐng)域:
自然語(yǔ)言生成:GPT-3 可以用于自動(dòng)生成文章、電子郵件、產(chǎn)品描述等各種類(lèi)型的文本。
智能客服:GPT-3 可以用于構(gòu)建聊天機(jī)器人,解決客戶的問(wèn)題并提供幫助。
寫(xiě)作助手:GPT-3 可以提供主題、段落和句子建議,同時(shí)根據(jù)用戶輸入的數(shù)據(jù)自動(dòng)生成合適的文本。
語(yǔ)言翻譯:GPT-3 可以用于翻譯不同語(yǔ)言之間的文本,從而促進(jìn)跨文化交流。
自動(dòng)摘要:GPT-3 可以用于自動(dòng)提取一篇文章或文檔的主要信息和重點(diǎn),從而幫助用戶更快地了解其內(nèi)容。
虛擬助手:GPT-3 可以用于構(gòu)建虛擬助手,例如 Siri 或 Alexa。它可以理解用戶的指令,并執(zhí)行相應(yīng)的操作。
個(gè)性化推薦:GPT-3 可以分析用戶的歷史行為和偏好,從而為他們提供個(gè)性化的商品和服務(wù)推薦。
智能搜索:GPT-3 可以用于改進(jìn)搜索引擎結(jié)果,提供更準(zhǔn)確的答案和建議。
自動(dòng)化編程:GPT-3 可以用于自動(dòng)生成代碼和腳本,從而節(jié)省開(kāi)發(fā)者的時(shí)間并減少錯(cuò)誤的產(chǎn)生。
藝術(shù)創(chuàng)作:GPT-3 的文本生成能力可以用于創(chuàng)作詩(shī)歌、小說(shuō)、劇本等藝術(shù)形式,從而提供新穎的文學(xué)體驗(yàn)。
這些只是 GPT-3 應(yīng)用領(lǐng)域的一小部分。隨著技術(shù)的發(fā)展,GPT-3 將在越來(lái)越多的領(lǐng)域得到應(yīng)用。
4.GPT3.5 大語(yǔ)言模型
GPT3.5 是一款由 OpenAI 開(kāi)發(fā)的聊天機(jī)器人模型,它能夠模擬人類(lèi)的語(yǔ)言行為,與用戶進(jìn)行自然的交互。它的名稱(chēng)來(lái)源于它所使用的技術(shù)—— GPT-3 架構(gòu),即生成式語(yǔ)言模型的第 3 代,同時(shí),基于 GPT3.5 開(kāi)發(fā)出 ChatGPT 智能聊天機(jī)器人模型。 GPT3.5 通過(guò)使用大量的訓(xùn)練數(shù)據(jù)來(lái)模擬人類(lèi)的語(yǔ)言行為,并通過(guò)語(yǔ)法和語(yǔ)義分析,生成人類(lèi)可以理解的文本。它可以根據(jù)上下文和語(yǔ)境,提供準(zhǔn)確和恰當(dāng)?shù)幕卮穑⒛M多種情緒和語(yǔ)氣。這樣,就可以讓用戶在與機(jī)器交互時(shí),感受到更加真實(shí)和自然的對(duì)話體驗(yàn)。
GPT3.5 模型上和之前 GPT-3 都沒(méi)有太大變化,主要變化的是訓(xùn)練策略變了,用上了強(qiáng)化學(xué)習(xí)。如下圖為 GPT3.5 模型結(jié)構(gòu)圖:

4.1 GPT3.5 訓(xùn)練策略
GPT3.5 訓(xùn)練策略采用獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練,一個(gè)獎(jiǎng)勵(lì)模型(RM)的目標(biāo)是刻畫(huà)模型的輸出是否在人類(lèi)看來(lái)表現(xiàn)不錯(cuò)。即,輸入 [提示 (prompt),模型生成的文本] ,輸出一個(gè)刻畫(huà)文本質(zhì)量的標(biāo)量數(shù)字。

獎(jiǎng)勵(lì)模型可以看做一個(gè)判別式的語(yǔ)言模型,因此可以用一個(gè)預(yù)訓(xùn)練語(yǔ)言模型熱啟,而后在 [x=[prompt,模型回答], y = 人類(lèi)滿意度] 構(gòu)成的標(biāo)注語(yǔ)料上去微調(diào),也可以直接隨機(jī)初始化,在語(yǔ)料上直接訓(xùn)練。
4.2 基于強(qiáng)化學(xué)習(xí)(RL)進(jìn)行語(yǔ)言模型優(yōu)化
GPT3.5 將初始語(yǔ)言模型的微調(diào)任務(wù)建模為強(qiáng)化學(xué)習(xí)(RL)問(wèn)題,因此需要定義策略(policy)、動(dòng)作空間(action space)和獎(jiǎng)勵(lì)函數(shù)(reward function)等基本要素。
策略就是基于該語(yǔ)言模型,接收 prompt 作為輸入,然后輸出一系列文本(或文本的概率分布);而動(dòng)作空間就是詞表所有 token 在所有輸出位置的排列組合(單個(gè)位置通常有 50k 左右的 token 候選);觀察空間則是可能的輸入 token 序列(即 prompt),為詞表所有 token 在所有輸入位置的排列組合;而獎(jiǎng)勵(lì)函數(shù)則是基于獎(jiǎng)勵(lì)模型訓(xùn)練好的 RM 模型,配合一些策略層面的約束進(jìn)行的獎(jiǎng)勵(lì)計(jì)算。
計(jì)算獎(jiǎng)勵(lì)(reward):
基于前面的預(yù)先富集的數(shù)據(jù),從里面采樣 prompt 輸入,同時(shí)輸入給初始的語(yǔ)言模型和當(dāng)前訓(xùn)練中的語(yǔ)言模型(policy),得到兩個(gè)模型的輸出文本 y1,y2。用獎(jiǎng)勵(lì)模型 RM 對(duì) y1、y2 打分,判斷誰(shuí)更優(yōu)秀。打分的差值便可以作為訓(xùn)練策略模型參數(shù)的信號(hào),這個(gè)信號(hào)一般通過(guò) KL 散度來(lái)計(jì)算 “獎(jiǎng)勵(lì) / 懲罰” 的大小。若 y2 文本的打分比 y1 高的越多,獎(jiǎng)勵(lì)就越大,反之懲罰則越大。這個(gè) reward 信號(hào)就反映了文本整體的生成質(zhì)量。
通過(guò)這個(gè) reward,便可以根據(jù) Proximal Policy Optimization (PPO) 算法來(lái)更新模型參數(shù)。
該階段流程如下圖所示:

4.3 模型優(yōu)缺點(diǎn)
GPT3.5 作為自然語(yǔ)言處理領(lǐng)域的重要技術(shù)之一,具有非常廣泛的應(yīng)用前景和發(fā)展?jié)摿?。通過(guò)對(duì)話生成技術(shù),可以實(shí)現(xiàn)智能客服、知識(shí)問(wèn)答系統(tǒng)、自然語(yǔ)言生成等多種應(yīng)用場(chǎng)景,大大提高了人機(jī)交互的效率和便利性。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展和深度學(xué)習(xí)算法的不斷進(jìn)步,GPT3.5 的應(yīng)用領(lǐng)域也將不斷擴(kuò)展和深化,為人們提供更加先進(jìn)、高效、智能的自然語(yǔ)言處理服務(wù)。下圖為兩個(gè)提示的 GPT3.5 輸出。

GPT3.5 優(yōu)點(diǎn):
多功能性:GPT3.5 可以回答各種問(wèn)題,提供創(chuàng)意靈感,支持語(yǔ)音識(shí)別等多種功能,可以應(yīng)用于多個(gè)領(lǐng)域,如技術(shù)支持、智能客服、文本生成等。
自然語(yǔ)言處理能力:GPT3.5 具備較強(qiáng)的自然語(yǔ)言處理能力,可以模擬人類(lèi)對(duì)話,表達(dá)思想和感情,提供更加自然流暢的回答。
多語(yǔ)種支持:GPT3.5 支持多種語(yǔ)言,可以滿足不同國(guó)家和地區(qū)的語(yǔ)言需求。
智能學(xué)習(xí):GPT3.5 可以通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行學(xué)習(xí),不斷提高自身的表達(dá)能力和回答準(zhǔn)確率,具備一定的智能學(xué)習(xí)能力。
便捷性:GPT3.5 可以通過(guò)第三方的應(yīng)用程序或者網(wǎng)站、OpenAI 提供的 API 或者在 OpenAI 官方網(wǎng)站上使用,使用起來(lái)非常便捷。
GPT3.5 缺點(diǎn):
可能存在偏見(jiàn):由于 GPT3.5 是通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行學(xué)習(xí)得到的,可能存在數(shù)據(jù)偏見(jiàn)的問(wèn)題。這可能導(dǎo)致 GPT3.5 對(duì)某些群體或某些觀點(diǎn)的回答存在偏見(jiàn)。
缺乏人情味:盡管 GPT3.5 可以模擬人類(lèi)對(duì)話,但它仍然缺乏真正的情感和人性化,無(wú)法像真正的人類(lèi)一樣進(jìn)行復(fù)雜的思考和情感表達(dá)。
需要大量數(shù)據(jù):為了讓 GPT3.5 具備較高的回答準(zhǔn)確率和表達(dá)能力,需要訓(xùn)練大量的數(shù)據(jù),這需要消耗大量的時(shí)間和資源。
可能存在安全隱患:在使用 GPT3.5 模型時(shí),需要輸入一定的文本或語(yǔ)音數(shù)據(jù),這可能會(huì)導(dǎo)致個(gè)人隱私泄露的風(fēng)險(xiǎn)。
5.GPT4 大語(yǔ)言模型
GPT-4(第 4 代生成式預(yù)訓(xùn)練變換模型 Generative Pre-trained Transformer 4)是一個(gè)大型多模態(tài)模型,能夠接受圖像和文本輸入,并輸出文本。GPT4 依舊采用 Transformer 模型結(jié)構(gòu),具有處理圖片的能力,模型結(jié)構(gòu)不再是 Decoder-only,而是具有 Encoder 完成圖像的編碼。如下圖所示,GPT4 指出這幅圖把一個(gè)大而過(guò)時(shí)的 VGA 接口插入一個(gè)小而現(xiàn)代的智能手機(jī)充電端口是荒謬的。

GPT4 模型比 GPT3 模型參數(shù)量增大數(shù)倍,模型參數(shù)量或接近萬(wàn)億級(jí)別,為了訓(xùn)練 GPT4,OpenAI 使用了 Microsoft 的 Azure 云計(jì)算服務(wù),其中包括連接在一起的數(shù)千個(gè) Nvidia A100 圖形處理單元或 GPU。GPT4 在訓(xùn)練策略中提出 RBRMS(基于規(guī)則的獎(jiǎng)勵(lì)模型)來(lái)處理安全性問(wèn)題。
5.1 GPT4 模型安全性
GPT-4 做了大量的工作來(lái)保證模型的安全性,首先聘請(qǐng)了 50 余位不同方向的領(lǐng)域?qū)<疫M(jìn)行對(duì)抗測(cè)試和紅隊(duì)測(cè)試,二是訓(xùn)練了一個(gè)基于規(guī)則的獎(jiǎng)勵(lì)模型(Rule-Based Reward Models, RBRMs)+RLHF 來(lái)輔助模型的訓(xùn)練。
RBRMS(Rule-Based Reward Models):目的是通過(guò)正確的獎(jiǎng)勵(lì)引導(dǎo)模型的訓(xùn)練,來(lái)拒絕生成有害的請(qǐng)求以及不拒絕無(wú)害的請(qǐng)求。
RLHF(Reinforcement Learning from Human Feedback):即用強(qiáng)化學(xué)習(xí)的方法,利用人類(lèi)反饋信號(hào)直接優(yōu)化語(yǔ)言模型。訓(xùn)練過(guò)程如下圖所示,可以分解為三個(gè)核心步驟:
多種策略產(chǎn)生樣本并收集人類(lèi)反饋
訓(xùn)練獎(jiǎng)勵(lì)模型
訓(xùn)練強(qiáng)化學(xué)習(xí)策略,微調(diào) LM
5.2 模型對(duì)比
模型規(guī)模:GPT-4 的規(guī)模比 GPT-3 更大,包括更多的參數(shù)和更深的網(wǎng)絡(luò)結(jié)構(gòu)。隨著規(guī)模的增加,GPT-4 能夠捕捉更為復(fù)雜的語(yǔ)言模式和語(yǔ)義關(guān)系,從而提高對(duì)自然語(yǔ)言的理解和生成能力。
性能提升:由于規(guī)模的擴(kuò)大,GPT-4 相較于 GPT-3 在多數(shù)自然語(yǔ)言處理任務(wù)中表現(xiàn)出更高的性能。這包括閱讀理解、機(jī)器翻譯、摘要生成、問(wèn)答等任務(wù)。這意味著 GPT-4 能夠更好地理解用戶輸入,生成更準(zhǔn)確、更自然的回復(fù)。
訓(xùn)練數(shù)據(jù)和數(shù)據(jù)清洗:GPT-4 使用了更新、更豐富的訓(xùn)練數(shù)據(jù)集。相較于 GPT-3,GPT-4 在數(shù)據(jù)篩選和清洗方面采取了更為嚴(yán)格的標(biāo)準(zhǔn),以減少訓(xùn)練數(shù)據(jù)中的錯(cuò)誤信息、過(guò)時(shí)內(nèi)容和偏見(jiàn)。
微調(diào)能力:GPT-4 在微調(diào)方面的表現(xiàn)優(yōu)于 GPT-3,這意味著使用較少的標(biāo)簽數(shù)據(jù),GPT-4 就能適應(yīng)特定任務(wù)和領(lǐng)域。這使得 GPT-4 在個(gè)性化定制和特定場(chǎng)景下的應(yīng)用更為靈活和高效。
魯棒性和可解釋性:GPT-4 在模型魯棒性和可解釋性方面取得了一定的進(jìn)展。通過(guò)引入新的技術(shù)和方法,GPT-4 能夠更好地處理異常輸入、抵抗對(duì)抗性攻擊,同時(shí)提供關(guān)于其預(yù)測(cè)的可解釋性。
優(yōu)化資源消耗:雖然 GPT-4 的規(guī)模更大,但 OpenAI 已經(jīng)采取了一系列優(yōu)化措施,以降低模型在訓(xùn)練和推理階段的資源消耗。這使得 GPT-4 在保持高性能的同時(shí),降低了計(jì)算成本和環(huán)境影響。
生成策略的改進(jìn):GPT-4 在生成策略方面進(jìn)行了優(yōu)化,提高了輸出文本的質(zhì)量、多樣性和可控性。這意味著 GPT-4 在生成回復(fù)時(shí)能夠更好地滿足用戶的需求和偏好,同時(shí)降低了生成無(wú)關(guān)、重復(fù)或不恰當(dāng)內(nèi)容的風(fēng)險(xiǎn)。
更廣泛的應(yīng)用領(lǐng)域:得益于性能的提升和優(yōu)化措施,GPT-4 在各種應(yīng)用領(lǐng)域具有更廣泛的適用性。除了傳統(tǒng)的自然語(yǔ)言處理任務(wù)外,GPT-4 還能夠應(yīng)對(duì)更復(fù)雜的場(chǎng)景,如多模態(tài)任務(wù)、知識(shí)圖譜生成等。
社區(qū)支持與開(kāi)發(fā)工具:隨著 GPT-4 的推出,OpenAI 也為開(kāi)發(fā)者提供了更豐富的支持資源和工具,包括 API、SDK、預(yù)訓(xùn)練模型等。這使得開(kāi)發(fā)者更容易在自己的項(xiàng)目中集成和利用 GPT-4。
GPT-4 比以前的模型表現(xiàn)出更多的常識(shí)性,如下圖案例所示:

5.3 應(yīng)用
多模式和跨學(xué)科構(gòu)成:GPT-4 不僅在文學(xué)、醫(yī)學(xué)、法律、數(shù)學(xué)、物理科學(xué)和編程等不同領(lǐng)域表現(xiàn)出高度的熟練程度,而且還能流暢地結(jié)合多個(gè)領(lǐng)域的技能和概念,顯示出對(duì)復(fù)雜思想的理解能力令人印象深刻。下圖為 GPT-4 和 ChatGPT 在跨學(xué)科任務(wù)上的比較案例:

代碼生成:GPT-4 能夠在非常高的水平上進(jìn)行編碼,無(wú)論是從指令編寫(xiě)代碼還是理解現(xiàn)有代碼,能夠處理廣泛的編碼任務(wù),從編碼挑戰(zhàn)到現(xiàn)實(shí)世界的應(yīng)用,從低級(jí)匯編到高級(jí)框架,從簡(jiǎn)單的數(shù)據(jù)結(jié)構(gòu)到復(fù)雜的程序,還可以對(duì)代碼的執(zhí)行進(jìn)行推理,模擬指令的效果,并以自然語(yǔ)言解釋結(jié)果,甚至可以執(zhí)行偽代碼,這需要解釋在任何編程語(yǔ)言中都無(wú)效的非正式和模糊的表達(dá)。如下圖為 GPT-4 執(zhí)行 Python 代碼案例:
GPT4 在各個(gè)領(lǐng)域的應(yīng)用場(chǎng)景給人類(lèi)帶來(lái)了革新力量,除了上述的應(yīng)用領(lǐng)域外,還有以下應(yīng)用領(lǐng)域:
內(nèi)容創(chuàng)作與編輯:
GPT-4 在文本生成方面的優(yōu)秀表現(xiàn)為創(chuàng)作者提供了強(qiáng)大的支持。從撰寫(xiě)軟文、博客文章到書(shū)籍創(chuàng)作,GPT-4 都能夠根據(jù)用戶需求生成高質(zhì)量的內(nèi)容。同時(shí),GPT-4 還具有智能糾錯(cuò)和編輯功能,能幫助用戶快速優(yōu)化文本,提高工作效率。語(yǔ)言翻譯:
借助 GPT-4 的深度學(xué)習(xí)技術(shù),語(yǔ)言翻譯領(lǐng)域得以實(shí)現(xiàn)實(shí)時(shí)、準(zhǔn)確的翻譯服務(wù)。GPT-4 支持多種語(yǔ)言之間的互譯,為國(guó)際交流和合作提供了便捷的語(yǔ)言溝通橋梁。客服與支持:
越來(lái)越多的企業(yè)開(kāi)始將 GPT-4 應(yīng)用于在線客服系統(tǒng),實(shí)現(xiàn)智能、高效的用戶服務(wù)。GPT-4 可以根據(jù)用戶提問(wèn)快速生成準(zhǔn)確、專(zhuān)業(yè)的回答,大大提高了客戶滿意度和客服效率。智能教育:
GPT-4 在教育領(lǐng)域的應(yīng)用前景也十分廣闊。AI 輔導(dǎo)系統(tǒng)可以為學(xué)生提供個(gè)性化的學(xué)習(xí)建議和答疑解惑服務(wù)。此外,GPT-4 還可用于編寫(xiě)教材、教案等教育資源,為老師們分擔(dān)工作負(fù)擔(dān)。游戲開(kāi)發(fā):
GPT-4 在游戲領(lǐng)域也發(fā)揮著重要作用。開(kāi)發(fā)者可以利用 GPT-4 生成各種游戲場(chǎng)景、角色對(duì)話和劇情設(shè)計(jì),為玩家創(chuàng)造豐富、獨(dú)特的游戲體驗(yàn)。語(yǔ)音助手:
語(yǔ)音助手已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧PT-4 通過(guò)自然語(yǔ)言處理技術(shù),使得語(yǔ)音助手可以更好地理解用戶的需求并提供更精確的回應(yīng),滿足人們?cè)谏?、工作等方面的需求?/p>數(shù)據(jù)分析與可視化:
GPT-4 可應(yīng)用于數(shù)據(jù)分析領(lǐng)域,通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行深度挖掘,幫助企業(yè)和個(gè)人發(fā)現(xiàn)潛在價(jià)值。同時(shí),GPT-4 還能生成清晰易懂的可視化圖表,使數(shù)據(jù)分析結(jié)果更直觀、更易于理解。法律咨詢:
借助 GPT-4 的知識(shí)儲(chǔ)備和智能推理能力,用戶可以在法律問(wèn)題上獲得專(zhuān)業(yè)的解答和建議。這將大大降低人們?cè)诜勺稍兎矫娴某杀竞蜁r(shí)間投入。醫(yī)療領(lǐng)域:
GPT-4 在醫(yī)療領(lǐng)域的應(yīng)用也日益受到關(guān)注。AI 模型可以協(xié)助醫(yī)生進(jìn)行病例分析、診斷建議等工作,提高醫(yī)療服務(wù)的準(zhǔn)確性和效率。此外,GPT-4 還可以為患者提供健康咨詢和科普知識(shí),提高大眾的健康意識(shí)。人工智能倫理與監(jiān)管:
隨著 GPT-4 等 AI 技術(shù)的普及,人工智能倫理和監(jiān)管問(wèn)題日益凸顯。GPT-4 可以幫助相關(guān)機(jī)構(gòu)研究、制定相應(yīng)的政策和規(guī)范,確保 AI 技術(shù)在合規(guī)、安全的環(huán)境下發(fā)展。
更多優(yōu)質(zhì)內(nèi)容請(qǐng)關(guān)注公號(hào):汀丶人工智能;會(huì)提供一些相關(guān)的資源和優(yōu)質(zhì)文章,免費(fèi)獲取閱讀。