ChatGPT核心技術(shù)
一、介紹 大型語言模型,特別是2020年GPT-3推出,取得突破性進(jìn)展,并獲得廣泛關(guān)注,但是,大型語言模型依然存在以下嚴(yán)重問題:
1. 生成不真實(shí)的輸出:這些模型可能會生成與事實(shí)不符或不真實(shí)的輸出,這可能會導(dǎo)致誤導(dǎo)和混淆。
2. 生成有毒的輸出:這些模型可能會生成帶有攻擊性、歧視性或其他有害內(nèi)容的輸出,這可能會對用戶造成傷害。
3. 生成對用戶沒有幫助的輸出:這些模型可能會生成與用戶意圖不一致或無關(guān)緊要的輸出,這可能會浪費(fèi)用戶時間和精力。
因此,InstructGPT提出了一種通過使用人類反饋進(jìn)行微調(diào)的方法,以將語言模型與用戶意圖對齊,并解決上述問題。實(shí)驗(yàn)結(jié)果表明,通過使用人類反饋進(jìn)行微調(diào),可以顯著提高語言模型在各種任務(wù)上的性能。具體而言,在問答、摘要和翻譯等任務(wù)中,微調(diào)后的模型相對于基準(zhǔn)模型的性能提高了很多。
二、具體方案
2.1 總體方案
具體而言,InstructGPT主要包括以下三個步驟:
1. 收集數(shù)據(jù),并進(jìn)行有監(jiān)督微調(diào)(SFT):首先,收集一些比較數(shù)據(jù),其中包括模型輸出之間的比較。具體而言,讓人類標(biāo)注人員評估兩個模型輸出,并指出哪一個更好。利用有監(jiān)督學(xué)習(xí)對GPT-3進(jìn)行微調(diào)。
2. 訓(xùn)練獎勵模型(RM):接下來,使用收集到的比較數(shù)據(jù)來訓(xùn)練一個獎勵模型,將比較數(shù)據(jù)視為一種強(qiáng)化學(xué)習(xí)信號,并使用它來訓(xùn)練一個能夠預(yù)測人類偏好的獎勵模型。
3. 使用獎勵模型進(jìn)行強(qiáng)化學(xué)習(xí)(PPO):最后,使用訓(xùn)練好的獎勵模型來對語言模型進(jìn)行強(qiáng)化學(xué)習(xí)。將獎勵信號視為一種強(qiáng)化學(xué)習(xí)信號,并使用它來更新語言模型參數(shù)。
通過上面的方法,可以使語言模型更好地滿足用戶需求,并且在各種任務(wù)中表現(xiàn)更好。
2.2 有監(jiān)督微調(diào)模型(SFT)
微調(diào)模型是通過在一個任務(wù)特定的數(shù)據(jù)集上對預(yù)訓(xùn)練模型進(jìn)行進(jìn)一步訓(xùn)練來實(shí)現(xiàn)的。預(yù)訓(xùn)練模型通常會在大規(guī)模的通用語料庫上進(jìn)行預(yù)訓(xùn)練,可以捕捉到一般的語言知識,但不能完成特定任務(wù)。因此,需要對預(yù)訓(xùn)練模型進(jìn)行微調(diào),使其能夠適應(yīng)特定的任務(wù)。
在微調(diào)過程中,通常會固定預(yù)訓(xùn)練模型的大部分參數(shù),只更新最后的一些層或添加一些新的層來適應(yīng)特定的任務(wù)。這樣可以利用預(yù)訓(xùn)練模型的豐富語言知識,同時在特定任務(wù)上獲得更好的性能。
例如,在自然語言處理任務(wù)中,可以利用預(yù)訓(xùn)練的語言模型進(jìn)行微調(diào),使其能夠完成特定的任務(wù),如情感分析、命名實(shí)體識別等。在微調(diào)過程中,通常會在預(yù)訓(xùn)練模型的基礎(chǔ)上添加一些任務(wù)特定的層,然后使用一個較小的、任務(wù)特定的數(shù)據(jù)集進(jìn)行訓(xùn)練。
SFT 的微調(diào)過程主要涉及兩個方面:一是微調(diào) GPT-3 模型,使其更好地遵循人類反饋;二是微調(diào) SFT 模型,使其更好地預(yù)測人類反饋。在微調(diào) GPT-3 模型時,主要是微調(diào)它的輸出層權(quán)重,以便更好地對任務(wù)進(jìn)行調(diào)整。同時,還可以根據(jù)具體任務(wù),微調(diào)其他層的權(quán)重以增強(qiáng)模型的適應(yīng)性。在微調(diào) SFT 模型時,主要是通過反向傳播優(yōu)化損失函數(shù),以便更好地預(yù)測人類反饋。這一過程中需要微調(diào) SFT 的權(quán)重參數(shù),以便讓模型更好地理解人類的反饋信息,并在接下來的生成過程中更好地應(yīng)用這些信息。
SFT 模型是指使用有監(jiān)督學(xué)習(xí)方法微調(diào) GPT-3 預(yù)訓(xùn)練語言模型得到的模型。在微調(diào)過程中,使用了一個標(biāo)注器來為每個生成的響應(yīng)分配一個標(biāo)簽,并將這些標(biāo)簽作為有監(jiān)督學(xué)習(xí)的目標(biāo)。在微調(diào)過程中,使用了余弦學(xué)習(xí)率衰減和殘差丟失等技術(shù)來提高模型性能。SFT 模型的具體結(jié)構(gòu)與 GPT-3 預(yù)訓(xùn)練語言模型相似。GPT-3 是一種基于 Transformer 的語言模型,由多個 Transformer 編碼器組成。在微調(diào)過程中,保留了 GPT-3 的大部分結(jié)構(gòu),并對最后一層進(jìn)行微調(diào)。
2.3 獎勵模型(RM)
RM 是指使用獎勵函數(shù)來指導(dǎo)模型學(xué)習(xí)的一種方法,RM 通過將任務(wù)目標(biāo)轉(zhuǎn)化為獎勵信號,使得模型可以在不需要人類干預(yù)的情況下自主地學(xué)習(xí)如何完成任務(wù)。
使用?RM 來微調(diào)語言模型,要首先定義了一個獎勵函數(shù),并使用人類數(shù)據(jù)來訓(xùn)練獎勵模型。在定義獎勵函數(shù)時,需要考慮了多個因素。首先,希望獎勵函數(shù)能夠鼓勵模型生成符合要求的輸出。其次,希望獎勵函數(shù)能夠懲罰不符合要求的輸出。最后,還考慮了一些特殊情況(如歧義、錯誤和敏感信息),并相應(yīng)地調(diào)整了獎勵函數(shù)。
在訓(xùn)練獎勵模型時,使用了人類標(biāo)注數(shù)據(jù)來訓(xùn)練一個分類器,并將其作為獎勵函數(shù)。在訓(xùn)練過程中,標(biāo)注者需要根據(jù)不同人群的偏好和潛在風(fēng)險對模型輸出進(jìn)行評估,并將評估結(jié)果作為訓(xùn)練數(shù)據(jù)。然后,使用這些數(shù)據(jù)來訓(xùn)練一個分類器,并將其作為獎勵函數(shù)。InstructGPT使用了多個公共自然語言處理數(shù)據(jù)集(如ARC、BoolQ、CoQA等)來訓(xùn)練獎勵模型。RM 是一種有效的方法,可以幫助模型自主地學(xué)習(xí)如何完成任務(wù)。通過定義獎勵函數(shù)、訓(xùn)練獎勵模型和微調(diào)語言模型等步驟,InstructGPT,成功地將 RM 應(yīng)用于語言生成任務(wù),并取得了很好的效果。
RM 模型的問題集來自于人類編寫的問題集和自動生成的問題集。在 RM 訓(xùn)練過程中,使用了多個公共自然語言處理數(shù)據(jù)集(如 ARC、BoolQ、CoQA、DROP、MultiNLI、OpenBookQA、QuAC、RACE 和 Winogrande)來微調(diào) GPT-3 預(yù)訓(xùn)練語言模型,并生成了一個包含 20 萬個問題的自動生成問題集。在 RM 訓(xùn)練過程中,將這些人類編寫的問題和自動生成的問題組合在一起,并使用它們來訓(xùn)練 RM 模型。通過這種方式,RM 模型可以學(xué)習(xí)如何評估語言生成模型在不同任務(wù)上的輸出質(zhì)量。
InstructGPT,使用了兩個不同大小的 RM 模型:一個是 6B 的模型,另一個是 175B 的模型。這兩個模型在強(qiáng)化學(xué)習(xí)過程中起到了不同的作用。在強(qiáng)化學(xué)習(xí)過程中,首先使用 6B 的 RM 模型來評估語言生成模型的輸出質(zhì)量,并將其作為獎勵信號來指導(dǎo)模型學(xué)習(xí)。然后,使用 175B 的 RM 模型來評估最終訓(xùn)練出的語言生成模型的性能,并與其他模型進(jìn)行比較。
2.4 強(qiáng)化學(xué)習(xí)
當(dāng)涉及到?jīng)Q策和行動的情況下,強(qiáng)化學(xué)習(xí)是一種流行的機(jī)器學(xué)習(xí)技術(shù)。?在強(qiáng)化學(xué)習(xí)中,模型需要在未知的環(huán)境中做出決策,并通過觀察結(jié)果和獲得反饋來學(xué)習(xí)做出更好的決策。例如,讓我們考慮一個機(jī)器人學(xué)習(xí)如何在房間里找到一個特定的物體。在開始時,機(jī)器人不知道這個物體在哪里,但可以從其傳感器獲取有關(guān)周圍環(huán)境的信息。機(jī)器人需要使用這些信息來決定移動到哪里,直到找到該物體。如果機(jī)器人找到了該物體,它會得到一個積極的獎勵。如果機(jī)器人移動到房間的其他位置,它會受到懲罰。通過觀察結(jié)果和獲得反饋,機(jī)器人可以逐步學(xué)習(xí)如何更有效地找到該物體,最終成為一個更好的物體尋找機(jī)器人。
當(dāng)應(yīng)用強(qiáng)化學(xué)習(xí)到GPT-3中,可以將其看作一個代理(agent)和一個環(huán)境(environment)之間的交互過程。在這個場景下,代理就是GPT-3模型,環(huán)境則是人類用戶提供的指令。假設(shè)我們要讓GPT-3寫一篇介紹人工智能的文章,我們可以將任務(wù)作為環(huán)境,GPT-3模型作為代理。一開始,模型對任務(wù)的理解可能是模糊的,可能會輸出不合適的內(nèi)容。然而,我們可以通過給模型提供人類專家提供的反饋信號,例如通過SFT方法和RM模型的訓(xùn)練過程,讓模型逐漸調(diào)整自己的行為,最終輸出符合任務(wù)要求的內(nèi)容。例如,當(dāng)GPT-3模型輸出的文章中有明顯的錯誤時,RM模型可以給出負(fù)反饋信號,告訴模型這部分內(nèi)容是錯誤的,并指導(dǎo)模型調(diào)整輸出內(nèi)容。通過這種方式,模型可以學(xué)習(xí)到在不斷交互的過程中,如何優(yōu)化自己的輸出,逐漸學(xué)會如何正確地完成任務(wù)。
2.5 強(qiáng)化學(xué)習(xí)模型和微調(diào)模型
強(qiáng)化學(xué)習(xí)模型和微調(diào)模型都是機(jī)器學(xué)習(xí)中常用的模型訓(xùn)練方法,但兩者的區(qū)別在于目標(biāo)和應(yīng)用場景不同。
強(qiáng)化學(xué)習(xí)是一種通過智能體與環(huán)境的交互學(xué)習(xí)最佳行動策略的方法,其目標(biāo)是通過獎勵信號來最大化長期回報(bào)。在強(qiáng)化學(xué)習(xí)中,模型需要不斷地嘗試行動,并接收環(huán)境的獎勵或懲罰,以逐漸調(diào)整其行動策略。這種方法適用于需要實(shí)現(xiàn)復(fù)雜決策的任務(wù),如游戲、機(jī)器人控制等。在自然語言處理領(lǐng)域,增強(qiáng)學(xué)習(xí)也被應(yīng)用于對話系統(tǒng)等任務(wù)中。
而微調(diào)模型是在一個已經(jīng)預(yù)訓(xùn)練好的模型基礎(chǔ)上,針對特定任務(wù)進(jìn)行微調(diào),以提高模型在特定任務(wù)上的性能。微調(diào)的過程通常包括在特定任務(wù)數(shù)據(jù)集上重新訓(xùn)練模型的頂部層,或是在頂部層和底層同時微調(diào)。微調(diào)可以用于各種自然語言處理任務(wù),例如文本分類、命名實(shí)體識別、情感分析等。與增強(qiáng)學(xué)習(xí)不同,微調(diào)的目標(biāo)是在已有的模型結(jié)構(gòu)和參數(shù)的基礎(chǔ)上,優(yōu)化模型在特定任務(wù)上的性能,而不是從零開始訓(xùn)練一個新的模型。
2.6 強(qiáng)化學(xué)習(xí)(PPO)
在RM模型訓(xùn)練好之后,使用強(qiáng)化學(xué)習(xí)算法PPO(Proximal Policy Optimization)對GPT-3模型進(jìn)行微調(diào),以最大化RM模型對生成文本的獎勵值。PPO是一種在策略梯度算法基礎(chǔ)上進(jìn)行改進(jìn)的算法,能夠克服策略梯度算法中的一些缺點(diǎn),如訓(xùn)練不穩(wěn)定、采樣效率低等問題。
首先使用SFT方法微調(diào)GPT-3模型,然后將微調(diào)后的模型和RM模型結(jié)合起來,形成一個強(qiáng)化學(xué)習(xí)框架。具體地,使用RM模型評估GPT-3生成的文本,計(jì)算出獎勵值,然后將獎勵值作為PPO算法的目標(biāo)函數(shù),更新GPT-3模型的參數(shù),從而最大化獎勵值。PPO算法會不斷優(yōu)化GPT-3模型,使其生成的文本能夠得到更高的獎勵,從而達(dá)到根據(jù)人類反饋指導(dǎo)GPT-3生成更符合要求的文本的目的。
InstructGPT,使用了一種名為 PPO(Proximal Policy Optimization)的強(qiáng)化學(xué)習(xí)算法來微調(diào) GPT-3 模型。PPO 是一種基于策略梯度的算法,它可以在不需要計(jì)算值函數(shù)的情況下直接優(yōu)化策略。相比于其他強(qiáng)化學(xué)習(xí)算法,PPO 具有許多優(yōu)點(diǎn),例如:易于實(shí)現(xiàn)、收斂速度快、穩(wěn)定性高等。在 PPO 算法中,首先定義了一個目標(biāo)函數(shù) J(θ),其中 θ 表示模型參數(shù)。然后,使用梯度下降方法來最大化目標(biāo)函數(shù),并且通過不斷迭代來更新模型參數(shù)。在更新過程中,采用了一些技巧來提高訓(xùn)練效率和穩(wěn)定性,例如:使用多步驟 PPO、剪枝和截?cái)嗟确椒āT诙嗖襟E PPO 中,將每個樣本分成多個子序列,并且對每個子序列進(jìn)行單獨(dú)的更新。這種方法可以減少方差,并且提高訓(xùn)練效率。在剪枝和截?cái)嘀校褂昧艘恍┘记蓙頊p少計(jì)算量和內(nèi)存占用,并且避免過擬合。
OpenAI使用了 PPO 算法來微調(diào) GPT-3 模型,并且通過不斷迭代來優(yōu)化模型性能。這種方法可以使 GPT-3 模型更好地遵循人類編寫的指令,并且在人類評價任務(wù)中取得了很好的表現(xiàn)。
2.7 RM和PPO
PPO 和 RM 是兩個不同的概念,它們在本文中分別用于微調(diào) GPT-3 模型的不同階段。
InstructGPT,使用了 RM(Reward Model)來評估 GPT-3 生成的答案是否符合人類偏好,并且將 RM 的輸出作為強(qiáng)化信號來微調(diào)模型。RM 是一個基于人類反饋的模型,它可以預(yù)測人類對不同答案的偏好程度。在訓(xùn)練階段,使用了一組標(biāo)注者來對數(shù)據(jù)進(jìn)行標(biāo)注,并且根據(jù)標(biāo)注者的表現(xiàn)選擇出最優(yōu)秀的標(biāo)注者。然后,將這些標(biāo)注者分成兩組:一組用于生成訓(xùn)練數(shù)據(jù),另一組用于提供獎勵信號。在訓(xùn)練階段,將 GPT-3 模型呈現(xiàn)給第一組標(biāo)注者,并要求他們根據(jù)給定的指令編寫出相應(yīng)的輸出。然后,將這些輸出與第二組標(biāo)注者提供的參考答案進(jìn)行比較,并計(jì)算出每個輸出對應(yīng)的獎勵值。
而 PPO(Proximal Policy Optimization)是一種強(qiáng)化學(xué)習(xí)算法,它可以在不需要計(jì)算值函數(shù)的情況下直接優(yōu)化策略。使用 PPO 算法來微調(diào) GPT-3 模型,并且通過不斷迭代來優(yōu)化模型性能。在微調(diào)階段,使用了 RM 的輸出作為強(qiáng)化信號,并且通過 PPO 算法來更新模型參數(shù)。在更新過程中,采用了一些技巧來提高訓(xùn)練效率和穩(wěn)定性,例如:使用多步驟 PPO、剪枝和截?cái)嗟确椒ā?/p>
因此,可以看出,PPO 和 RM 是兩個不同的概念。
2.8 SFT,RM和PPO關(guān)系
OpenAI使用了三個不同的步驟來訓(xùn)練 InstructGPT模型:SFT、RM 和 PPO。這些步驟是遞進(jìn)的,每個步驟都建立在前一個步驟的基礎(chǔ)上,并且通過不斷迭代來優(yōu)化模型性能。
首先,在 SFT(Supervised Fine-Tuning)階段,使用了大量的無監(jiān)督數(shù)據(jù)來預(yù)訓(xùn)練 GPT-3 模型,并且通過自回歸任務(wù)來學(xué)習(xí)語言表示。然后,在 RM(Reward Model)階段,使用了一組標(biāo)注者來對數(shù)據(jù)進(jìn)行標(biāo)注,并且根據(jù)標(biāo)注者的表現(xiàn)選擇出最優(yōu)秀的標(biāo)注者。然后,將這些標(biāo)注者分成兩組:一組用于生成訓(xùn)練數(shù)據(jù),另一組用于提供獎勵信號。在訓(xùn)練階段,將 GPT-3 模型呈現(xiàn)給第一組標(biāo)注者,并要求他們根據(jù)給定的指令編寫出相應(yīng)的輸出。然后,將這些輸出與第二組標(biāo)注者提供的參考答案進(jìn)行比較,并計(jì)算出每個輸出對應(yīng)的獎勵值。最后,在 PPO(Proximal Policy Optimization)階段,使用了 RM 的輸出作為強(qiáng)化信號,并且通過 PPO 算法來更新模型參數(shù)。在更新過程中,作者采用了一些技巧來提高訓(xùn)練效率和穩(wěn)定性,例如:使用多步驟 PPO、剪枝和截?cái)嗟确椒ā?/p>
因此,可以看出,SFT、RM 和 PPO 是在訓(xùn)練中遞進(jìn)的關(guān)系。每個步驟都建立在前一個步驟的基礎(chǔ)上,并且通過不斷迭代來優(yōu)化模型性能。在 SFT 階段,模型通過預(yù)訓(xùn)練學(xué)習(xí)到了語言表示;在 RM 階段,模型通過人類反饋學(xué)習(xí)到了如何生成符合人類偏好的答案;在 PPO 階段,模型通過強(qiáng)化學(xué)習(xí)算法進(jìn)一步微調(diào),以最大化 RM 的輸出作為獎勵信號。
三、各種任務(wù)
使用InstructGPT模型可以完成的各種任務(wù),這些任務(wù)包括:
1. 生成任務(wù):生成任務(wù)是指讓模型生成符合特定要求的文本。例如,我們可以讓模型生成一篇文章、一封電子郵件或一段對話。
2. 問答任務(wù):問答任務(wù)是指讓模型回答與給定問題相關(guān)的問題。例如,我們可以讓模型回答關(guān)于歷史事件、科學(xué)知識或地理信息的問題。
3. 對話任務(wù):對話任務(wù)是指讓模型與人類進(jìn)行自然對話。例如,我們可以讓模型與用戶進(jìn)行聊天、提供幫助或解決問題。
4. 摘要任務(wù):摘要任務(wù)是指讓模型從給定文本中提取關(guān)鍵信息,并生成一個簡短的摘要。例如,我們可以讓模型從新聞文章、科技報(bào)告或?qū)W術(shù)論文中提取關(guān)鍵信息。
5. 提取任務(wù):提取任務(wù)是指讓模型從給定文本中提取特定信息(如實(shí)體、關(guān)系或事件)。例如,我們可以讓模型從新聞報(bào)道、社交媒體或法律文件中提取實(shí)體和關(guān)系。
四、數(shù)據(jù)集
作者OpenAI雇用了約40名承包商通過Upwork和ScaleAI平臺來收集數(shù)據(jù)。與以往的研究相比,輸入涵蓋了更廣泛的任務(wù)范圍,并且有時包括有爭議和敏感的主題。為了確保數(shù)據(jù)質(zhì)量,OpenAI進(jìn)行了一系列篩選測試,以選擇對不同人群偏好敏感且能夠識別潛在有害輸出的標(biāo)注者。在篩選測試中,標(biāo)注者需要根據(jù)不同人群的偏好和潛在風(fēng)險對模型輸出進(jìn)行評估。
五、模型評估
OpenAI使用了兩種不同的評估方法來評估InstructGPT模型的性能:定量評估和定性評估。
在定量評估中,使用了兩個不同的數(shù)據(jù)集來測試 GPT-3 模型的性能。第一個數(shù)據(jù)集是 API Prompt Distribution 數(shù)據(jù)集,它包含了 100 個 API prompt,并且每個 prompt 都有多個參考答案。在測試階段,將每個 prompt 提供給 GPT-3 模型,并要求模型生成相應(yīng)的輸出。然后,將模型生成的輸出與參考答案進(jìn)行比較,并計(jì)算出 BLEU、ROUGE 和 METEOR 等指標(biāo)。
第二個數(shù)據(jù)集是公共 NLP 數(shù)據(jù)集,包括 SQuAD、CoQA 和 SuperGLUE 等數(shù)據(jù)集。在測試階段,將這些數(shù)據(jù)集提供給 GPT-3 模型,并要求模型完成相應(yīng)的任務(wù)。然后,將模型生成的輸出與參考答案進(jìn)行比較,并計(jì)算出 F1 分?jǐn)?shù)等指標(biāo)。
在定性評估中,邀請了一些人類標(biāo)注者對 GPT-3 模型生成的輸出進(jìn)行主觀評價。在測試階段,將一些 API prompt 提供給 GPT-3 模型,并要求模型生成相應(yīng)的輸出。然后,將模型生成的輸出呈現(xiàn)給標(biāo)注者,并要求他們對輸出進(jìn)行評價。標(biāo)注者需要根據(jù)一些指標(biāo)(例如:流暢性、準(zhǔn)確性、相關(guān)性等)對輸出進(jìn)行打分。
通過定量評估和定性評估,發(fā)現(xiàn) InstructGPT 模型在許多任務(wù)上表現(xiàn)出色,并且在某些任務(wù)上甚至超過了人類表現(xiàn)。這表明 模型具有很強(qiáng)的生成能力和泛化能力,并且可以應(yīng)用于各種自然語言處理任務(wù)。同時, InstructGPT-3 模型存在一些局限性,例如:在某些任務(wù)上表現(xiàn)不佳、對于一些特定領(lǐng)域的知識缺乏理解等。
六、測試結(jié)果
在 API Prompt Distribution 數(shù)據(jù)集上,InstructGPT 模型表現(xiàn)出色,并且在某些指標(biāo)上甚至超過了人類表現(xiàn)。特別地,作者發(fā)現(xiàn),在使用 PPO-ptx 模型時,模型的 BLEU 分?jǐn)?shù)可以達(dá)到 0.92 左右,這比使用 SFT 模型時高出了很多。此外,在使用 PPO-ptx 模型時,模型的 ROUGE 和 METEOR 分?jǐn)?shù)也比使用 SFT 模型時高出很多。
不同模型之間進(jìn)行了比較,并發(fā)現(xiàn) PPO-ptx 模型在大多數(shù)情況下都優(yōu)于其他模型。特別地,在與 GPT-3 和 GPT-prompted 進(jìn)行比較時,PPO-ptx 模型的性能明顯更好。
在公共 NLP 數(shù)據(jù)集上,GPT-3 模型表現(xiàn)出色,并且在某些任務(wù)上甚至超過了人類表現(xiàn)。特別地,在 SQuAD 和 CoQA 數(shù)據(jù)集上,GPT-3 模型的 F1 分?jǐn)?shù)可以達(dá)到 90% 左右,這比其他模型高出很多。此外,在 SuperGLUE 數(shù)據(jù)集上,GPT-3 模型也取得了很好的成績,并且在某些任務(wù)上超過了人類表現(xiàn)。還對不同模型之間進(jìn)行了比較,并發(fā)現(xiàn) GPT-3 模型在大多數(shù)情況下都優(yōu)于其他模型。特別地,在與 BERT 和 RoBERTa 進(jìn)行比較時,GPT-3 模型的性能明顯更好。
在定性評估中,GPT-3 模型表現(xiàn)出色,并且在某些指標(biāo)上甚至超過了人類表現(xiàn)。特別地,在與其他模型進(jìn)行比較時,GPT-3 模型的生成結(jié)果更加流暢、準(zhǔn)確和相關(guān)。通過一些案例來展示 GPT-3 模型的生成能力。例如,在一個關(guān)于狗的問題中,GPT-3 模型可以生成一個非常詳細(xì)和準(zhǔn)確的答案,并且包含了很多有趣的細(xì)節(jié)。在另一個關(guān)于歷史事件的問題中,GPT-3 模型可以生成一個非常生動和詳細(xì)的描述,并且讓人感覺像是親身經(jīng)歷過這個事件一樣。
七、總結(jié)
InstructGPT模型的成功表明了一種新的 AI 對齊方法:使用大規(guī)模預(yù)訓(xùn)練語言模型來實(shí)現(xiàn) AI 系統(tǒng)與人類意圖之間的對齊。即可以將“遵循指令”的能力推廣到?jīng)]有監(jiān)督的情況下,例如在非英語語言任務(wù)和代碼相關(guān)任務(wù)中。這意味著,即使在沒有特別訓(xùn)練的情況下,InstructGPT 模型也可以在這些任務(wù)中表現(xiàn)出色,可以被視為一種涌現(xiàn)能力。涌現(xiàn)能力是指 AI 系統(tǒng)在沒有顯式編程或特別訓(xùn)練的情況下,通過自我學(xué)習(xí)和優(yōu)化,表現(xiàn)出超出預(yù)期的能力。在這種情況下,InstructGPT 模型可以將其“遵循指令”的能力推廣到新領(lǐng)域,并且表現(xiàn)出色,這可以被視為一種涌現(xiàn)能力。這種方法具有很強(qiáng)的泛化能力,并且可以應(yīng)用于各種自然語言處理任務(wù)。同時,這種方法存在一些局限性,例如:在某些任務(wù)上表現(xiàn)不佳、對于一些特定領(lǐng)域的知識缺乏理解等。
在將語言模型與人類意圖對齊時,其最終行為取決于底層模型(及其訓(xùn)練數(shù)據(jù))、微調(diào)數(shù)據(jù)和所使用的對齊方法。因此,在進(jìn)行 AI 對齊時,需要考慮這些因素,并且確定要對齊的對象是誰或是什么。
在進(jìn)行 AI 對齊時存在一些其他局限性,例如,InstructGPT 模型的行為部分取決于從承包商那里獲得的人類反饋。一些標(biāo)注任務(wù)依賴于價值判斷,這些判斷可能會受到承包商身份、信仰、文化背景和個人經(jīng)歷等因素的影響。
InstructGPT雖然取得很大成功,但是,依然存在一些需要進(jìn)一步探索的開放性問題,以進(jìn)一步將語言模型的行為與人們實(shí)際想要它們做的事情相對齊。例如:如何在不同領(lǐng)域和任務(wù)中進(jìn)行對齊?如何在不同語言和文化背景下進(jìn)行對齊?如何處理多義詞和歧義性?如何處理指令中的隱含信息?這些問題需要進(jìn)一步研究才能更好地將語言模型的行為與人們實(shí)際想要它們做的事情相對齊。