InstructGPT 論文精讀【論文精讀】

2023-01-17 00:36 作者:如果我是泡橘子 0人讀過(guò) | 我要投稿

ChatGPT

Chat GPT 既沒(méi)有發(fā)表在 NeurlPS 上面，也沒(méi)有發(fā)表在 EMNLP ，甚至連一篇論文都沒(méi)有

ChatGPT 的四個(gè)應(yīng)用

Samples

1、ChatGPT?asks the clarifying questions to debug code

2、ChatGPT?initially refuses to answer a question that could be about illegal activities but responds after the user clarifies their intent

ChatGPT 能在安全性上避免進(jìn)行一些非法的回答

3、ChatGPT?is able to understand the reference (“it”) to the subject of the previous question (“fermat’s little theorem”)

ChatGPT 是能夠理解上下文的，它能夠記住之前的問(wèn)題（它能夠做一個(gè) 8000 詞的上下文，也就是說(shuō)如果回答是在 8000 詞以內(nèi)的話是能夠聯(lián)系上下文的）

4、ChatGPT?provides responses to follow-up instructions

ChatGPT 是能夠理解自己的局限性的，它明白自己有哪些事情是自己做不到的

以上是官方給出的應(yīng)用樣例，還有一些其他的應(yīng)用：

把它偽裝成一個(gè)操作系統(tǒng)，讓它來(lái)執(zhí)行代碼

GPT-3發(fā)布之后的一兩年之內(nèi)，出現(xiàn)了上百種應(yīng)用，和 GPT-3 相比，ChatGPT 是基于對(duì)話的形式，而且是多輪對(duì)話，ChatGPT 更加自然一點(diǎn)，符合人的交互習(xí)慣，所以不出意外的話，未來(lái)也會(huì)出現(xiàn)越來(lái)越多的應(yīng)用

（根據(jù) OpenAI 的一貫作風(fēng)，它會(huì)先發(fā)布模型，過(guò)幾個(gè)月之后再發(fā)論文，目前只有模型和博客，論文暫時(shí)還沒(méi)有發(fā)布）

Methods

ChatGPT 用的是跟 InstructGPT 相同的方法

InstructGPT 其實(shí)跟 GPT 更相近，它的數(shù)據(jù)格式是一個(gè) prompt
ChatGPT 的輸入是一個(gè)對(duì)話的形式，所以說(shuō)在數(shù)據(jù)收集上面和 InstructGPT 有一點(diǎn)不同：在標(biāo)注數(shù)據(jù)的時(shí)候需要做成多輪對(duì)話的形式

（這張圖和 Instruct GPT 也是相同的）

ChatGPT 是在 GPT3.5系列的基礎(chǔ)上進(jìn)行微調(diào)得來(lái)的

這里的 GPT3.5 應(yīng)該就是在GPT-3 代碼的基礎(chǔ)上進(jìn)行修改得到的

InstructGPT

OpenAI 的工作都是基于前面的工作，工作是具有連續(xù)性的
InstructGPT 這篇文章發(fā)表于 2022 年 3 月 4 日
論文鏈接：https://arxiv.org/abs/2203.02155

Title

訓(xùn)練語(yǔ)言模型，使得它們能夠服從人類(lèi)的一些指示

語(yǔ)言模型每次是給定一段東西，然后去預(yù)測(cè)下一個(gè)詞，它是一個(gè)自監(jiān)督模型，所以認(rèn)為它是沒(méi)有標(biāo)號(hào)的。如果想讓語(yǔ)言模型去解釋某一個(gè)概念的話，就需要文本中出現(xiàn)過(guò)類(lèi)似的東西，因此模型的行為取決于文本搜集的好壞。一般用來(lái)訓(xùn)練的文本大概都是幾十億、幾百億的詞，所以具體里面有什么東西是不清楚的，只是大概知道文本質(zhì)量的好壞，然后進(jìn)行一定的清洗。因此模型的精細(xì)度是不夠的，所以對(duì)整個(gè)模型的控制比較弱，一般就是大力出奇跡，把數(shù)據(jù)輸入進(jìn)去，得到什么樣的模型就是什么

這樣的問(wèn)題在于：

有效性：如果想讓模型去做某個(gè)事情，但是模型始終學(xué)不會(huì)怎么辦？因?yàn)槲谋局袥](méi)有相應(yīng)的東西。
安全性：模型輸出一些不應(yīng)該輸出的東西怎么辦？這對(duì)于大公司來(lái)講將會(huì)造成很大的災(zāi)難

最簡(jiǎn)單的辦法就是標(biāo)注一些數(shù)據(jù)，所以這篇文章的省流版本就是標(biāo)注一點(diǎn)數(shù)據(jù)，然后將語(yǔ)言模型做一次微調(diào)，這樣就能獲得更好的效果

整個(gè) OpenAI 或者說(shuō)現(xiàn)在這些大的模型都是號(hào)稱往無(wú)監(jiān)督或者是自監(jiān)督的方向發(fā)展，現(xiàn)在如果說(shuō)還是需要進(jìn)行數(shù)據(jù)標(biāo)注，效果會(huì)很好，如果這么說(shuō)的話，就是自相矛盾了，所以文章需要進(jìn)行包裝

Author

作者基本上都是 OpenAI 的員工，帶“*”的是主要作者

Abstract

把語(yǔ)言模型變大并不能代表它們會(huì)更好地按照用戶的意圖來(lái)做事情，大的語(yǔ)言模型很可能會(huì)生成一些不真實(shí)的、有害的或者是沒(méi)有幫助的答案。換句話說(shuō)，這些模型沒(méi)有和用戶站在一起（目標(biāo)一致，達(dá)成合作）

如果讀者的關(guān)注點(diǎn)主要在研究上面，就可能會(huì)低估這一段話的重要性。因?yàn)樵谘芯可?，很多時(shí)候訓(xùn)練一個(gè)模型，在標(biāo)準(zhǔn)數(shù)據(jù)集上把整個(gè)分?jǐn)?shù)刷上去就行了。但是在工業(yè)上的部署，也就是在 AI 模型的落地上面，安全性和有效性是非常重要的。
比如一個(gè)機(jī)器學(xué)習(xí)的產(chǎn)品，因?yàn)橛幸恍┑胤經(jīng)]有做到位，從而引發(fā)爭(zhēng)議導(dǎo)致整個(gè)產(chǎn)品下線，這種例子很多：比如 2015 年有用戶反饋 Google 的照片服務(wù)將黑人的標(biāo)簽識(shí)別成了 Gorilla（大猩猩），導(dǎo)致 Google 緊急上線將 Gorilla 這個(gè)標(biāo)簽在模型中刪掉。三年之后，Google photos 還是把 Gorilla 整個(gè)標(biāo)簽去掉了，也就是說(shuō)，如果照片中有真的 Gorilla 的話，Google 是不會(huì)將它識(shí)別出來(lái)的；2021 年紐約時(shí)報(bào)報(bào)道說(shuō) Facebook 因?yàn)樗?AI 算法把它的黑人視頻加了一個(gè)靈長(zhǎng)類(lèi)動(dòng)物的標(biāo)簽而道歉，跟之前的黑猩猩事件如出一轍；微軟發(fā)布的一個(gè)小冰聊天機(jī)器人的英文版在推特上發(fā)布 16 小時(shí)之后，用戶發(fā)現(xiàn)它有一點(diǎn)種族歧視的語(yǔ)言，然后微軟就緊急將它下架了，然后重新訓(xùn)練一個(gè)模型上線之后結(jié)果又亂講話，最后導(dǎo)致整個(gè)產(chǎn)品被下線；最近的例子，Meta 發(fā)布了一個(gè)叫做 Galactica 的模型（https://galactica.org/explore/，由 paper with code 團(tuán)隊(duì)發(fā)布），它能夠做很多學(xué)術(shù)相關(guān)的事情，比如講一個(gè)公式翻譯成一個(gè)語(yǔ)言來(lái)進(jìn)行描述或者說(shuō)將一段代碼用數(shù)學(xué)公式寫(xiě)出來(lái)，以及解決數(shù)學(xué)題，在模型發(fā)布不久之后，就有人發(fā)現(xiàn)這個(gè)模型會(huì)生成一些錯(cuò)誤的或者是有偏見(jiàn)的但是聽(tīng)上去很正確的東西，他認(rèn)為這個(gè)是一個(gè)非常危險(xiǎn)的事情，等于是在一本正經(jīng)的胡說(shuō)八道并且使別人相信了，這些批評(píng)導(dǎo)致模型在發(fā)布的三天之后，Meta 就將這個(gè)模型下架了。。。

所以當(dāng)將一個(gè)機(jī)器學(xué)習(xí)的模型部署到產(chǎn)品中的時(shí)候需要非常小心，需要特別注意它出錯(cuò)的地方，避免在公關(guān)上出現(xiàn)問(wèn)題。通常對(duì)于簡(jiǎn)單的分類(lèi)問(wèn)題來(lái)說(shuō)相對(duì)會(huì)好一點(diǎn)，只需要將標(biāo)號(hào)中一些有爭(zhēng)議性的標(biāo)號(hào)拿掉，但是語(yǔ)言模型的輸出特別靈活

一方面研究者享受這種靈活性帶來(lái)的巨大的應(yīng)用場(chǎng)景
另一方面，這種靈活性的輸出，導(dǎo)致出錯(cuò)的概率會(huì)更大

GPT-3 發(fā)布這么久，有出過(guò)什么事情嗎？

其實(shí)是有的，只是 OpenAI 作為一個(gè)創(chuàng)業(yè)公司，媒體對(duì)創(chuàng)業(yè)公司的容忍度相對(duì)來(lái)講會(huì)高一些
但是如果是一些大廠，比如 Google 這樣的大公司，把 GPT-3 這種模型做成一個(gè)產(chǎn)品的形式時(shí)，一旦出現(xiàn)什么問(wèn)題，就會(huì)出現(xiàn)很大的公關(guān)問(wèn)題
事實(shí)上，ChatGPT 已經(jīng)在安全性上做了很多工作，避免去回答一些非法的問(wèn)題，實(shí)際上大家早就找到了各種可能性來(lái)繞開(kāi)這些限制
?
14:34
?
其實(shí)有很多的可能性讓ChatGPT發(fā)表一些不適當(dāng)?shù)难哉?，只是現(xiàn)在 OpenAI 的口碑比較良好，如果說(shuō)換一個(gè)大廠將同樣的模型發(fā)表出來(lái)，結(jié)果就不一樣了

這篇文章中展示了怎樣對(duì)語(yǔ)言模型和人類(lèi)的意圖之間做 align ，具體使用的方法是使用人類(lèi)的反饋進(jìn)行微調(diào)（fine-tuning with human feedback）

注意這里使用的是 human feedback，不是使用的帶標(biāo)簽的數(shù)據(jù)

具體做法是寫(xiě)了很多的 prompt ，在 OpenAI 的 API 上收集到各種問(wèn)題，然后用標(biāo)注工具將這些問(wèn)題的答案寫(xiě)出來(lái)，這樣就標(biāo)注了一個(gè)數(shù)據(jù)集，然后在這個(gè)數(shù)據(jù)集上對(duì) GPT-3 的模型做微調(diào)

然后又收集了一個(gè)數(shù)據(jù)集，這個(gè)數(shù)據(jù)集就是對(duì)每個(gè)模型的輸出（問(wèn)它一個(gè)問(wèn)題，它可能會(huì)輸出很多模型，因?yàn)樗且粋€(gè)概率采樣的問(wèn)題）進(jìn)行人工標(biāo)注，標(biāo)注出好壞的順序，有了這個(gè)順序之后，再用強(qiáng)化學(xué)習(xí)繼續(xù)訓(xùn)練出一個(gè)模型，這個(gè)模型就叫做 InstructGPT

所以作者主要做了兩件事情：

首先標(biāo)注了一些數(shù)據(jù)，將問(wèn)題和答案都寫(xiě)出來(lái)然后訓(xùn)練一個(gè)模型
接下來(lái)又做了一個(gè)排序的數(shù)據(jù)集，然后用強(qiáng)化學(xué)習(xí)再訓(xùn)練出一個(gè)模型

因此一共有兩個(gè)模型，結(jié)果證明在人類(lèi)的評(píng)估上面， InstructGPT （有標(biāo)號(hào)的數(shù)據(jù)集）1.3B 的模型參數(shù)要好過(guò)最大的 GPT-3，也就是175B，也就是說(shuō)一個(gè) 1% 大小的模型的效果反而更好一點(diǎn)。另外 InstructGPT 能在真實(shí)性上更高地降低有害的答案出現(xiàn)的概率。在公開(kāi)的 NLP 數(shù)據(jù)集上，它的性能也沒(méi)有顯著的下降。

因此，等價(jià)于是說(shuō) InstructGPT更小，但是效果更好，而且在一些別的公開(kāi)數(shù)據(jù)集上性能也沒(méi)有變差

當(dāng)然，不得不承認(rèn)的是 InstructGPT 還是會(huì)犯一些簡(jiǎn)單的錯(cuò)誤

整個(gè)摘要的核心思想是說(shuō)，作者標(biāo)記了一個(gè)數(shù)據(jù)集，然后在這個(gè)數(shù)據(jù)集上比 GPT-3 要小 100 倍的模型然后在上面做微調(diào)的效果比最大的 GPT-3 模型的效果可能還要好一些

對(duì)于這個(gè)結(jié)果，也不是特別意外，因?yàn)闃?biāo)注的數(shù)據(jù)集信噪比更加好一點(diǎn)，所以學(xué)習(xí)起來(lái)更加簡(jiǎn)單一點(diǎn)，不需要那么大的模型
transformer 模型就是對(duì)整個(gè)數(shù)據(jù)做壓縮，把整個(gè)數(shù)據(jù)信息壓縮進(jìn)模型的參數(shù)，信噪比越高，而且標(biāo)注的信息和最后要評(píng)估的數(shù)據(jù)集可能更近一點(diǎn)，所以就導(dǎo)致不需要壓縮那么多的東西
信噪比：方差即不確定性，不確定性即信息。也就是說(shuō)對(duì)于一組樣本來(lái)說(shuō)，其方差越大，代表樣本中含有的信息越多，所以可以將方差看作信息量的一個(gè)度量。因此，信噪比的統(tǒng)計(jì)學(xué)含義就是：能夠被模型解釋的信息與不能夠被模型解釋的信息之比。
雖然 OpenAI 和一些大的廠都是在說(shuō)，訓(xùn)練一個(gè)特別大的模型，根本不需要標(biāo)注，效果特別好，實(shí)際上在實(shí)用上來(lái)講，如果這個(gè)方向一路走到底的時(shí)候，計(jì)算能力不一定能吃得消，而且數(shù)據(jù)可能增長(zhǎng)到某個(gè)程度之后，可能覆蓋的地方還是存在問(wèn)題，而在那些想要的特性但是模型做不到的地方適當(dāng)加入一些人類(lèi)的標(biāo)注，其實(shí)相對(duì)來(lái)講更加劃算

所以一個(gè)好的方法需要平衡算力的需求和人類(lèi)標(biāo)注的代價(jià)

Introduction

導(dǎo)論就是摘要中所講的故事的一個(gè)稍微詳細(xì)的版本，首先講問(wèn)題，然后講方法，最后講結(jié)果

大的語(yǔ)言模型能夠通過(guò)提示的方式把任務(wù)作為輸入，但是這些模型也經(jīng)常會(huì)有一些不想要的行為，比如說(shuō)捏造事實(shí)，生成有偏見(jiàn)的、有害的或者是沒(méi)有按照想要的方式來(lái)，這是因?yàn)檎麄€(gè)語(yǔ)言模型訓(xùn)練的目標(biāo)函數(shù)有問(wèn)題

語(yǔ)言模型的目標(biāo)函數(shù)是在網(wǎng)上的文本數(shù)據(jù)中預(yù)測(cè)下一個(gè)詞，即給定一個(gè)文本中的一段話，然后預(yù)測(cè)這段話后面的詞
這個(gè)目標(biāo)函數(shù)和想讓根據(jù)人的指示來(lái)生成安全的、有幫助的答案其實(shí)是不一樣的，所以作者把真正訓(xùn)練的目標(biāo)函數(shù)和所想要讓這個(gè)模型做的事情之間的差距叫做語(yǔ)言模型目標(biāo)函數(shù)是沒(méi)有 align

所以這篇文章的目的就是讓語(yǔ)言模型更好一點(diǎn)：

希望語(yǔ)言模型能夠更有幫助性，能夠解決想讓它解決的事情
能夠更加真誠(chéng)，不要捏造事實(shí)，要實(shí)事求是
無(wú)害，既不要生成讓人反感的輸出，也不要生成一些可能對(duì)別人造成危害的輸出

具體實(shí)現(xiàn)的方法：

1、基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（reinforcement learning from human feedback，RLHF）（之所以選用 RLHF 這個(gè)方法可能是因?yàn)?OpenAI 其實(shí)是做強(qiáng)化學(xué)習(xí)起家的，這篇文章幾位作者之前都是做強(qiáng)化學(xué)習(xí)的，強(qiáng)化學(xué)習(xí)的一個(gè)方法就是去仿照人，比如說(shuō)打游戲或者做機(jī)器人之類(lèi)的，這里這個(gè)技術(shù)可以同樣用過(guò)來(lái)，使模型能夠仿照人來(lái)生成答案或者是生成符合人偏好的答案）

圖二（InstructGPT 怎樣從 GPT-3 一步一步訓(xùn)練而來(lái)的，一共標(biāo)注了兩塊數(shù)據(jù)，生成了三個(gè)模型）

----第一步----
首先找了各種人來(lái)寫(xiě)各種各樣的問(wèn)題（這個(gè)問(wèn)題在 GPT 中叫做 prompt ，具體來(lái)說(shuō)就是向一個(gè) 6 歲的小孩解釋什么是月亮；這些問(wèn)題也可能是來(lái)自之前用戶在向 GPT-3 提交的各種問(wèn)題中篩選出來(lái)的）
然后繼續(xù)讓人寫(xiě)答案（比如說(shuō)例子中問(wèn)題的答案就是一些人去了月球。。。）
在有了問(wèn)題和答案之后，就可以將這兩個(gè)拼成一段話，然后在這個(gè)上面對(duì) GPT-3 進(jìn)行微調(diào)
因此，雖然這是人類(lèi)標(biāo)注的數(shù)據(jù)，但是在 GPT 眼中都是一樣的，都是給定一段話然后預(yù)測(cè)下一個(gè)詞，所以在微調(diào)上跟之前的在別的地方做微調(diào)或者是做預(yù)訓(xùn)練沒(méi)有任何區(qū)別
GPT-3 的模型在人類(lèi)標(biāo)注的數(shù)據(jù)上微調(diào)出來(lái)的模型叫做有監(jiān)督的微調(diào)（supervised fine-tuning），這是訓(xùn)練出來(lái)的第一個(gè)模型，其實(shí)訓(xùn)練出來(lái)的這個(gè)模型也能用，但是它的問(wèn)題在于生成答案是一件很貴的事情，所以很難讓人把所有各式各樣的答案都寫(xiě)出來(lái)
----第二步----（在標(biāo)注上更加簡(jiǎn)單一點(diǎn)）
給定一個(gè)問(wèn)題，讓上一步訓(xùn)練好的預(yù)訓(xùn)練模型 SFT 生成答案
GPT 每一次預(yù)測(cè)一個(gè)詞的概率，可以根據(jù)這個(gè)概率采樣出很多答案，通常來(lái)說(shuō)可以用 beam search
這里生成了四個(gè)答案，然后把這四個(gè)答案的好壞進(jìn)行人工標(biāo)注，進(jìn)行排序標(biāo)注
有了這些排序之后，再訓(xùn)練一個(gè)模型獎(jiǎng)勵(lì)模型（Reward Model，RM），這個(gè)模型是說(shuō)給定 prompt 得到輸出，然后對(duì)這個(gè)輸出生成一個(gè)分?jǐn)?shù)，可以認(rèn)為這個(gè)分?jǐn)?shù)是一個(gè)獎(jiǎng)勵(lì)或者是打分，使得對(duì)答案的分?jǐn)?shù)能夠滿足人工排序的關(guān)系（大小關(guān)系保持一致），一旦這個(gè)模型生成好之后，就能夠?qū)ι傻拇鸢高M(jìn)行打分
----第三步----
繼續(xù)微調(diào)之前訓(xùn)練好的 SFT，使得它生成的答案能夠盡量得到一個(gè)比較高的分?jǐn)?shù)，即每一次將它生成的答案放進(jìn) RM 中打分，然后優(yōu)化 SFT 的參數(shù)使得它生成的答案在 RM 中獲得更高的分?jǐn)?shù)

如果在第一步人工標(biāo)注數(shù)據(jù)的時(shí)候能夠生成足夠多的答案的話，其實(shí)不需要后面兩步也是可行的，但是考慮到寫(xiě)一個(gè)答案做生成式的標(biāo)注遠(yuǎn)遠(yuǎn)復(fù)雜于對(duì)模型生成的答案進(jìn)行好壞的排序的這種判別式的標(biāo)注

所以第二步的好處在于讓數(shù)據(jù)標(biāo)注變得更更加簡(jiǎn)單，能夠更快速的得到更多的標(biāo)注信息，所以有了第二步之后，就可以使得在同樣的標(biāo)注成本下能夠得到更多的數(shù)據(jù)，可能模型的性能會(huì)更好一些

最后訓(xùn)練出來(lái)的模型就叫做 InstructGPT ，它是 GPT-3 經(jīng)過(guò)以上三個(gè)步驟訓(xùn)練得來(lái)的

從技術(shù)要點(diǎn)上來(lái)看，有以下幾個(gè)技術(shù)：

第一步中的數(shù)據(jù)標(biāo)注的實(shí)現(xiàn)
第二步中的數(shù)據(jù)排序的實(shí)現(xiàn)
微調(diào)和 GPT-3 的微調(diào)是一樣的
RM 模型的訓(xùn)練
有了 RM 模型之后，如何通過(guò)強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練

最后是關(guān)于結(jié)果的一些描述：

1、標(biāo)注人員覺(jué)得 InstructGPT 的答案要比 GPT-3 的答案明顯要好很多

2、InstructGPT 在真實(shí)性上要比 GPT-3 好一些

3、InstructGPT 在生成有害的輸出上要比 GPT-3 好一點(diǎn)，因?yàn)樗梢哉f(shuō)不想回答某一個(gè)問(wèn)題，但是在偏見(jiàn)（比如性別歧視）上并沒(méi)有太大的提升

4、在做微調(diào)的時(shí)候通常是根據(jù)某一個(gè)目標(biāo)做微調(diào)，可能會(huì)使得模型在一些別的任務(wù)上的性能會(huì)下降。作者的做法是在做強(qiáng)化學(xué)習(xí)的時(shí)候，將最原始的目標(biāo)函數(shù)拿回來(lái)，使得雖然在做完微調(diào)之后在這種 QA 上面做的更好一點(diǎn)，但是在一些其他的任務(wù)，比如說(shuō)公有的 NLP 數(shù)據(jù)集上也不至于說(shuō)性能下降很多

5、雖然在整個(gè)過(guò)程中進(jìn)行了人工標(biāo)注，但是標(biāo)注這個(gè)事情非常有主觀性，因?yàn)槭菍?xiě)一段文字或者是判斷兩段話的好壞，作者找了一些沒(méi)有標(biāo)注數(shù)據(jù)參與訓(xùn)練的標(biāo)注人員，只是從結(jié)果的角度去評(píng)估 InstructGPT 的話他們還是覺(jué)得 InstructGPT 要比 GPT-3 好一些（人與人之間的喜好是有一定的相關(guān)性的）

6、作者將 GPT-3 在 InstructGPT 的數(shù)據(jù)和其他的公用數(shù)據(jù)集 FLAN 和 T0 上進(jìn)行了微調(diào)，最后比較發(fā)現(xiàn)，還是在自己的數(shù)據(jù)上微調(diào)出來(lái)的效果會(huì)好一些，也就是說(shuō)別人的數(shù)據(jù)可能和自己的數(shù)據(jù)在分布上不太一致，所以意味著微調(diào)對(duì)數(shù)據(jù)還是比較敏感的

7、作者標(biāo)注了大量的問(wèn)題，但是因?yàn)檎Z(yǔ)言模型比較靈活，不可能將所有的問(wèn)題都標(biāo)注出來(lái)，所以作者發(fā)現(xiàn)雖然標(biāo)注的問(wèn)題里面只有少部分是總結(jié)代碼或者是問(wèn)代碼相關(guān)的問(wèn)題，在訓(xùn)練完之后發(fā)現(xiàn)實(shí)際的模型在這方面的表現(xiàn)還是不錯(cuò)的，也就是說(shuō)所訓(xùn)練出來(lái)的模型其實(shí)是有一些泛化性的，因此這也意味著其實(shí)也沒(méi)有必要一定要將所有不同的問(wèn)答類(lèi)型全部標(biāo)注，模型根據(jù)之前的先驗(yàn)知識(shí)具有一定的泛化性

8、模型也還是會(huì)犯一些簡(jiǎn)單的錯(cuò)誤，因?yàn)槲闹兴故镜亩际且恍┠Ｐ退憩F(xiàn)出來(lái)的比較出乎意料的東西，但是可能在一些大家習(xí)以為常的地方很可能會(huì)出錯(cuò)，所以在這一點(diǎn)上可以認(rèn)為 InstructGPT 或者說(shuō)甚至現(xiàn)在的 ChatGPT 多多少少還是像一個(gè)玩具，而不是一個(gè)工具

工具不需要驚喜，但是需要保證可用性，不能在一些正常的地方出錯(cuò)

Related work

Methods and experimental details

本文所使用的方法就是前面工作的方法，只是前面的工作主要用在文本樣式的一致性和漸進(jìn)式總結(jié)（類(lèi)似于問(wèn)答的場(chǎng)景下），方法本身沒(méi)有本質(zhì)上的區(qū)別（這些技術(shù)雖然都是 openAI 前面的研究，但是并不是 InstructGPT 的原創(chuàng)，這些技術(shù)之前就有了，只不過(guò) InstructGPT 使用這些技術(shù)在一個(gè)新的數(shù)據(jù)集上重新訓(xùn)練了一下）

Dataset

1、prompt 數(shù)據(jù)集

來(lái)源：

首先標(biāo)注人員寫(xiě)了很多的問(wèn)題，這些問(wèn)題包括：

Plain：讓標(biāo)注人員寫(xiě)任何的問(wèn)題
Few-shot：讓標(biāo)注人員寫(xiě)一個(gè)指令，有各種不同的指令，然后里面有后續(xù)的一些問(wèn)題回答
User-based：用戶提供了一些想要支持的應(yīng)用場(chǎng)景，然后將其構(gòu)建成任務(wù)

有了這些最初構(gòu)建出來(lái)的 prompt 之后，作者訓(xùn)練了第一個(gè) InstructGPT 模型，得到這個(gè)模型之后，將其放在 playground 中供大家使用。大家在使用的過(guò)程中可能又會(huì)提出一些問(wèn)題，然后又把這些問(wèn)題采集回來(lái)，并進(jìn)行篩選

對(duì)每個(gè)用戶最多采用 200 個(gè)問(wèn)題
在劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集的時(shí)候是根據(jù)用戶的 ID 來(lái)劃分的（這個(gè)也很重要，當(dāng)收集了很多來(lái)自不同用戶的各種問(wèn)題之后，不能把這些問(wèn)題放在一起進(jìn)行隨機(jī)劃分，因?yàn)橐粋€(gè)用戶可能會(huì)問(wèn)一些類(lèi)似的問(wèn)題，如果這個(gè)問(wèn)題同時(shí)出現(xiàn)在訓(xùn)練集和測(cè)試集中，就會(huì)造成數(shù)據(jù)污染，所以按照用戶進(jìn)行劃分更加公平）
如果問(wèn)題中包含了很多的用戶信息，比如出現(xiàn)了人名，就將其過(guò)濾掉

通過(guò)這個(gè)方法就得到了更多的 prompt。

這也是一個(gè)比較常見(jiàn)的思路，比如說(shuō)要做一個(gè)機(jī)器學(xué)習(xí)的產(chǎn)品，訓(xùn)練模型需要數(shù)據(jù)。這個(gè)數(shù)據(jù)一開(kāi)始可以人工標(biāo)注一點(diǎn)數(shù)據(jù)，但是人工標(biāo)注的數(shù)據(jù)和真正用戶用的肯定是存在一定的差距，有了一些數(shù)據(jù)之后就能夠訓(xùn)練出一個(gè)模型出來(lái)，這個(gè)模型不一定要特別好，可以將其作為內(nèi)側(cè)模型供大家使用。在用戶使用過(guò)后就能收集到更多的數(shù)據(jù)，能夠進(jìn)一步提升模型的質(zhì)量。在不斷進(jìn)行迭代提升之后，就能夠得到一個(gè)比較好的數(shù)據(jù)集，而且能夠持續(xù)地進(jìn)行下去，這也是一般發(fā)布產(chǎn)品的思路。

如果是一個(gè)創(chuàng)業(yè)公司，做東西可能會(huì)隨便一點(diǎn)。當(dāng)發(fā)布一個(gè)產(chǎn)品，如果沒(méi)做好，用戶的容忍度會(huì)比較大，而且在使用用戶的數(shù)據(jù)上面也更加容易
但是如果是大公司的話，發(fā)布的任何東西，雖然可能只是供大家?jiàn)蕵?lè)，但是如果大家對(duì)這個(gè)東西的質(zhì)量跟自己的預(yù)期有點(diǎn)差距之后，可能后果比較嚴(yán)重。而且大公司在使用用戶的數(shù)據(jù)方面可能會(huì)受到更多的抵制

在有了這些 prompt 之后就產(chǎn)生了三個(gè)不同的數(shù)據(jù)集，數(shù)據(jù)集之間可能共享了一些問(wèn)題：

SFT 數(shù)據(jù)集：讓標(biāo)注人員直接寫(xiě)答案。用來(lái)訓(xùn)練 SFT 模型的數(shù)據(jù)集中有 13000 個(gè)樣本。
RM 數(shù)據(jù)集：用來(lái)訓(xùn)練一個(gè) RM 模型，只需要進(jìn)行排序就可以了。用來(lái)訓(xùn)練 RM 模型的數(shù)據(jù)集中有 33000 個(gè)樣本。
PPO 數(shù)據(jù)集：用來(lái)訓(xùn)練強(qiáng)化模型，也就是 InstructGPT 。這個(gè)時(shí)候就不需要標(biāo)注（標(biāo)注來(lái)自于 RM 模型的標(biāo)注）。用來(lái)訓(xùn)練 InstructGPT 模型的數(shù)據(jù)集中有 31000 個(gè)樣本。

表 1 展示了 prompt 數(shù)據(jù)集中使用 API 的用戶的用途分布情況

最多的是生成一些東西，其次是一些開(kāi)放性的回答、頭腦風(fēng)暴等

表 2 中展示了一些例子

頭腦風(fēng)暴：列出五個(gè)能夠使我保持對(duì)事業(yè)的熱情的五個(gè)想法
生成類(lèi)：生成一個(gè)短故事
重寫(xiě)：給定百老匯 show 的總結(jié)，將其中的要點(diǎn)列出來(lái)

在文章的附錄 A 中提供了大量的 prompt 的例子

Tasks

任務(wù)的多元性還是挺高的

Human data collection

這一小節(jié)主要講述的是怎樣進(jìn)行數(shù)據(jù)的標(biāo)注

作者在 Upwork（美國(guó)招聘合同工常用的網(wǎng)站）和 ScaleAI（一個(gè)數(shù)據(jù)標(biāo)注公司）上招了一個(gè) 40 人組成的團(tuán)隊(duì)，在附錄 B 中有對(duì)人員的篩選過(guò)程進(jìn)行詳細(xì)的描述

具體來(lái)說(shuō)，需要進(jìn)行測(cè)試，看這個(gè)人工作做得怎么樣（這個(gè)在實(shí)際的產(chǎn)品中還是比較重要的，招人標(biāo)注數(shù)據(jù)不難，但是想要招到比較滿意的、能夠提供足夠質(zhì)量數(shù)據(jù)的人其實(shí)并不容易。對(duì)于這一塊也有相關(guān)的研究工作，專門(mén)研究怎樣去挑選標(biāo)注人員，甚至通過(guò)強(qiáng)化學(xué)習(xí)來(lái)選人）

在標(biāo)注的過(guò)程中，希望能夠做到，盡量將幫助性排在第一位；在評(píng)測(cè)的時(shí)候盡量把真實(shí)性和無(wú)害性排在第一位

標(biāo)注數(shù)據(jù)的時(shí)候給的指示和最終評(píng)估的時(shí)候不同

作者和標(biāo)注人員緊密合作，因?yàn)檎麄€(gè)任務(wù)相對(duì)來(lái)說(shuō)還是比較開(kāi)放的，而且比較難，所以需要不斷地與標(biāo)注人員進(jìn)行溝通，在幾個(gè)月的時(shí)間跨度中進(jìn)行合作，因?yàn)樯深?lèi)和比較長(zhǎng)的對(duì)話的判斷都是一些比較模棱兩可的任務(wù)，因此需要的是熟練的標(biāo)注人員

這也是為什么作者招了一個(gè)由 40 個(gè)合同工組成的團(tuán)隊(duì)，這樣的話就能夠保證可以持續(xù)地跟這些標(biāo)注人員進(jìn)行溝通，他們也能夠知道到底要干什么事情
像簡(jiǎn)單的圖片標(biāo)注，可能隨便找一些人進(jìn)行標(biāo)注就可以了

這些標(biāo)注人員的一致性還是比較高的

72% 左右的情況下，大家是相互同意對(duì)方的一些評(píng)測(cè)。這就意味著這個(gè)任務(wù)可能具有二相性，但是大家的意向基本一致

如果之前沒(méi)有做過(guò)數(shù)據(jù)標(biāo)注，而且需要找人進(jìn)行數(shù)據(jù)標(biāo)注的話，可以參考作者所采用的方法，他的描述還是比較詳細(xì)的

特別是在附錄中提供了很多的模板，又可能能夠直接套用
作者還提供了標(biāo)注網(wǎng)頁(yè)的 UI 的樣式，可以進(jìn)行參考

數(shù)據(jù)標(biāo)注其實(shí)比較偏工程化，這一塊里面還是有很多的技術(shù)可以學(xué)習(xí)的，有很多的論文，以及專業(yè)的公司。如果有這方面的需求，可以參考其他人的做法，不需要從零開(kāi)始，因?yàn)橛泻芏嗟募夹g(shù)是可以借鑒的

Models

總共有三個(gè)模型：

1、Supervised fine-tuning（SFT）

等價(jià)于將 GPT-3 模型標(biāo)注好的 prompt 和答案進(jìn)行重新訓(xùn)練，總共訓(xùn)練了 16 個(gè) epoch

因?yàn)閿?shù)據(jù)比較少，總共只有 13000 個(gè)數(shù)據(jù)，所以 GPT 的模型訓(xùn)練一個(gè) epoch 就過(guò)擬合了。這個(gè)模型也不是直接使用，而是用來(lái)初始化后面的模型，所以作者發(fā)現(xiàn)過(guò)擬合其實(shí)是沒(méi)有問(wèn)題的，對(duì)后面還能起到一定的幫助作用

2、Reward Modeling（RM）

將 GPT-3 模型最后的 unembedding layer 去掉

正常 GPT 進(jìn)入最后一個(gè)輸出層之后，放進(jìn) softmax 輸出一個(gè)概率?，F(xiàn)在 softmax 可以不用，在后面加上一個(gè)線性層來(lái)投影，即將所有詞的輸出投影到一個(gè)值上面，就是一個(gè)輸出為 1 的線性層，就可以輸出一個(gè)標(biāo)量的分?jǐn)?shù)，而且這個(gè)獎(jiǎng)勵(lì)是在 prompt 和回復(fù)上面一起訓(xùn)練得來(lái)的

這里使用的是一個(gè) 6B 大小的RM，沒(méi)有用最大的 175B

作者發(fā)現(xiàn) 175B 大小的模型訓(xùn)練起來(lái)不是特別穩(wěn)定（在比較大的模型訓(xùn)練，其實(shí)不穩(wěn)定是它的一個(gè)比較大的痛點(diǎn)，而且現(xiàn)在也沒(méi)有特別好的解決方案）。如果模型訓(xùn)練不穩(wěn)定的話，在后面 RL 里面訓(xùn)練會(huì)比較麻煩
此外，用小一點(diǎn)的模型也能夠節(jié)省算力

因?yàn)檩斎氲臉?biāo)注是排序，而不是讓用戶標(biāo)注的值，僅僅是一個(gè)順序，因此需要將這個(gè)順序轉(zhuǎn)換成一個(gè)值，作者使用的損失函數(shù)是排序中常見(jiàn)的 Pairwise-ranking?loss：

pairwise 是說(shuō)對(duì)一個(gè) prompt 取出一對(duì)它的答案 yw 和 yl （假設(shè) yw 的排序比 yl 高），先把 x（問(wèn)題）和 yw（回答）放進(jìn)獎(jiǎng)勵(lì)模型計(jì)算出對(duì)應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù)，再把 x（問(wèn)題）和 yl（回答）也放進(jìn)獎(jiǎng)勵(lì)模型計(jì)算出對(duì)應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù)
因?yàn)?yw 的排序比 yl 要高，也就意味著希望 yw 對(duì)應(yīng)的獎(jiǎng)勵(lì)要比 yl 大，將這兩個(gè)獎(jiǎng)勵(lì)值相減之后希望將最終的結(jié)果變的越大越好（這里使用的是 Logistic Loss）
?
44:38
?
對(duì)于每個(gè) prompt 會(huì)生成 9 個(gè)答案
如果一個(gè)答案比另外一個(gè)答案排序高的話，盡量使得它們之間的獎(jiǎng)勵(lì)分?jǐn)?shù)差距比較大

對(duì)于不同的變種，為什么要選擇這樣的損失函數(shù)？在前面的工作中使用的是 K=4 ，這里使用 K=9 有兩個(gè)原因

1、當(dāng) K=4 時(shí)，做標(biāo)注的時(shí)候只需要對(duì) 4 個(gè)答案進(jìn)行排序就可以了，而現(xiàn)在需要對(duì) 9 個(gè)答案進(jìn)行排序，感覺(jué)上排序會(huì)變得更加復(fù)雜，但其實(shí)對(duì)問(wèn)題進(jìn)行標(biāo)注的時(shí)候可能需要花很多的時(shí)間去看懂 prompt 要干什么事情，可能需要花更多的時(shí)間去看懂一個(gè)問(wèn)題，在看明白了一兩個(gè)答案之后，其它答案可能長(zhǎng)得差不多，因?yàn)橹恍枰M(jìn)行排序，都是模型生成的答案，所以對(duì) 9 個(gè)答案進(jìn)行排序不一定比對(duì) 4 個(gè)答案進(jìn)行排序時(shí)間長(zhǎng)很多（并不存在倍數(shù)關(guān)系），算上讀題的時(shí)間，可能總共時(shí)間就多了 30%~40%，而不是更多

但是反過(guò)來(lái)講，因?yàn)閷?duì) 9 個(gè)答案進(jìn)行了排序，產(chǎn)生了 36 個(gè)排序關(guān)系，等于標(biāo)注信息多了 9 倍，也就意味著可能沒(méi)有花超過(guò)兩倍的時(shí)間，但是標(biāo)注信息多了 6 倍（K=4 時(shí)只有 6 個(gè)排序信息）

2、

47:38

在計(jì)算的時(shí)候，最貴的事情是將 x 和 y 放進(jìn) RM 模型里面（它是一個(gè) 6B 的 GPT-3 的模型），所計(jì)算的值是可以復(fù)用的，所以只需要進(jìn)行 9 次獎(jiǎng)勵(lì)值的計(jì)算就可以了（計(jì)算了 9 次，算出了 36 個(gè)標(biāo)號(hào)，等價(jià)于節(jié)省了倍的時(shí)間，K 越大節(jié)省的時(shí)間就越多，因此從計(jì)算上來(lái)講，K 的值越大也是有好處的）

之前的工作不僅是 K=4 ，而且在標(biāo)注的時(shí)候只標(biāo)注最好的一個(gè)，也就是說(shuō)從 4 個(gè)答案中選出最好的答案，在計(jì)算損失的時(shí)候就不是 pairwise ，因?yàn)闆](méi)有兩兩比較信息，將一個(gè)二分類(lèi)的邏輯回歸問(wèn)題變成了一個(gè)多分類(lèi)的 softmax ，等于是在從 4 個(gè)值里面選出最大的值

使用 softmax 最大的好處是在標(biāo)注的時(shí)候是四選一，而不是進(jìn)行排序。但是這樣做的問(wèn)題是容易過(guò)擬合

現(xiàn)在改成了全部答案的排序使得整個(gè)問(wèn)題變得復(fù)雜一點(diǎn)：不是要學(xué)習(xí)得到一個(gè)分?jǐn)?shù)然后選出最大的值，而是說(shuō)要學(xué)一個(gè)分?jǐn)?shù)使得整個(gè) 9 個(gè)答案的排序能夠保留下來(lái)。所以標(biāo)號(hào)變多了之后，發(fā)現(xiàn)過(guò)擬合就會(huì)好一些，這也是作者對(duì)之前的一些方法進(jìn)行改動(dòng)的原因

3、Reinforcement learning（RL）

這里用到的模型是強(qiáng)化學(xué)習(xí)中的 PPO ，

強(qiáng)化學(xué)習(xí)中的算法有很多，PPO 是其中之一
使用 PPO 是因?yàn)?PPO 也是 OpenAI 之前的工作，PPO 的作者也在本文的作者之列，所以挑選了一個(gè)自己比較熟悉的

PPO 模型簡(jiǎn)單來(lái)講就是在下面的目標(biāo)函數(shù)上進(jìn)行隨機(jī)梯度下降

?
50:13
?
強(qiáng)化學(xué)習(xí)中，模型叫做 policy （策略），這里的 RL policy 其實(shí)就是 GPT-3 模型
SFT 是之前在標(biāo)好的問(wèn)題和答案的數(shù)據(jù)上面用監(jiān)督的微調(diào)訓(xùn)練出來(lái)的模型
RL 模型一開(kāi)始要初始化成為 SFT 模型，所以這兩個(gè)模型在一開(kāi)始的時(shí)候是一樣的

這個(gè)目標(biāo)函數(shù)和之前的主要區(qū)別是：（數(shù)據(jù)分布是隨著模型的更新變化的，在強(qiáng)化學(xué)習(xí)中稱為環(huán)境會(huì)發(fā)生變化）

52:11

之前已經(jīng)標(biāo)好了數(shù)據(jù)，為了么要訓(xùn)練一個(gè) rθ 之后再訓(xùn)練一個(gè)模型出來(lái)，為什么不直接訓(xùn)練？

主要原因是標(biāo)注的只是一個(gè)排序，而不是標(biāo)注的答案
給定一個(gè)模型，然后生成多個(gè)輸出，由標(biāo)注人員進(jìn)行排序，再計(jì)算梯度，然后再對(duì)模型進(jìn)行更新；下一次又生成新的數(shù)據(jù)，然后進(jìn)行標(biāo)注，這在 RL 中比較常見(jiàn)，叫做在線學(xué)習(xí)。如果想要做成在線學(xué)習(xí)的形式就需要實(shí)時(shí)對(duì)模型的生成結(jié)果進(jìn)行排序，會(huì)造成人力或者是算力的浪費(fèi)。所以在這個(gè)地方需要學(xué)習(xí)一個(gè)函數(shù)來(lái)替代掉這個(gè)人，rθ 其實(shí)就是在學(xué)習(xí)人的排序從而給模型實(shí)時(shí)的反饋，這就是為什么這里需要訓(xùn)練兩個(gè)模型

第二項(xiàng)

54:40

第三項(xiàng)

56:30

整個(gè) RL 模型簡(jiǎn)單來(lái)說(shuō)就是一個(gè) PPO 的目標(biāo)函數(shù)加上一個(gè)原始的 GPT-3 的目標(biāo)函數(shù)結(jié)合在一起?？梢钥吹剿€是一個(gè)相對(duì)來(lái)講比較簡(jiǎn)單的 RL 算法，其實(shí)比作者之前的工作還要簡(jiǎn)單一點(diǎn)

在之前的工作中嘗試在 RL 里面多走幾個(gè)來(lái)回，現(xiàn)在只是在之前預(yù)訓(xùn)練好的模型之后，通過(guò) RL 模型再跑一步，中間不需要人工進(jìn)行數(shù)據(jù)標(biāo)注
作者在實(shí)際操作過(guò)程中發(fā)現(xiàn)，這樣對(duì)有一些任務(wù)有效果，但是對(duì)有些任務(wù)沒(méi)有必要
對(duì)于一些比較復(fù)雜的任務(wù)，比如縮寫(xiě)任務(wù)，因?yàn)?y 的變化可能會(huì)比較大，所以重新進(jìn)行標(biāo)注可能會(huì)好一點(diǎn)
但相對(duì)來(lái)講比較簡(jiǎn)單一點(diǎn)的任務(wù)，在 rθ 變化沒(méi)有那么大的情況下其實(shí)沒(méi)有太大的必要

小結(jié)

InstructGPT總共干了三件事情：

1、數(shù)據(jù)：將 prompt 和答案標(biāo)出來(lái)，然后用最正常的 GPT 微調(diào)出一個(gè)模型

2、訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型去擬合人對(duì)模型中多個(gè)輸出之間的排序，訓(xùn)練好之后將其放入到強(qiáng)化學(xué)習(xí)的框架中

3、通過(guò)強(qiáng)化學(xué)習(xí)模型調(diào)整 SFT 模型，使得輸出的結(jié)果在排序上更符合人的喜好

Results

?
59:58
?
有三個(gè)不同大小的模型：原始的 GPT-3 ，1.3B~175B
y 軸表示和 175B 的 SFT 模型相比的勝率，正常的話是一半一半
GPT-3 在 prompt 上做比較多的調(diào)整，可以從圖中看到有提升，但是跟有標(biāo)注的比還是比較遠(yuǎn)的
實(shí)驗(yàn)結(jié)果也驗(yàn)證了導(dǎo)言中所說(shuō)的用一個(gè) 1% 的模型，其實(shí)是能夠打敗 175B 的模型（是在一個(gè)特定的測(cè)試集上面，因?yàn)檫@個(gè)測(cè)試集和訓(xùn)練數(shù)據(jù)集是有一定的耦合性的）
在 GPT-3 這篇論文中也提到過(guò)，在沒(méi)有看過(guò)任何訓(xùn)練數(shù)據(jù)的情況下，使用大力出奇跡的方式出來(lái)的模型，比用過(guò)訓(xùn)練數(shù)據(jù)的模型可能效果還要好一些，但也只是針對(duì)一些相對(duì)來(lái)講比較簡(jiǎn)單的任務(wù)
在這篇文章中，整個(gè)任務(wù)是比較復(fù)雜的，prompt 比較長(zhǎng)，而且答案也并不簡(jiǎn)單，在看過(guò)標(biāo)注信息的前提下，提升還是比較大的

Discussion

1、作者認(rèn)為整個(gè)三個(gè)模型的訓(xùn)練的代價(jià)和預(yù)訓(xùn)練相比，相對(duì)來(lái)講比較低

因?yàn)?strong>樣本比較少，就算是使用了 175B 的模型，樣本數(shù)也足足小了幾萬(wàn)倍或者幾十萬(wàn)倍

2、局限性

數(shù)據(jù)是由 40 個(gè)合同工標(biāo)注出來(lái)的，這個(gè)模型的行為和這 40 個(gè)人是息息相關(guān)的，不一定能代表以后所有的用戶，所以后續(xù)還需要招一些人或者是用戶來(lái)提升模型的能力
比如這里面的數(shù)據(jù)主要是英語(yǔ)，所以在別的語(yǔ)言上肯定是有一定的差距的
在模型上面也不是完全安全，還是會(huì)出現(xiàn)各種問(wèn)題

總結(jié)

從技術(shù)上來(lái)講，InstructGPT是一個(gè)比較實(shí)用的技術(shù)，它提供了一個(gè)方法：給定一個(gè)比較大的語(yǔ)言模型，怎樣通過(guò)標(biāo)注一些數(shù)據(jù)能迅速地提升它在某一個(gè)你所關(guān)心領(lǐng)域上的性能，使其能夠達(dá)到一個(gè)實(shí)用的階段

這也給想用生成模型做產(chǎn)品提供了一個(gè)實(shí)際可操作的思路

作者在一開(kāi)始提到了三個(gè)目標(biāo)：想要語(yǔ)言模型更加有幫助性，說(shuō)更多的真話，以及無(wú)害性

實(shí)際上這篇文章主要還是在講幫助性，也講了整個(gè)數(shù)據(jù)標(biāo)注的時(shí)候，也是優(yōu)化幫助性
所以從創(chuàng)新性和完成度的角度，這篇文章一般，也為只是優(yōu)化了一個(gè)相對(duì)來(lái)講比較簡(jiǎn)單的目標(biāo)，而沒(méi)有同時(shí)考慮到剩下兩個(gè)目標(biāo)去顯式地優(yōu)化它們

另外后面這個(gè) RL 模型可能也是沒(méi)有必要做的

可以選擇在訓(xùn)練第一個(gè)模型的時(shí)候多標(biāo)注一點(diǎn)數(shù)據(jù)，或者說(shuō)可以用文本合成這樣的方法來(lái)快速增大數(shù)據(jù)
這樣做的好處就是在做微調(diào)的時(shí)候，直接將之前的代碼拿過(guò)來(lái)用就可以了，而不需要去做 RL ，RL模型所帶來(lái)的一系列復(fù)雜度的東西可以轉(zhuǎn)移到數(shù)據(jù)上面，因?yàn)閷?duì)數(shù)據(jù)進(jìn)行處理相對(duì)來(lái)講比較簡(jiǎn)單，那么整個(gè)模型的訓(xùn)練和部署就會(huì)變得更加簡(jiǎn)單
因此從實(shí)用性的角度來(lái)看，這樣做的效果可能會(huì)更好一些

所以其實(shí)就是顯式地優(yōu)化了幫助性這一個(gè)目標(biāo)，使用了相對(duì)來(lái)講比較復(fù)雜的 RL 算法也沒(méi)有成功地說(shuō)明使用它的必要性

從一個(gè)創(chuàng)業(yè)公司的角度來(lái)講，需要盡快地把產(chǎn)品做出來(lái)，效果做上去，其他的東西可能就沒(méi)有那么重要，但是同樣的做法，openAI 也許能做，但是別的公司不一定能做，在安全性上沒(méi)有做太多完善的情況下，很有可能會(huì)引發(fā)公關(guān)危機(jī)

----end----

其它參考

1、https://openai.com/blog/chatgpt/

2、《Training language models?to follow instructions with human feedback》，https://arxiv.org/abs/2203.02155

3、統(tǒng)計(jì)學(xué)中的信噪比怎么理解，https://www.zhihu.com/question/37522785

標(biāo)簽：

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

InstructGPT 論文精讀【論文精讀】

2、《Training language models?to follow instructions with human feedback》，https://arxiv.org/abs/2203.02155