最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

InstructGPT 論文精讀【論文精讀】

2023-01-17 00:36 作者:如果我是泡橘子  | 我要投稿

ChatGPT

  • Chat GPT 既沒(méi)有發(fā)表在 NeurlPS 上面,也沒(méi)有發(fā)表在 EMNLP ,甚至連一篇論文都沒(méi)有


ChatGPT 的四個(gè)應(yīng)用

Samples

1、ChatGPT?asks the clarifying questions to debug code


2、ChatGPT?initially refuses to answer a question that could be about illegal activities but responds after the user clarifies their intent

  • ChatGPT 能在安全性上避免進(jìn)行一些非法的回答


3、ChatGPT?is able to understand the reference (“it”) to the subject of the previous question (“fermat’s little theorem”)

  • ChatGPT 是能夠理解上下文的,它能夠記住之前的問(wèn)題(它能夠做一個(gè) 8000 詞的上下文,也就是說(shuō)如果回答是在 8000 詞以內(nèi)的話是能夠聯(lián)系上下文的)


4、ChatGPT?provides responses to follow-up instructions

  • ChatGPT 是能夠理解自己的局限性的,它明白自己有哪些事情是自己做不到的


以上是官方給出的應(yīng)用樣例,還有一些其他的應(yīng)用:

  • 把它偽裝成一個(gè)操作系統(tǒng),讓它來(lái)執(zhí)行代碼

GPT-3發(fā)布之后的一兩年之內(nèi),出現(xiàn)了上百種應(yīng)用,和 GPT-3 相比,ChatGPT 是基于對(duì)話的形式,而且是多輪對(duì)話,ChatGPT 更加自然一點(diǎn),符合人的交互習(xí)慣,所以不出意外的話,未來(lái)也會(huì)出現(xiàn)越來(lái)越多的應(yīng)用

(根據(jù) OpenAI 的一貫作風(fēng),它會(huì)先發(fā)布模型,過(guò)幾個(gè)月之后再發(fā)論文,目前只有模型和博客,論文暫時(shí)還沒(méi)有發(fā)布)




Methods

ChatGPT 用的是跟 InstructGPT 相同的方法

  • InstructGPT 其實(shí)跟 GPT 更相近,它的數(shù)據(jù)格式是一個(gè) prompt
  • ChatGPT 的輸入是一個(gè)對(duì)話的形式,所以說(shuō)在數(shù)據(jù)收集上面和 InstructGPT 有一點(diǎn)不同:在標(biāo)注數(shù)據(jù)的時(shí)候需要做成多輪對(duì)話的形式

(這張圖和 Instruct GPT 也是相同的)

ChatGPT 是在 GPT3.5系列的基礎(chǔ)上進(jìn)行微調(diào)得來(lái)的

  • 這里的 GPT3.5 應(yīng)該就是在GPT-3 代碼的基礎(chǔ)上進(jìn)行修改得到的





InstructGPT

  • OpenAI 的工作都是基于前面的工作,工作是具有連續(xù)性
  • InstructGPT 這篇文章發(fā)表于 2022 年 3 月 4 日
  • 論文鏈接:https://arxiv.org/abs/2203.02155



Title

  • 訓(xùn)練語(yǔ)言模型,使得它們能夠服從人類(lèi)的一些指示


語(yǔ)言模型每次是給定一段東西,然后去預(yù)測(cè)下一個(gè)詞,它是一個(gè)自監(jiān)督模型,所以認(rèn)為它是沒(méi)有標(biāo)號(hào)的。如果想讓語(yǔ)言模型去解釋某一個(gè)概念的話,就需要文本中出現(xiàn)過(guò)類(lèi)似的東西,因此模型的行為取決于文本搜集的好壞。一般用來(lái)訓(xùn)練的文本大概都是幾十億、幾百億的詞,所以具體里面有什么東西是不清楚的,只是大概知道文本質(zhì)量的好壞,然后進(jìn)行一定的清洗。因此模型的精細(xì)度是不夠的,所以對(duì)整個(gè)模型的控制比較弱,一般就是大力出奇跡,把數(shù)據(jù)輸入進(jìn)去,得到什么樣的模型就是什么

這樣的問(wèn)題在于:

  • 有效性:如果想讓模型去做某個(gè)事情,但是模型始終學(xué)不會(huì)怎么辦?因?yàn)槲谋局袥](méi)有相應(yīng)的東西。
  • 安全性:模型輸出一些不應(yīng)該輸出的東西怎么辦?這對(duì)于大公司來(lái)講將會(huì)造成很大的災(zāi)難

最簡(jiǎn)單的辦法就是標(biāo)注一些數(shù)據(jù),所以這篇文章的省流版本就是標(biāo)注一點(diǎn)數(shù)據(jù),然后將語(yǔ)言模型做一次微調(diào),這樣就能獲得更好的效果

  • 整個(gè) OpenAI 或者說(shuō)現(xiàn)在這些大的模型都是號(hào)稱往無(wú)監(jiān)督或者是自監(jiān)督的方向發(fā)展,現(xiàn)在如果說(shuō)還是需要進(jìn)行數(shù)據(jù)標(biāo)注,效果會(huì)很好,如果這么說(shuō)的話,就是自相矛盾了,所以文章需要進(jìn)行包裝



Author

  • 作者基本上都是 OpenAI 的員工,帶“*”的是主要作者



Abstract

把語(yǔ)言模型變大并不能代表它們會(huì)更好地按照用戶的意圖來(lái)做事情,大的語(yǔ)言模型很可能會(huì)生成一些不真實(shí)的、有害的或者是沒(méi)有幫助的答案。換句話說(shuō),這些模型沒(méi)有和用戶站在一起(目標(biāo)一致,達(dá)成合作)

  • 如果讀者的關(guān)注點(diǎn)主要在研究上面,就可能會(huì)低估這一段話的重要性。因?yàn)樵谘芯可?,很多時(shí)候訓(xùn)練一個(gè)模型,在標(biāo)準(zhǔn)數(shù)據(jù)集上把整個(gè)分?jǐn)?shù)刷上去就行了。但是在工業(yè)上的部署,也就是在 AI 模型的落地上面,安全性和有效性是非常重要的。
  • 比如一個(gè)機(jī)器學(xué)習(xí)的產(chǎn)品,因?yàn)橛幸恍┑胤經(jīng)]有做到位,從而引發(fā)爭(zhēng)議導(dǎo)致整個(gè)產(chǎn)品下線,這種例子很多:比如 2015 年有用戶反饋 Google 的照片服務(wù)將黑人的標(biāo)簽識(shí)別成了 Gorilla(大猩猩) ,導(dǎo)致 Google 緊急上線將 Gorilla 這個(gè)標(biāo)簽在模型中刪掉。三年之后,Google photos 還是把 Gorilla 整個(gè)標(biāo)簽去掉了,也就是說(shuō),如果照片中有真的 Gorilla 的話,Google 是不會(huì)將它識(shí)別出來(lái)的;2021 年紐約時(shí)報(bào)報(bào)道說(shuō) Facebook 因?yàn)樗?AI 算法把它的黑人視頻加了一個(gè)靈長(zhǎng)類(lèi)動(dòng)物的標(biāo)簽而道歉,跟之前的黑猩猩事件如出一轍;微軟發(fā)布的一個(gè)小冰聊天機(jī)器人的英文版在推特上發(fā)布 16 小時(shí)之后,用戶發(fā)現(xiàn)它有一點(diǎn)種族歧視的語(yǔ)言,然后微軟就緊急將它下架了,然后重新訓(xùn)練一個(gè)模型上線之后結(jié)果又亂講話,最后導(dǎo)致整個(gè)產(chǎn)品被下線;最近的例子,Meta 發(fā)布了一個(gè)叫做 Galactica 的模型(https://galactica.org/explore/,由 paper with code 團(tuán)隊(duì)發(fā)布),它能夠做很多學(xué)術(shù)相關(guān)的事情,比如講一個(gè)公式翻譯成一個(gè)語(yǔ)言來(lái)進(jìn)行描述或者說(shuō)將一段代碼用數(shù)學(xué)公式寫(xiě)出來(lái),以及解決數(shù)學(xué)題,在模型發(fā)布不久之后,就有人發(fā)現(xiàn)這個(gè)模型會(huì)生成一些錯(cuò)誤的或者是有偏見(jiàn)的但是聽(tīng)上去很正確的東西,他認(rèn)為這個(gè)是一個(gè)非常危險(xiǎn)的事情,等于是在一本正經(jīng)的胡說(shuō)八道并且使別人相信了,這些批評(píng)導(dǎo)致模型在發(fā)布的三天之后,Meta 就將這個(gè)模型下架了。。。

所以當(dāng)將一個(gè)機(jī)器學(xué)習(xí)的模型部署到產(chǎn)品中的時(shí)候需要非常小心,需要特別注意它出錯(cuò)的地方,避免在公關(guān)上出現(xiàn)問(wèn)題。通常對(duì)于簡(jiǎn)單的分類(lèi)問(wèn)題來(lái)說(shuō)相對(duì)會(huì)好一點(diǎn),只需要將標(biāo)號(hào)中一些有爭(zhēng)議性的標(biāo)號(hào)拿掉,但是語(yǔ)言模型的輸出特別靈活

  • 一方面研究者享受這種靈活性帶來(lái)的巨大的應(yīng)用場(chǎng)景
  • 另一方面,這種靈活性的輸出,導(dǎo)致出錯(cuò)的概率會(huì)更大

GPT-3 發(fā)布這么久,有出過(guò)什么事情嗎?

  • 其實(shí)是有的,只是 OpenAI 作為一個(gè)創(chuàng)業(yè)公司,媒體對(duì)創(chuàng)業(yè)公司的容忍度相對(duì)來(lái)講會(huì)高一些
  • 但是如果是一些大廠,比如 Google 這樣的大公司,把 GPT-3 這種模型做成一個(gè)產(chǎn)品的形式時(shí),一旦出現(xiàn)什么問(wèn)題,就會(huì)出現(xiàn)很大的公關(guān)問(wèn)題
  • 事實(shí)上,ChatGPT 已經(jīng)在安全性上做了很多工作,避免去回答一些非法的問(wèn)題,實(shí)際上大家早就找到了各種可能性來(lái)繞開(kāi)這些限制
  • ?
    14:34
    ?
  • 其實(shí)有很多的可能性讓ChatGPT發(fā)表一些不適當(dāng)?shù)难哉?,只是現(xiàn)在 OpenAI 的口碑比較良好,如果說(shuō)換一個(gè)大廠將同樣的模型發(fā)表出來(lái),結(jié)果就不一樣了

這篇文章中展示了怎樣對(duì)語(yǔ)言模型和人類(lèi)的意圖之間做 align ,具體使用的方法是使用人類(lèi)的反饋進(jìn)行微調(diào)(fine-tuning with human feedback)

  • 注意這里使用的是 human feedback,不是使用的帶標(biāo)簽的數(shù)據(jù)

具體做法是寫(xiě)了很多的 prompt ,在 OpenAI 的 API 上收集到各種問(wèn)題,然后用標(biāo)注工具將這些問(wèn)題的答案寫(xiě)出來(lái),這樣就標(biāo)注了一個(gè)數(shù)據(jù)集,然后在這個(gè)數(shù)據(jù)集上對(duì) GPT-3 的模型做微調(diào)

然后又收集了一個(gè)數(shù)據(jù)集,這個(gè)數(shù)據(jù)集就是對(duì)每個(gè)模型的輸出(問(wèn)它一個(gè)問(wèn)題,它可能會(huì)輸出很多模型,因?yàn)樗且粋€(gè)概率采樣的問(wèn)題)進(jìn)行人工標(biāo)注,標(biāo)注出好壞的順序,有了這個(gè)順序之后,再用強(qiáng)化學(xué)習(xí)繼續(xù)訓(xùn)練出一個(gè)模型,這個(gè)模型就叫做 InstructGPT

所以作者主要做了兩件事情

  • 首先標(biāo)注了一些數(shù)據(jù),將問(wèn)題和答案都寫(xiě)出來(lái)然后訓(xùn)練一個(gè)模型
  • 接下來(lái)又做了一個(gè)排序的數(shù)據(jù)集,然后用強(qiáng)化學(xué)習(xí)再訓(xùn)練出一個(gè)模型

因此一共有兩個(gè)模型,結(jié)果證明在人類(lèi)的評(píng)估上面, InstructGPT (有標(biāo)號(hào)的數(shù)據(jù)集)1.3B 的模型參數(shù)要好過(guò)最大的 GPT-3,也就是175B,也就是說(shuō)一個(gè) 1% 大小的模型的效果反而更好一點(diǎn)。另外 InstructGPT 能在真實(shí)性上更高地降低有害的答案出現(xiàn)的概率。在公開(kāi)的 NLP 數(shù)據(jù)集上,它的性能也沒(méi)有顯著的下降。

因此,等價(jià)于是說(shuō) InstructGPT更小,但是效果更好,而且在一些別的公開(kāi)數(shù)據(jù)集上性能也沒(méi)有變差

  • 當(dāng)然,不得不承認(rèn)的是 InstructGPT 還是會(huì)犯一些簡(jiǎn)單的錯(cuò)誤

整個(gè)摘要的核心思想是說(shuō),作者標(biāo)記了一個(gè)數(shù)據(jù)集,然后在這個(gè)數(shù)據(jù)集上比 GPT-3 要小 100 倍的模型然后在上面做微調(diào)的效果比最大的 GPT-3 模型的效果可能還要好一些

  • 對(duì)于這個(gè)結(jié)果,也不是特別意外,因?yàn)闃?biāo)注的數(shù)據(jù)集信噪比更加好一點(diǎn),所以學(xué)習(xí)起來(lái)更加簡(jiǎn)單一點(diǎn),不需要那么大的模型
  • transformer 模型就是對(duì)整個(gè)數(shù)據(jù)做壓縮,把整個(gè)數(shù)據(jù)信息壓縮進(jìn)模型的參數(shù),信噪比越高,而且標(biāo)注的信息和最后要評(píng)估的數(shù)據(jù)集可能更近一點(diǎn),所以就導(dǎo)致不需要壓縮那么多的東西
  • 信噪比:方差即不確定性,不確定性即信息。也就是說(shuō)對(duì)于一組樣本來(lái)說(shuō),其方差越大,代表樣本中含有的信息越多,所以可以將方差看作信息量的一個(gè)度量。因此,信噪比的統(tǒng)計(jì)學(xué)含義就是:能夠被模型解釋的信息與不能夠被模型解釋的信息之比。
  • 雖然 OpenAI 和一些大的廠都是在說(shuō),訓(xùn)練一個(gè)特別大的模型,根本不需要標(biāo)注,效果特別好,實(shí)際上在實(shí)用上來(lái)講,如果這個(gè)方向一路走到底的時(shí)候,計(jì)算能力不一定能吃得消,而且數(shù)據(jù)可能增長(zhǎng)到某個(gè)程度之后,可能覆蓋的地方還是存在問(wèn)題,而在那些想要的特性但是模型做不到的地方適當(dāng)加入一些人類(lèi)的標(biāo)注,其實(shí)相對(duì)來(lái)講更加劃算

所以一個(gè)好的方法需要平衡算力的需求和人類(lèi)標(biāo)注的代價(jià)





Introduction

  • 導(dǎo)論就是摘要中所講的故事的一個(gè)稍微詳細(xì)的版本,首先講問(wèn)題,然后講方法,最后講結(jié)果

大的語(yǔ)言模型能夠通過(guò)提示的方式把任務(wù)作為輸入,但是這些模型也經(jīng)常會(huì)有一些不想要的行為,比如說(shuō)捏造事實(shí),生成有偏見(jiàn)的、有害的或者是沒(méi)有按照想要的方式來(lái),這是因?yàn)檎麄€(gè)語(yǔ)言模型訓(xùn)練的目標(biāo)函數(shù)有問(wèn)題

  • 語(yǔ)言模型的目標(biāo)函數(shù)是在網(wǎng)上的文本數(shù)據(jù)中預(yù)測(cè)下一個(gè)詞,即給定一個(gè)文本中的一段話,然后預(yù)測(cè)這段話后面的詞
  • 這個(gè)目標(biāo)函數(shù)和想讓根據(jù)人的指示來(lái)生成安全的、有幫助的答案其實(shí)是不一樣的,所以作者把真正訓(xùn)練的目標(biāo)函數(shù)和所想要讓這個(gè)模型做的事情之間的差距叫做語(yǔ)言模型目標(biāo)函數(shù)是沒(méi)有 align

所以這篇文章的目的就是讓語(yǔ)言模型更好一點(diǎn):

  • 希望語(yǔ)言模型能夠更有幫助性,能夠解決想讓它解決的事情
  • 能夠更加真誠(chéng),不要捏造事實(shí),要實(shí)事求是
  • 無(wú)害,既不要生成讓人反感的輸出,也不要生成一些可能對(duì)別人造成危害的輸出


具體實(shí)現(xiàn)的方法

1、基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(reinforcement learning from human feedback,RLHF)(之所以選用 RLHF 這個(gè)方法可能是因?yàn)?OpenAI 其實(shí)是做強(qiáng)化學(xué)習(xí)起家的,這篇文章幾位作者之前都是做強(qiáng)化學(xué)習(xí)的,強(qiáng)化學(xué)習(xí)的一個(gè)方法就是去仿照人,比如說(shuō)打游戲或者做機(jī)器人之類(lèi)的,這里這個(gè)技術(shù)可以同樣用過(guò)來(lái),使模型能夠仿照人來(lái)生成答案或者是生成符合人偏好的答案)

圖二(InstructGPT 怎樣從 GPT-3 一步一步訓(xùn)練而來(lái)的,一共標(biāo)注了兩塊數(shù)據(jù),生成了三個(gè)模型)

  • ----第一步----
  • 首先找了各種人來(lái)寫(xiě)各種各樣的問(wèn)題(這個(gè)問(wèn)題在 GPT 中叫做 prompt ,具體來(lái)說(shuō)就是向一個(gè) 6 歲的小孩解釋什么是月亮;這些問(wèn)題也可能是來(lái)自之前用戶在向 GPT-3 提交的各種問(wèn)題中篩選出來(lái)的)
  • 然后繼續(xù)讓人寫(xiě)答案(比如說(shuō)例子中問(wèn)題的答案就是一些人去了月球。。。)
  • 在有了問(wèn)題和答案之后,就可以將這兩個(gè)拼成一段話,然后在這個(gè)上面對(duì) GPT-3 進(jìn)行微調(diào)
  • 因此,雖然這是人類(lèi)標(biāo)注的數(shù)據(jù),但是在 GPT 眼中都是一樣的,都是給定一段話然后預(yù)測(cè)下一個(gè)詞,所以在微調(diào)上跟之前的在別的地方做微調(diào)或者是做預(yù)訓(xùn)練沒(méi)有任何區(qū)別
  • GPT-3 的模型在人類(lèi)標(biāo)注的數(shù)據(jù)上微調(diào)出來(lái)的模型叫做 有監(jiān)督的微調(diào)(supervised fine-tuning),這是訓(xùn)練出來(lái)的第一個(gè)模型,其實(shí)訓(xùn)練出來(lái)的這個(gè)模型也能用,但是它的問(wèn)題在于生成答案是一件很貴的事情,所以很難讓人把所有各式各樣的答案都寫(xiě)出來(lái)
  • ----第二步----(在標(biāo)注上更加簡(jiǎn)單一點(diǎn))
  • 給定一個(gè)問(wèn)題,讓上一步訓(xùn)練好的預(yù)訓(xùn)練模型 SFT 生成答案
  • GPT 每一次預(yù)測(cè)一個(gè)詞的概率,可以根據(jù)這個(gè)概率采樣出很多答案,通常來(lái)說(shuō)可以用 beam search
  • 這里生成了四個(gè)答案,然后把這四個(gè)答案的好壞進(jìn)行人工標(biāo)注,進(jìn)行排序標(biāo)注
  • 有了這些排序之后,再訓(xùn)練一個(gè)模型獎(jiǎng)勵(lì)模型(Reward Model,RM),這個(gè)模型是說(shuō)給定 prompt 得到輸出,然后對(duì)這個(gè)輸出生成一個(gè)分?jǐn)?shù),可以認(rèn)為這個(gè)分?jǐn)?shù)是一個(gè)獎(jiǎng)勵(lì)或者是打分,使得對(duì)答案的分?jǐn)?shù)能夠滿足人工排序的關(guān)系(大小關(guān)系保持一致),一旦這個(gè)模型生成好之后,就能夠?qū)ι傻拇鸢高M(jìn)行打分
  • ----第三步----
  • 繼續(xù)微調(diào)之前訓(xùn)練好的 SFT,使得它生成的答案能夠盡量得到一個(gè)比較高的分?jǐn)?shù),即每一次將它生成的答案放進(jìn) RM 中打分,然后優(yōu)化 SFT 的參數(shù)使得它生成的答案在 RM 中獲得更高的分?jǐn)?shù)

如果在第一步人工標(biāo)注數(shù)據(jù)的時(shí)候能夠生成足夠多的答案的話,其實(shí)不需要后面兩步也是可行的,但是考慮到寫(xiě)一個(gè)答案做生成式的標(biāo)注遠(yuǎn)遠(yuǎn)復(fù)雜于對(duì)模型生成的答案進(jìn)行好壞的排序的這種判別式的標(biāo)注

所以第二步的好處在于讓數(shù)據(jù)標(biāo)注變得更更加簡(jiǎn)單,能夠更快速的得到更多的標(biāo)注信息,所以有了第二步之后,就可以使得在同樣的標(biāo)注成本下能夠得到更多的數(shù)據(jù),可能模型的性能會(huì)更好一些

最后訓(xùn)練出來(lái)的模型就叫做 InstructGPT ,它是 GPT-3 經(jīng)過(guò)以上三個(gè)步驟訓(xùn)練得來(lái)的

從技術(shù)要點(diǎn)上來(lái)看,有以下幾個(gè)技術(shù):

  • 第一步中的數(shù)據(jù)標(biāo)注的實(shí)現(xiàn)
  • 第二步中的數(shù)據(jù)排序的實(shí)現(xiàn)
  • 微調(diào)和 GPT-3 的微調(diào)是一樣的
  • RM 模型的訓(xùn)練
  • 有了 RM 模型之后,如何通過(guò)強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練


最后是關(guān)于結(jié)果的一些描述:

1、標(biāo)注人員覺(jué)得 InstructGPT 的答案要比 GPT-3 的答案明顯要好很多

2、InstructGPT 在真實(shí)性上要比 GPT-3 好一些

3、InstructGPT 在生成有害的輸出上要比 GPT-3 好一點(diǎn),因?yàn)樗梢哉f(shuō)不想回答某一個(gè)問(wèn)題,但是在偏見(jiàn)(比如性別歧視)上并沒(méi)有太大的提升

4、在做微調(diào)的時(shí)候通常是根據(jù)某一個(gè)目標(biāo)做微調(diào),可能會(huì)使得模型在一些別的任務(wù)上的性能會(huì)下降。作者的做法是在做強(qiáng)化學(xué)習(xí)的時(shí)候,將最原始的目標(biāo)函數(shù)拿回來(lái),使得雖然在做完微調(diào)之后在這種 QA 上面做的更好一點(diǎn),但是在一些其他的任務(wù),比如說(shuō)公有的 NLP 數(shù)據(jù)集上也不至于說(shuō)性能下降很多

5、雖然在整個(gè)過(guò)程中進(jìn)行了人工標(biāo)注,但是標(biāo)注這個(gè)事情非常有主觀性,因?yàn)槭菍?xiě)一段文字或者是判斷兩段話的好壞,作者找了一些沒(méi)有標(biāo)注數(shù)據(jù)參與訓(xùn)練的標(biāo)注人員,只是從結(jié)果的角度去評(píng)估 InstructGPT 的話他們還是覺(jué)得 InstructGPT 要比 GPT-3 好一些(人與人之間的喜好是有一定的相關(guān)性的)

6、作者將 GPT-3 在 InstructGPT 的數(shù)據(jù)和其他的公用數(shù)據(jù)集 FLAN 和 T0 上進(jìn)行了微調(diào),最后比較發(fā)現(xiàn),還是在自己的數(shù)據(jù)上微調(diào)出來(lái)的效果會(huì)好一些,也就是說(shuō)別人的數(shù)據(jù)可能和自己的數(shù)據(jù)在分布上不太一致,所以意味著微調(diào)對(duì)數(shù)據(jù)還是比較敏感的

7、作者標(biāo)注了大量的問(wèn)題,但是因?yàn)檎Z(yǔ)言模型比較靈活,不可能將所有的問(wèn)題都標(biāo)注出來(lái),所以作者發(fā)現(xiàn)雖然標(biāo)注的問(wèn)題里面只有少部分是總結(jié)代碼或者是問(wèn)代碼相關(guān)的問(wèn)題,在訓(xùn)練完之后發(fā)現(xiàn)實(shí)際的模型在這方面的表現(xiàn)還是不錯(cuò)的,也就是說(shuō)所訓(xùn)練出來(lái)的模型其實(shí)是有一些泛化性的,因此這也意味著其實(shí)也沒(méi)有必要一定要將所有不同的問(wèn)答類(lèi)型全部標(biāo)注,模型根據(jù)之前的先驗(yàn)知識(shí)具有一定的泛化性

8、模型也還是會(huì)犯一些簡(jiǎn)單的錯(cuò)誤,因?yàn)槲闹兴故镜亩际且恍┠P退憩F(xiàn)出來(lái)的比較出乎意料的東西,但是可能在一些大家習(xí)以為常的地方很可能會(huì)出錯(cuò),所以在這一點(diǎn)上可以認(rèn)為 InstructGPT 或者說(shuō)甚至現(xiàn)在的 ChatGPT 多多少少還是像一個(gè)玩具,而不是一個(gè)工具

  • 工具不需要驚喜,但是需要保證可用性,不能在一些正常的地方出錯(cuò)





Related work





Methods and experimental details

本文所使用的方法就是前面工作的方法,只是前面的工作主要用在文本樣式的一致性和漸進(jìn)式總結(jié)(類(lèi)似于問(wèn)答的場(chǎng)景下),方法本身沒(méi)有本質(zhì)上的區(qū)別(這些技術(shù)雖然都是 openAI 前面的研究,但是并不是 InstructGPT 的原創(chuàng),這些技術(shù)之前就有了,只不過(guò) InstructGPT 使用這些技術(shù)在一個(gè)新的數(shù)據(jù)集上重新訓(xùn)練了一下)



Dataset

1、prompt 數(shù)據(jù)集

來(lái)源:

首先標(biāo)注人員寫(xiě)了很多的問(wèn)題,這些問(wèn)題包括:

  • Plain:讓標(biāo)注人員寫(xiě)任何的問(wèn)題
  • Few-shot:讓標(biāo)注人員寫(xiě)一個(gè)指令,有各種不同的指令,然后里面有后續(xù)的一些問(wèn)題回答
  • User-based:用戶提供了一些想要支持的應(yīng)用場(chǎng)景,然后將其構(gòu)建成任務(wù)

有了這些最初構(gòu)建出來(lái)的 prompt 之后,作者訓(xùn)練了第一個(gè) InstructGPT 模型,得到這個(gè)模型之后,將其放在 playground 中供大家使用。大家在使用的過(guò)程中可能又會(huì)提出一些問(wèn)題,然后又把這些問(wèn)題采集回來(lái),并進(jìn)行篩選

  • 對(duì)每個(gè)用戶最多采用 200 個(gè)問(wèn)題
  • 在劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集的時(shí)候是根據(jù)用戶的 ID 來(lái)劃分的(這個(gè)也很重要,當(dāng)收集了很多來(lái)自不同用戶的各種問(wèn)題之后,不能把這些問(wèn)題放在一起進(jìn)行隨機(jī)劃分,因?yàn)橐粋€(gè)用戶可能會(huì)問(wèn)一些類(lèi)似的問(wèn)題,如果這個(gè)問(wèn)題同時(shí)出現(xiàn)在訓(xùn)練集和測(cè)試集中,就會(huì)造成數(shù)據(jù)污染,所以按照用戶進(jìn)行劃分更加公平)
  • 如果問(wèn)題中包含了很多的用戶信息,比如出現(xiàn)了人名,就將其過(guò)濾掉

通過(guò)這個(gè)方法就得到了更多的 prompt。

這也是一個(gè)比較常見(jiàn)的思路,比如說(shuō)要做一個(gè)機(jī)器學(xué)習(xí)的產(chǎn)品,訓(xùn)練模型需要數(shù)據(jù)。這個(gè)數(shù)據(jù)一開(kāi)始可以人工標(biāo)注一點(diǎn)數(shù)據(jù),但是人工標(biāo)注的數(shù)據(jù)和真正用戶用的肯定是存在一定的差距,有了一些數(shù)據(jù)之后就能夠訓(xùn)練出一個(gè)模型出來(lái),這個(gè)模型不一定要特別好,可以將其作為內(nèi)側(cè)模型供大家使用。在用戶使用過(guò)后就能收集到更多的數(shù)據(jù),能夠進(jìn)一步提升模型的質(zhì)量。在不斷進(jìn)行迭代提升之后,就能夠得到一個(gè)比較好的數(shù)據(jù)集,而且能夠持續(xù)地進(jìn)行下去,這也是一般發(fā)布產(chǎn)品的思路。

  • 如果是一個(gè)創(chuàng)業(yè)公司,做東西可能會(huì)隨便一點(diǎn)。當(dāng)發(fā)布一個(gè)產(chǎn)品,如果沒(méi)做好,用戶的容忍度會(huì)比較大,而且在使用用戶的數(shù)據(jù)上面也更加容易
  • 但是如果是大公司的話,發(fā)布的任何東西,雖然可能只是供大家?jiàn)蕵?lè),但是如果大家對(duì)這個(gè)東西的質(zhì)量跟自己的預(yù)期有點(diǎn)差距之后,可能后果比較嚴(yán)重。而且大公司在使用用戶的數(shù)據(jù)方面可能會(huì)受到更多的抵制

在有了這些 prompt 之后就產(chǎn)生了三個(gè)不同的數(shù)據(jù)集,數(shù)據(jù)集之間可能共享了一些問(wèn)題:

  • SFT 數(shù)據(jù)集:讓標(biāo)注人員直接寫(xiě)答案。用來(lái)訓(xùn)練 SFT 模型的數(shù)據(jù)集中有 13000 個(gè)樣本。
  • RM 數(shù)據(jù)集:用來(lái)訓(xùn)練一個(gè) RM 模型,只需要進(jìn)行排序就可以了。用來(lái)訓(xùn)練 RM 模型的數(shù)據(jù)集中有 33000 個(gè)樣本。
  • PPO 數(shù)據(jù)集:用來(lái)訓(xùn)練強(qiáng)化模型,也就是 InstructGPT 。這個(gè)時(shí)候就不需要標(biāo)注(標(biāo)注來(lái)自于 RM 模型的標(biāo)注)。用來(lái)訓(xùn)練 InstructGPT 模型的數(shù)據(jù)集中有 31000 個(gè)樣本。


表 1 展示了 prompt 數(shù)據(jù)集中使用 API 的用戶的用途分布情況

  • 最多的是生成一些東西,其次是一些開(kāi)放性的回答、頭腦風(fēng)暴等

表 2 中展示了一些例子

  • 頭腦風(fēng)暴:列出五個(gè)能夠使我保持對(duì)事業(yè)的熱情的五個(gè)想法
  • 生成類(lèi):生成一個(gè)短故事
  • 重寫(xiě):給定百老匯 show 的總結(jié),將其中的要點(diǎn)列出來(lái)

在文章的附錄 A 中提供了大量的 prompt 的例子







Tasks

任務(wù)的多元性還是挺高的



Human data collection

這一小節(jié)主要講述的是怎樣進(jìn)行數(shù)據(jù)的標(biāo)注

作者在 Upwork(美國(guó)招聘合同工常用的網(wǎng)站) 和 ScaleAI(一個(gè)數(shù)據(jù)標(biāo)注公司) 上招了一個(gè) 40 人組成的團(tuán)隊(duì),在附錄 B 中有對(duì)人員的篩選過(guò)程進(jìn)行詳細(xì)的描述

  • 具體來(lái)說(shuō),需要進(jìn)行測(cè)試,看這個(gè)人工作做得怎么樣(這個(gè)在實(shí)際的產(chǎn)品中還是比較重要的,招人標(biāo)注數(shù)據(jù)不難,但是想要招到比較滿意的、能夠提供足夠質(zhì)量數(shù)據(jù)的人其實(shí)并不容易。對(duì)于這一塊也有相關(guān)的研究工作,專門(mén)研究怎樣去挑選標(biāo)注人員,甚至通過(guò)強(qiáng)化學(xué)習(xí)來(lái)選人)

在標(biāo)注的過(guò)程中,希望能夠做到,盡量將幫助性排在第一位;在評(píng)測(cè)的時(shí)候盡量把真實(shí)性和無(wú)害性排在第一位

  • 標(biāo)注數(shù)據(jù)的時(shí)候給的指示和最終評(píng)估的時(shí)候不同

作者和標(biāo)注人員緊密合作,因?yàn)檎麄€(gè)任務(wù)相對(duì)來(lái)說(shuō)還是比較開(kāi)放的,而且比較難,所以需要不斷地與標(biāo)注人員進(jìn)行溝通,在幾個(gè)月的時(shí)間跨度中進(jìn)行合作,因?yàn)樯深?lèi)和比較長(zhǎng)的對(duì)話的判斷都是一些比較模棱兩可的任務(wù),因此需要的是熟練的標(biāo)注人員

  • 這也是為什么作者招了一個(gè)由 40 個(gè)合同工組成的團(tuán)隊(duì),這樣的話就能夠保證可以持續(xù)地跟這些標(biāo)注人員進(jìn)行溝通,他們也能夠知道到底要干什么事情
  • 像簡(jiǎn)單的圖片標(biāo)注,可能隨便找一些人進(jìn)行標(biāo)注就可以了

這些標(biāo)注人員的一致性還是比較高的

  • 72% 左右的情況下,大家是相互同意對(duì)方的一些評(píng)測(cè)。這就意味著這個(gè)任務(wù)可能具有二相性,但是大家的意向基本一致

如果之前沒(méi)有做過(guò)數(shù)據(jù)標(biāo)注,而且需要找人進(jìn)行數(shù)據(jù)標(biāo)注的話,可以參考作者所采用的方法,他的描述還是比較詳細(xì)的

  • 特別是在附錄中提供了很多的模板,又可能能夠直接套用
  • 作者還提供了標(biāo)注網(wǎng)頁(yè)的 UI 的樣式,可以進(jìn)行參考

數(shù)據(jù)標(biāo)注其實(shí)比較偏工程化,這一塊里面還是有很多的技術(shù)可以學(xué)習(xí)的,有很多的論文,以及專業(yè)的公司。如果有這方面的需求,可以參考其他人的做法,不需要從零開(kāi)始,因?yàn)橛泻芏嗟募夹g(shù)是可以借鑒的



Models

總共有三個(gè)模型:

1、Supervised fine-tuning(SFT

等價(jià)于將 GPT-3 模型標(biāo)注好的 prompt 和答案進(jìn)行重新訓(xùn)練,總共訓(xùn)練了 16 個(gè) epoch

  • 因?yàn)閿?shù)據(jù)比較少,總共只有 13000 個(gè)數(shù)據(jù),所以 GPT 的模型訓(xùn)練一個(gè) epoch 就過(guò)擬合了。這個(gè)模型也不是直接使用,而是用來(lái)初始化后面的模型,所以作者發(fā)現(xiàn)過(guò)擬合其實(shí)是沒(méi)有問(wèn)題的,對(duì)后面還能起到一定的幫助作用

2、Reward Modeling(RM

將 GPT-3 模型最后的 unembedding layer 去掉

  • 正常 GPT 進(jìn)入最后一個(gè)輸出層之后,放進(jìn) softmax 輸出一個(gè)概率?,F(xiàn)在 softmax 可以不用,在后面加上一個(gè)線性層來(lái)投影,即將所有詞的輸出投影到一個(gè)值上面,就是一個(gè)輸出為 1 的線性層,就可以輸出一個(gè)標(biāo)量的分?jǐn)?shù),而且這個(gè)獎(jiǎng)勵(lì)是在 prompt 和回復(fù)上面一起訓(xùn)練得來(lái)的

這里使用的是一個(gè) 6B 大小的RM,沒(méi)有用最大的 175B

  • 作者發(fā)現(xiàn) 175B 大小的模型訓(xùn)練起來(lái)不是特別穩(wěn)定(在比較大的模型訓(xùn)練,其實(shí)不穩(wěn)定是它的一個(gè)比較大的痛點(diǎn),而且現(xiàn)在也沒(méi)有特別好的解決方案)。如果模型訓(xùn)練不穩(wěn)定的話,在后面 RL 里面訓(xùn)練會(huì)比較麻煩
  • 此外,用小一點(diǎn)的模型也能夠節(jié)省算力

因?yàn)檩斎氲臉?biāo)注是排序,而不是讓用戶標(biāo)注的值,僅僅是一個(gè)順序,因此需要將這個(gè)順序轉(zhuǎn)換成一個(gè)值,作者使用的損失函數(shù)是排序中常見(jiàn)的 Pairwise-ranking?loss:

  • pairwise 是說(shuō)對(duì)一個(gè) prompt 取出一對(duì)它的答案 yw 和 yl (假設(shè) yw 的排序比 yl 高),先把 x(問(wèn)題) 和 yw(回答)放進(jìn)獎(jiǎng)勵(lì)模型計(jì)算出對(duì)應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù),再把 x(問(wèn)題) 和 yl(回答)也放進(jìn)獎(jiǎng)勵(lì)模型計(jì)算出對(duì)應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù)
  • 因?yàn)?yw 的排序比 yl 要高,也就意味著希望 yw 對(duì)應(yīng)的獎(jiǎng)勵(lì)要比 yl 大,將這兩個(gè)獎(jiǎng)勵(lì)值相減之后希望將最終的結(jié)果變的越大越好(這里使用的是 Logistic Loss)
  • ?
    44:38
    ?
  • 對(duì)于每個(gè) prompt 會(huì)生成 9 個(gè)答案
  • 如果一個(gè)答案比另外一個(gè)答案排序高的話,盡量使得它們之間的獎(jiǎng)勵(lì)分?jǐn)?shù)差距比較大

對(duì)于不同的變種,為什么要選擇這樣的損失函數(shù)?在前面的工作中使用的是 K=4 ,這里使用 K=9 有兩個(gè)原因

1、當(dāng) K=4 時(shí),做標(biāo)注的時(shí)候只需要對(duì) 4 個(gè)答案進(jìn)行排序就可以了,而現(xiàn)在需要對(duì) 9 個(gè)答案進(jìn)行排序,感覺(jué)上排序會(huì)變得更加復(fù)雜,但其實(shí)對(duì)問(wèn)題進(jìn)行標(biāo)注的時(shí)候可能需要花很多的時(shí)間去看懂 prompt 要干什么事情,可能需要花更多的時(shí)間去看懂一個(gè)問(wèn)題,在看明白了一兩個(gè)答案之后,其它答案可能長(zhǎng)得差不多,因?yàn)橹恍枰M(jìn)行排序,都是模型生成的答案,所以對(duì) 9 個(gè)答案進(jìn)行排序不一定比對(duì) 4 個(gè)答案進(jìn)行排序時(shí)間長(zhǎng)很多(并不存在倍數(shù)關(guān)系),算上讀題的時(shí)間,可能總共時(shí)間就多了 30%~40%,而不是更多

  • 但是反過(guò)來(lái)講,因?yàn)閷?duì) 9 個(gè)答案進(jìn)行了排序,產(chǎn)生了 36 個(gè)排序關(guān)系,等于標(biāo)注信息多了 9 倍,也就意味著可能沒(méi)有花超過(guò)兩倍的時(shí)間,但是標(biāo)注信息多了 6 倍(K=4 時(shí)只有 6 個(gè)排序信息)

2、

?
47:38
?

  • 在計(jì)算的時(shí)候,最貴的事情是將 x 和 y 放進(jìn) RM 模型里面(它是一個(gè) 6B 的 GPT-3 的模型),所計(jì)算的值是可以復(fù)用的,所以只需要進(jìn)行 9 次獎(jiǎng)勵(lì)值的計(jì)算就可以了(計(jì)算了 9 次,算出了 36 個(gè)標(biāo)號(hào),等價(jià)于節(jié)省了 倍的時(shí)間 ,K 越大節(jié)省的時(shí)間就越多,因此從計(jì)算上來(lái)講,K 的值越大也是有好處的)

之前的工作不僅是 K=4 ,而且在標(biāo)注的時(shí)候只標(biāo)注最好的一個(gè),也就是說(shuō)從 4 個(gè)答案中選出最好的答案,在計(jì)算損失的時(shí)候就不是 pairwise ,因?yàn)闆](méi)有兩兩比較信息,將一個(gè)二分類(lèi)的邏輯回歸問(wèn)題變成了一個(gè)多分類(lèi)的 softmax ,等于是在從 4 個(gè)值里面選出最大的值

  • 使用 softmax 最大的好處是在標(biāo)注的時(shí)候是四選一,而不是進(jìn)行排序。但是這樣做的問(wèn)題是容易過(guò)擬合

現(xiàn)在改成了全部答案的排序使得整個(gè)問(wèn)題變得復(fù)雜一點(diǎn):不是要學(xué)習(xí)得到一個(gè)分?jǐn)?shù)然后選出最大的值,而是說(shuō)要學(xué)一個(gè)分?jǐn)?shù)使得整個(gè) 9 個(gè)答案的排序能夠保留下來(lái)。所以標(biāo)號(hào)變多了之后,發(fā)現(xiàn)過(guò)擬合就會(huì)好一些,這也是作者對(duì)之前的一些方法進(jìn)行改動(dòng)的原因

3、Reinforcement learning(RL

這里用到的模型是強(qiáng)化學(xué)習(xí)中的 PPO ,

  • 強(qiáng)化學(xué)習(xí)中的算法有很多,PPO 是其中之一
  • 使用 PPO 是因?yàn)?PPO 也是 OpenAI 之前的工作,PPO 的作者也在本文的作者之列,所以挑選了一個(gè)自己比較熟悉的

PPO 模型簡(jiǎn)單來(lái)講就是在下面的目標(biāo)函數(shù)上進(jìn)行隨機(jī)梯度下降

  • ?
    50:13
    ?
  • 強(qiáng)化學(xué)習(xí)中,模型叫做 policy (策略),這里的 RL policy 其實(shí)就是 GPT-3 模型
  • SFT 是之前在標(biāo)好的問(wèn)題和答案的數(shù)據(jù)上面用監(jiān)督的微調(diào)訓(xùn)練出來(lái)的模型
  • RL 模型一開(kāi)始要初始化成為 SFT 模型,所以這兩個(gè)模型在一開(kāi)始的時(shí)候是一樣的

這個(gè)目標(biāo)函數(shù)和之前的主要區(qū)別是:(數(shù)據(jù)分布是隨著模型的更新變化的,在強(qiáng)化學(xué)習(xí)中稱為環(huán)境會(huì)發(fā)生變化)

?
52:11
?

之前已經(jīng)標(biāo)好了數(shù)據(jù),為了么要訓(xùn)練一個(gè) rθ 之后再訓(xùn)練一個(gè)模型出來(lái),為什么不直接訓(xùn)練?

  • 主要原因是標(biāo)注的只是一個(gè)排序,而不是標(biāo)注的答案
  • 給定一個(gè)模型,然后生成多個(gè)輸出,由標(biāo)注人員進(jìn)行排序,再計(jì)算梯度,然后再對(duì)模型進(jìn)行更新;下一次又生成新的數(shù)據(jù),然后進(jìn)行標(biāo)注,這在 RL 中比較常見(jiàn),叫做在線學(xué)習(xí)。如果想要做成在線學(xué)習(xí)的形式就需要實(shí)時(shí)對(duì)模型的生成結(jié)果進(jìn)行排序,會(huì)造成人力或者是算力的浪費(fèi)。所以在這個(gè)地方需要學(xué)習(xí)一個(gè)函數(shù)來(lái)替代掉這個(gè)人,rθ 其實(shí)就是在學(xué)習(xí)人的排序從而給模型實(shí)時(shí)的反饋,這就是為什么這里需要訓(xùn)練兩個(gè)模型

第二項(xiàng)

?
54:40
?

第三項(xiàng)

?
56:30
?


整個(gè) RL 模型簡(jiǎn)單來(lái)說(shuō)就是一個(gè) PPO 的目標(biāo)函數(shù)加上一個(gè)原始的 GPT-3 的目標(biāo)函數(shù)結(jié)合在一起??梢钥吹剿€是一個(gè)相對(duì)來(lái)講比較簡(jiǎn)單的 RL 算法,其實(shí)比作者之前的工作還要簡(jiǎn)單一點(diǎn)

  • 在之前的工作中嘗試在 RL 里面多走幾個(gè)來(lái)回,現(xiàn)在只是在之前預(yù)訓(xùn)練好的模型之后,通過(guò) RL 模型再跑一步,中間不需要人工進(jìn)行數(shù)據(jù)標(biāo)注
  • 作者在實(shí)際操作過(guò)程中發(fā)現(xiàn),這樣對(duì)有一些任務(wù)有效果,但是對(duì)有些任務(wù)沒(méi)有必要
  • 對(duì)于一些比較復(fù)雜的任務(wù),比如縮寫(xiě)任務(wù),因?yàn)?y 的變化可能會(huì)比較大,所以重新進(jìn)行標(biāo)注可能會(huì)好一點(diǎn)
  • 但相對(duì)來(lái)講比較簡(jiǎn)單一點(diǎn)的任務(wù),在 rθ 變化沒(méi)有那么大的情況下其實(shí)沒(méi)有太大的必要



小結(jié)

InstructGPT總共干了三件事情:

1、數(shù)據(jù):將 prompt 和答案標(biāo)出來(lái),然后用最正常的 GPT 微調(diào)出一個(gè)模型

2、訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型去擬合人對(duì)模型中多個(gè)輸出之間的排序,訓(xùn)練好之后將其放入到強(qiáng)化學(xué)習(xí)的框架中

3、通過(guò)強(qiáng)化學(xué)習(xí)模型調(diào)整 SFT 模型,使得輸出的結(jié)果在排序上更符合人的喜好





Results

  • ?
    59:58
    ?
  • 有三個(gè)不同大小的模型:原始的 GPT-3 ,1.3B~175B
  • y 軸表示和 175B 的 SFT 模型相比的勝率,正常的話是一半一半
  • GPT-3 在 prompt 上做比較多的調(diào)整,可以從圖中看到有提升,但是跟有標(biāo)注的比還是比較遠(yuǎn)的
  • 實(shí)驗(yàn)結(jié)果也驗(yàn)證了導(dǎo)言中所說(shuō)的用一個(gè) 1% 的模型,其實(shí)是能夠打敗 175B 的模型(是在一個(gè)特定的測(cè)試集上面,因?yàn)檫@個(gè)測(cè)試集和訓(xùn)練數(shù)據(jù)集是有一定的耦合性的)
  • 在 GPT-3 這篇論文中也提到過(guò),在沒(méi)有看過(guò)任何訓(xùn)練數(shù)據(jù)的情況下,使用大力出奇跡的方式出來(lái)的模型,比用過(guò)訓(xùn)練數(shù)據(jù)的模型可能效果還要好一些,但也只是針對(duì)一些相對(duì)來(lái)講比較簡(jiǎn)單的任務(wù)
  • 在這篇文章中,整個(gè)任務(wù)是比較復(fù)雜的,prompt 比較長(zhǎng),而且答案也并不簡(jiǎn)單,在看過(guò)標(biāo)注信息的前提下,提升還是比較大的





Discussion

1、作者認(rèn)為整個(gè)三個(gè)模型的訓(xùn)練的代價(jià)和預(yù)訓(xùn)練相比,相對(duì)來(lái)講比較低

  • 因?yàn)?strong>樣本比較少,就算是使用了 175B 的模型,樣本數(shù)也足足小了幾萬(wàn)倍或者幾十萬(wàn)倍

2、局限性

  • 數(shù)據(jù)是由 40 個(gè)合同工標(biāo)注出來(lái)的,這個(gè)模型的行為和這 40 個(gè)人是息息相關(guān)的,不一定能代表以后所有的用戶,所以后續(xù)還需要招一些人或者是用戶來(lái)提升模型的能力
  • 比如這里面的數(shù)據(jù)主要是英語(yǔ),所以在別的語(yǔ)言上肯定是有一定的差距的
  • 在模型上面也不是完全安全,還是會(huì)出現(xiàn)各種問(wèn)題





總結(jié)

從技術(shù)上來(lái)講,InstructGPT是一個(gè)比較實(shí)用的技術(shù),它提供了一個(gè)方法:給定一個(gè)比較大的語(yǔ)言模型,怎樣通過(guò)標(biāo)注一些數(shù)據(jù)能迅速地提升它在某一個(gè)你所關(guān)心領(lǐng)域上的性能,使其能夠達(dá)到一個(gè)實(shí)用的階段

  • 這也給想用生成模型做產(chǎn)品提供了一個(gè)實(shí)際可操作的思路

作者在一開(kāi)始提到了三個(gè)目標(biāo):想要語(yǔ)言模型更加有幫助性,說(shuō)更多的真話,以及無(wú)害性

  • 實(shí)際上這篇文章主要還是在講幫助性,也講了整個(gè)數(shù)據(jù)標(biāo)注的時(shí)候,也是優(yōu)化幫助性
  • 所以從創(chuàng)新性和完成度的角度,這篇文章一般,也為只是優(yōu)化了一個(gè)相對(duì)來(lái)講比較簡(jiǎn)單的目標(biāo),而沒(méi)有同時(shí)考慮到剩下兩個(gè)目標(biāo)去顯式地優(yōu)化它們

另外后面這個(gè) RL 模型可能也是沒(méi)有必要做的

  • 可以選擇在訓(xùn)練第一個(gè)模型的時(shí)候多標(biāo)注一點(diǎn)數(shù)據(jù),或者說(shuō)可以用文本合成這樣的方法來(lái)快速增大數(shù)據(jù)
  • 這樣做的好處就是在做微調(diào)的時(shí)候,直接將之前的代碼拿過(guò)來(lái)用就可以了,而不需要去做 RL ,RL模型所帶來(lái)的一系列復(fù)雜度的東西可以轉(zhuǎn)移到數(shù)據(jù)上面,因?yàn)閷?duì)數(shù)據(jù)進(jìn)行處理相對(duì)來(lái)講比較簡(jiǎn)單,那么整個(gè)模型的訓(xùn)練和部署就會(huì)變得更加簡(jiǎn)單
  • 因此從實(shí)用性的角度來(lái)看,這樣做的效果可能會(huì)更好一些

所以其實(shí)就是顯式地優(yōu)化了幫助性這一個(gè)目標(biāo),使用了相對(duì)來(lái)講比較復(fù)雜的 RL 算法也沒(méi)有成功地說(shuō)明使用它的必要性

從一個(gè)創(chuàng)業(yè)公司的角度來(lái)講,需要盡快地把產(chǎn)品做出來(lái),效果做上去,其他的東西可能就沒(méi)有那么重要,但是同樣的做法,openAI 也許能做,但是別的公司不一定能做,在安全性上沒(méi)有做太多完善的情況下,很有可能會(huì)引發(fā)公關(guān)危機(jī)





----end----

其它參考

1、https://openai.com/blog/chatgpt/

2、《Training language models?to follow instructions with human feedback》https://arxiv.org/abs/2203.02155

3、統(tǒng)計(jì)學(xué)中的信噪比怎么理解,https://www.zhihu.com/question/37522785

InstructGPT 論文精讀【論文精讀】的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
中阳县| 定州市| 泾源县| 桐乡市| 厦门市| 星子县| 宁乡县| 江山市| 通化县| 黄骅市| 五家渠市| 白玉县| 晋州市| 高青县| 深圳市| 涞水县| 贵溪市| 保康县| 社会| 额尔古纳市| 顺义区| 卓尼县| 双鸭山市| 武胜县| 郯城县| 贵州省| 广平县| 江安县| 平舆县| 凌海市| 珲春市| 嵊泗县| 郸城县| 和田县| 贵阳市| 元谋县| 神池县| 大理市| 安图县| 延津县| 辽阳县|