散文網(wǎng) » 科技 »學(xué)習(xí) » ChatGPT 背后的“功臣”——RLHF 技術(shù)詳解

ChatGPT 背后的“功臣”——RLHF 技術(shù)詳解

2023-01-14 15:19 作者:HuggingFace 0人讀過 | 我要投稿

OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮，它面對多種多樣的問題對答如流，似乎已經(jīng)打破了機(jī)器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model，LLM) 生成領(lǐng)域的新訓(xùn)練范式：RLHF (Reinforcement Learning from Human Feedback) ，即以強(qiáng)化學(xué)習(xí)方式依據(jù)人類反饋優(yōu)化語言模型。

過去幾年里各種 LLM 根據(jù)人類輸入提示 (prompt) 生成多樣化文本的能力令人印象深刻。然而，對生成結(jié)果的評估是主觀和依賴上下文的，例如，我們希望模型生成一個(gè)有創(chuàng)意的故事、一段真實(shí)的信息性文本，或者是可執(zhí)行的代碼片段，這些結(jié)果難以用現(xiàn)有的基于規(guī)則的文本生成指標(biāo) (如 BLUE 和 ROUGE) 來衡量。除了評估指標(biāo)，現(xiàn)有的模型通常以預(yù)測下一個(gè)單詞的方式和簡單的損失函數(shù) (如交叉熵) 來建模，沒有顯式地引入人的偏好和主觀意見。

如果我們 用生成文本的人工反饋?zhàn)鳛樾阅芎饬繕?biāo)準(zhǔn)，或者更進(jìn)一步用該反饋?zhàn)鳛閾p失來優(yōu)化模型，那不是更好嗎？這就是 RLHF 的思想：使用強(qiáng)化學(xué)習(xí)的方式直接優(yōu)化帶有人類反饋的語言模型。RLHF 使得在一般文本數(shù)據(jù)語料庫上訓(xùn)練的語言模型能和復(fù)雜的人類價(jià)值觀對齊。

看看 ChatGPT 是如何解釋 RLHF 的：

ChatGPT 解釋的很好，但還沒有完全講透；讓我們更具體一點(diǎn)吧！

RLHF 技術(shù)分解

RLHF 是一項(xiàng)涉及多個(gè)模型和不同訓(xùn)練階段的復(fù)雜概念，這里我們按三個(gè)步驟分解：

預(yù)訓(xùn)練一個(gè)語言模型 (LM) ；
聚合問答數(shù)據(jù)并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型 (Reward Model，RM) ；
用強(qiáng)化學(xué)習(xí) (RL) 方式微調(diào) LM。

Step 1. 預(yù)訓(xùn)練語言模型

首先，我們使用經(jīng)典的預(yù)訓(xùn)練目標(biāo)訓(xùn)練一個(gè)語言模型。對這一步的模型，OpenAI 在其第一個(gè)流行的 RLHF 模型 InstructGPT 中使用了較小版本的 GPT-3; Anthropic 使用了 1000 萬～ 520 億參數(shù)的 Transformer 模型進(jìn)行訓(xùn)練；DeepMind 使用了自家的 2800 億參數(shù)模型 Gopher。

這里可以用額外的文本或者條件對這個(gè) LM 進(jìn)行微調(diào)，例如 OpenAI 對 “更可取” (preferable) 的人工生成文本進(jìn)行了微調(diào)，而 Anthropic 按 “有用、誠實(shí)和無害” 的標(biāo)準(zhǔn)在上下文線索上蒸餾了原始的 LM。這里或許使用了昂貴的增強(qiáng)數(shù)據(jù)，但并不是 RLHF 必須的一步。由于 RLHF 還是一個(gè)尚待探索的領(lǐng)域，對于” 哪種模型” 適合作為 RLHF 的起點(diǎn)并沒有明確的答案。

接下來，我們會基于 LM 來生成訓(xùn)練獎(jiǎng)勵(lì)模型 (RM，也叫偏好模型) 的數(shù)據(jù)，并在這一步引入人類的偏好信息。

Step 2. 訓(xùn)練獎(jiǎng)勵(lì)模型

RM 的訓(xùn)練是 RLHF 區(qū)別于舊范式的開端。這一模型接收一系列文本并返回一個(gè)標(biāo)量獎(jiǎng)勵(lì)，數(shù)值上對應(yīng)人的偏好。我們可以用端到端的方式用 LM 建模，或者用模塊化的系統(tǒng)建模 (比如對輸出進(jìn)行排名，再將排名轉(zhuǎn)換為獎(jiǎng)勵(lì)) 。這一獎(jiǎng)勵(lì)數(shù)值將對后續(xù)無縫接入現(xiàn)有的 RL 算法至關(guān)重要。

關(guān)于模型選擇方面，RM 可以是另一個(gè)經(jīng)過微調(diào)的 LM，也可以是根據(jù)偏好數(shù)據(jù)從頭開始訓(xùn)練的 LM。例如 Anthropic 提出了一種特殊的預(yù)訓(xùn)練方式，即用偏好模型預(yù)訓(xùn)練 (Preference Model Pretraining，PMP) 來替換一般預(yù)訓(xùn)練后的微調(diào)過程。因?yàn)榍罢弑徽J(rèn)為對樣本數(shù)據(jù)的利用率更高。但對于哪種 RM 更好尚無定論。

關(guān)于訓(xùn)練文本方面，RM 的提示 - 生成對文本是從預(yù)定義數(shù)據(jù)集中采樣生成的，并用初始的 LM 給這些提示生成文本。Anthropic 的數(shù)據(jù)主要是通過 Amazon Mechanical Turk 上的聊天工具生成的，并在 Hub 上可用 (https://huggingface.co/datasets/Anthropic/hh-rlhf)，而 OpenAI 使用了用戶提交給 GPT API 的 prompt。

關(guān)于訓(xùn)練獎(jiǎng)勵(lì)數(shù)值方面，這里需要人工對 LM 生成的回答進(jìn)行排名。起初我們可能會認(rèn)為應(yīng)該直接對文本標(biāo)注分?jǐn)?shù)來訓(xùn)練 RM，但是由于標(biāo)注者的價(jià)值觀不同導(dǎo)致這些分?jǐn)?shù)未經(jīng)過校準(zhǔn)并且充滿噪音。通過排名可以比較多個(gè)模型的輸出并構(gòu)建更好的規(guī)范數(shù)據(jù)集。

對具體的排名方式，一種成功的方式是對不同 LM 在相同提示下的輸出進(jìn)行比較，然后使用 Elo 系統(tǒng)建立一個(gè)完整的排名。這些不同的排名結(jié)果將被歸一化為用于訓(xùn)練的標(biāo)量獎(jiǎng)勵(lì)值。

這個(gè)過程中一個(gè)有趣的產(chǎn)物是目前成功的 RLHF 系統(tǒng)使用了和生成模型具有不同大小的 LM (例如 OpenAI 使用了 175B 的 LM 和 6B 的 RM，Anthropic 使用的 LM 和 RM 從 10B 到 52B 大小不等，DeepMind 使用了 70B 的 Chinchilla 模型分別作為 LM 和 RM) 。一種直覺是，偏好模型和生成模型需要具有類似的能力來理解提供給它們的文本。

接下來是最后一步：利用 RM 輸出的獎(jiǎng)勵(lì)，用強(qiáng)化學(xué)習(xí)方式微調(diào)優(yōu)化 LM。

Step 3. 用強(qiáng)化學(xué)習(xí)微調(diào)

長期以來出于工程和算法原因，人們認(rèn)為用強(qiáng)化學(xué)習(xí)訓(xùn)練 LM 是不可能的。而目前多個(gè)組織找到的可行方案是使用策略梯度強(qiáng)化學(xué)習(xí) (Policy Gradient RL) 算法、近端策略優(yōu)化 (Proximal Policy Optimization，PPO) 微調(diào)初始 LM 的部分或全部參數(shù)。因?yàn)槲⒄{(diào)整個(gè) 10B～100B+ 參數(shù)的成本過高 (相關(guān)工作參考低秩適應(yīng) LoRA 和 DeepMind 的 Sparrow LM) 。PPO 算法已經(jīng)存在了相對較長的時(shí)間，有大量關(guān)于其原理的指南，因而成為 RLHF 中的有利選擇。

事實(shí)證明，RLHF 的許多核心 RL 進(jìn)步一直在弄清楚如何將熟悉的 RL 算法應(yīng)用到更新如此大的模型。

讓我們首先將微調(diào)任務(wù)表述為 RL 問題。首先，該策略 (policy) 是一個(gè)接受提示并返回一系列文本 (或文本的概率分布) 的 LM。這個(gè)策略的行動空間 (action space) 是 LM 的詞表對應(yīng)的所有詞元 (一般在 50k 數(shù)量級) ，觀察空間 (observation space) 是可能的輸入詞元序列，也比較大 (詞匯量 ^ 輸入標(biāo)記的數(shù)量) 。獎(jiǎng)勵(lì)函數(shù)是偏好模型和策略轉(zhuǎn)變約束 (Policy shift constraint) 的結(jié)合。

PPO 算法確定的獎(jiǎng)勵(lì)函數(shù)具體計(jì)算如下：將提示輸入初始 LM 和當(dāng)前微調(diào)的 LM，分別得到了輸出文本，將來自當(dāng)前策略的文本傳遞給 RM 得到一個(gè)標(biāo)量的獎(jiǎng)勵(lì) 。將兩個(gè)模型的生成文本進(jìn)行比較計(jì)算差異的懲罰項(xiàng)，在來自 OpenAI、Anthropic 和 DeepMind 的多篇論文中設(shè)計(jì)為輸出詞分布序列之間的 Kullback–Leibler (KL) 散度的縮放，即。這一項(xiàng)被用于懲罰 RL 策略在每個(gè)訓(xùn)練批次中生成大幅偏離初始模型，以確保模型輸出合理連貫的文本。如果去掉這一懲罰項(xiàng)可能導(dǎo)致模型在優(yōu)化中生成亂碼文本來愚弄獎(jiǎng)勵(lì)模型提供高獎(jiǎng)勵(lì)值。此外，OpenAI 在 InstructGPT 上實(shí)驗(yàn)了在 PPO 添加新的預(yù)訓(xùn)練梯度，可以預(yù)見到獎(jiǎng)勵(lì)函數(shù)的公式會隨著 RLHF 研究的進(jìn)展而繼續(xù)進(jìn)化。

最后根據(jù) PPO 算法，我們按當(dāng)前批次數(shù)據(jù)的獎(jiǎng)勵(lì)指標(biāo)進(jìn)行優(yōu)化 (來自 PPO 算法 on-policy 的特性) 。PPO 算法是一種信賴域優(yōu)化 (Trust Region Optimization，TRO) 算法，它使用梯度約束確保更新步驟不會破壞學(xué)習(xí)過程的穩(wěn)定性。DeepMind 對 Gopher 使用了類似的獎(jiǎng)勵(lì)設(shè)置，但是使用 A2C (synchronous advantage actor-critic) 算法來優(yōu)化梯度。

作為一個(gè)可選項(xiàng)，RLHF 可以通過迭代 RM 和策略共同優(yōu)化。隨著策略模型更新，用戶可以繼續(xù)將輸出和早期的輸出進(jìn)行合并排名。Anthropic 在他們的論文中討論了迭代在線 RLHF，其中策略的迭代包含在跨模型的 Elo 排名系統(tǒng)中。這樣引入策略和 RM 演變的復(fù)雜動態(tài)，代表了一個(gè)復(fù)雜和開放的研究問題。

RLHF 的未來

盡管 RLHF 取得了一定的成果和關(guān)注，但依然存在局限。這些模型依然會毫無不確定性地輸出有害或者不真實(shí)的文本。這種不完美也是 RLHF 的長期挑戰(zhàn)和動力 —— 在人類的固有領(lǐng)域中運(yùn)行意味著永遠(yuǎn)不會到達(dá)一個(gè)完美的標(biāo)準(zhǔn)。

收集人類偏好數(shù)據(jù)的質(zhì)量和數(shù)量決定了 RLHF 系統(tǒng)性能的上限。RLHF 系統(tǒng)需要兩種人類偏好數(shù)據(jù)：人工生成的文本和對模型輸出的偏好標(biāo)簽。生成高質(zhì)量回答需要雇傭兼職人員 (而不能依賴產(chǎn)品用戶和眾包) 。另一方面，訓(xùn)練 RM 需要的獎(jiǎng)勵(lì)標(biāo)簽規(guī)模大概是 50k 左右，所以并不那么昂貴 (當(dāng)然遠(yuǎn)超了學(xué)術(shù)實(shí)驗(yàn)室的預(yù)算) 。目前相關(guān)的數(shù)據(jù)集只有一個(gè)基于通用 LM 的 RLHF 數(shù)據(jù)集 (來自 Anthropic) 和幾個(gè)較小的子任務(wù)數(shù)據(jù)集 (如來自 OpenAI 的摘要數(shù)據(jù)集) 。另一個(gè)挑戰(zhàn)來自標(biāo)注者的偏見。幾個(gè)人類標(biāo)注者可能有不同意見，導(dǎo)致了訓(xùn)練數(shù)據(jù)存在一些潛在差異。

除開數(shù)據(jù)方面的限制，一些有待開發(fā)的設(shè)計(jì)選項(xiàng)可以讓 RLHF 取得長足進(jìn)步。例如對 RL 優(yōu)化器的改進(jìn)方面，PPO 是一種較舊的算法，但目前沒有什么結(jié)構(gòu)性原因讓其他算法可以在現(xiàn)有 RLHF 工作中更具有優(yōu)勢。另外，微調(diào) LM 策略的一大成本是策略生成的文本都需要在 RM 上進(jìn)行評估，通過離線 RL 優(yōu)化策略可以節(jié)約這些大模型 RM 的預(yù)測成本。最近，出現(xiàn)了新的 RL 算法如隱式語言 Q 學(xué)習(xí) (Implicit Language Q-Learning，ILQL) 也適用于當(dāng)前 RL 的優(yōu)化。在 RL 訓(xùn)練過程的其他核心權(quán)衡，例如探索和開發(fā) (exploration-exploitation) 的平衡也有待嘗試和記錄。探索這些方向至少能加深我們對 RLHF 的理解，更進(jìn)一步提升系統(tǒng)的表現(xiàn)。

參考資料

首先介紹一些相關(guān)的開源工作：

關(guān)于 RLHF 的第一個(gè)項(xiàng)目，來自 OpenAI:
https://github.com/openai/lm-human-preferencesy

一些 PyTorch 的 repo：

https://github.com/lvwerra/trl
https://github.com/CarperAI/trlx
https://github.com/allenai/RL4LMs

此外，Huggingface Hub 上有一個(gè)由 Anthropic 創(chuàng)建的大型數(shù)據(jù)集:
https://huggingface.co/datasets/Anthropic/hh-rlhf

相關(guān)論文包括在現(xiàn)有 LM 前的 RLHF 進(jìn)展和基于當(dāng)前 LM 的 RLHF 工作：

TAMER: Training an Agent Manually via Evaluative Reinforcement?(Knox and Stone 2008)
Interactive Learning from Policy-Dependent Human Feedback?(MacGlashan et al. 2017)
Deep Reinforcement Learning from Human Preferences?(Christiano et al. 2017)
Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces?(Warnell et al. 2018)
Fine-Tuning Language Models from Human Preferences?(Zieglar et al. 2019)
Learning to summarize with human feedback?(Stiennon et al., 2020)
Recursively Summarizing Books with Human Feedback?(OpenAI Alignment Team 2021)
WebGPT: Browser-assisted question-answering with human feedback?(OpenAI, 2021)
InstructGPT:?Training language models to follow instructions with human feedback?(OpenAI Alignment Team 2022)
GopherCite:?Teaching language models to support answers with verified quotes?(Menick et al. 2022)
Sparrow:?Improving alignment of dialogue agents via targeted human judgements?(Glaese et al. 2022)
ChatGPT: Optimizing Language Models for Dialogue?(OpenAI 2022)
Scaling Laws for Reward Model Overoptimization?(Gao et al. 2022)
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback?(Anthropic, 2022)
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned?(Ganguli et al. 2022)
Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning?(Cohen at al. 2022)
Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization?(Ramamurthy and Ammanabrolu et al. 2022)

本文翻譯自 Hugging Face 官方博客 (https://huggingface.co/blog/rlhf)
參考資料部分鏈接請點(diǎn)擊閱讀原文到博客上查看。你也可以查看我們的直播活動回放了解更多: RLHF: From Zero to ChatGPT

本文譯者:

李濼秋，浙江大學(xué)計(jì)算機(jī)科學(xué)碩士，主要研究 NLP 領(lǐng)域。

我們正在招募更多翻譯志愿者幫助我們擴(kuò)充官方公眾號內(nèi)容，如果你感興趣，歡迎點(diǎn)擊: https://bit.ly/hfnew?填寫志愿者招募表單。謝謝！

標(biāo)簽：

ChatGPT 背后的“功臣”——RLHF 技術(shù)詳解的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

ChatGPT 背后的“功臣”——RLHF 技術(shù)詳解