TRL 正式推出,來訓練你的首個 RLHF 模型吧!

正式向大家介紹 TRL——Transformer Reinforcement Learning。這是一個超全面的全棧庫,包含了一整套工具用于使用強化學習 (Reinforcement Learning) 訓練 transformer 語言模型。從監(jiān)督調(diào)優(yōu) (Supervised Fine-tuning step, SFT),到訓練獎勵模型 (Reward Modeling),再到近端策略優(yōu)化 (Proximal Policy Optimization),實現(xiàn)了全面覆蓋!并且 TRL 庫已經(jīng)與 ?? transformers 集成,方便你直接使用!

?? 文檔地址在這里 https://hf.co/docs/trl/
小編帶大家簡單看看 API 文檔里各個部分對應(yīng)了什么需求:
Model Class: 涵蓋了每個公開模型各自用途的概述
SFTTrainer: 幫助你使用 SFTTrainer 實現(xiàn)模型監(jiān)督調(diào)優(yōu)
RewardTrainer: 幫助你使用 RewardTrainer 訓練獎勵模型
PPOTrainer: 使用 PPO 算法進一步對經(jīng)過監(jiān)督調(diào)優(yōu)的模型再調(diào)優(yōu)
Best-of-N Samppling: 將“拔萃法”作為從模型的預測中采樣的替代方法
DPOTrainer: 幫助你使用 DPOTrainer 完成直接偏好優(yōu)化
文檔中還給出了幾個例子供 ?? 寶子們參考:
Sentiment Tuning: 調(diào)優(yōu)模型以生成更積極的電影內(nèi)容
Training with PEFT: 執(zhí)行由 PEFT 適配器優(yōu)化內(nèi)存效率的 RLHF 訓練
Detoxifying LLMs: 通過 RLHF 為模型解毒,使其更符合人類的價值觀
StackLlama: 在 Stack exchange 數(shù)據(jù)集上實現(xiàn)端到端 RLHF 訓練一個 Llama 模型
Multi-Adapter Training: 使用單一模型和多適配器實現(xiàn)優(yōu)化內(nèi)存效率的端到端訓練
?? 寶子們快行動起來,訓練你的第一個 RLHF 模型吧!https://github.com/huggingface/trl