散文網(wǎng) » 科技 »學習 » TRL 正式推出，來訓練你的首個 RLHF 模型吧！

TRL 正式推出，來訓練你的首個 RLHF 模型吧！

2023-08-10 23:35 作者:HuggingFace 0人讀過 | 我要投稿

正式向大家介紹 TRL——Transformer Reinforcement Learning。這是一個超全面的全棧庫，包含了一整套工具用于使用強化學習 (Reinforcement Learning) 訓練 transformer 語言模型。從監(jiān)督調(diào)優(yōu) (Supervised Fine-tuning step, SFT)，到訓練獎勵模型 (Reward Modeling)，再到近端策略優(yōu)化 (Proximal Policy Optimization)，實現(xiàn)了全面覆蓋！并且 TRL 庫已經(jīng)與 ?? transformers 集成，方便你直接使用！

?? 文檔地址在這里 https://hf.co/docs/trl/

小編帶大家簡單看看 API 文檔里各個部分對應(yīng)了什么需求:

Model Class: 涵蓋了每個公開模型各自用途的概述
SFTTrainer: 幫助你使用 SFTTrainer 實現(xiàn)模型監(jiān)督調(diào)優(yōu)
RewardTrainer: 幫助你使用 RewardTrainer 訓練獎勵模型
PPOTrainer: 使用 PPO 算法進一步對經(jīng)過監(jiān)督調(diào)優(yōu)的模型再調(diào)優(yōu)
Best-of-N Samppling: 將“拔萃法”作為從模型的預測中采樣的替代方法
DPOTrainer: 幫助你使用 DPOTrainer 完成直接偏好優(yōu)化

文檔中還給出了幾個例子供 ?? 寶子們參考:

Sentiment Tuning: 調(diào)優(yōu)模型以生成更積極的電影內(nèi)容
Training with PEFT: 執(zhí)行由 PEFT 適配器優(yōu)化內(nèi)存效率的 RLHF 訓練
Detoxifying LLMs: 通過 RLHF 為模型解毒，使其更符合人類的價值觀
StackLlama: 在 Stack exchange 數(shù)據(jù)集上實現(xiàn)端到端 RLHF 訓練一個 Llama 模型
Multi-Adapter Training: 使用單一模型和多適配器實現(xiàn)優(yōu)化內(nèi)存效率的端到端訓練

?? 寶子們快行動起來，訓練你的第一個 RLHF 模型吧！https://github.com/huggingface/trl

標簽：TRL RLHF

TRL 正式推出，來訓練你的首個 RLHF 模型吧！的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

TRL 正式推出，來訓練你的首個 RLHF 模型吧！

TRL 正式推出，來訓練你的首個 RLHF 模型吧！的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

TRL 正式推出，來訓練你的首個 RLHF 模型吧！

本文作者的其他文章

TRL 正式推出，來訓練你的首個 RLHF 模型吧！的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

TRL 正式推出，來訓練你的首個 RLHF 模型吧！

TRL 正式推出，來訓練你的首個 RLHF 模型吧！的評論 (共條)