最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

TRL 正式推出,來訓練你的首個 RLHF 模型吧!

2023-08-10 23:35 作者:HuggingFace  | 我要投稿


正式向大家介紹 TRL——Transformer Reinforcement Learning。這是一個超全面的全棧庫,包含了一整套工具用于使用強化學習 (Reinforcement Learning) 訓練 transformer 語言模型。從監(jiān)督調(diào)優(yōu) (Supervised Fine-tuning step, SFT),到訓練獎勵模型 (Reward Modeling),再到近端策略優(yōu)化 (Proximal Policy Optimization),實現(xiàn)了全面覆蓋!并且 TRL 庫已經(jīng)與 ?? transformers 集成,方便你直接使用!

?? 文檔地址在這里 https://hf.co/docs/trl/

小編帶大家簡單看看 API 文檔里各個部分對應(yīng)了什么需求:

  • Model Class: 涵蓋了每個公開模型各自用途的概述

  • SFTTrainer: 幫助你使用 SFTTrainer 實現(xiàn)模型監(jiān)督調(diào)優(yōu)

  • RewardTrainer: 幫助你使用 RewardTrainer 訓練獎勵模型

  • PPOTrainer: 使用 PPO 算法進一步對經(jīng)過監(jiān)督調(diào)優(yōu)的模型再調(diào)優(yōu)

  • Best-of-N Samppling: 將“拔萃法”作為從模型的預測中采樣的替代方法

  • DPOTrainer: 幫助你使用 DPOTrainer 完成直接偏好優(yōu)化

文檔中還給出了幾個例子供 ?? 寶子們參考:

  • Sentiment Tuning: 調(diào)優(yōu)模型以生成更積極的電影內(nèi)容

  • Training with PEFT: 執(zhí)行由 PEFT 適配器優(yōu)化內(nèi)存效率的 RLHF 訓練

  • Detoxifying LLMs: 通過 RLHF 為模型解毒,使其更符合人類的價值觀

  • StackLlama: 在 Stack exchange 數(shù)據(jù)集上實現(xiàn)端到端 RLHF 訓練一個 Llama 模型

  • Multi-Adapter Training: 使用單一模型和多適配器實現(xiàn)優(yōu)化內(nèi)存效率的端到端訓練

?? 寶子們快行動起來,訓練你的第一個 RLHF 模型吧!https://github.com/huggingface/trl


TRL 正式推出,來訓練你的首個 RLHF 模型吧!的評論 (共 條)

分享到微博請遵守國家法律
老河口市| 沁源县| 松江区| 江源县| 定结县| 大余县| 柳州市| 莱阳市| 天水市| 外汇| 贵德县| 新闻| 星座| 宁城县| 溧水县| 三原县| 乾安县| 台前县| 威远县| 丰台区| 敖汉旗| 崇仁县| 桐柏县| 永兴县| 扶绥县| 甘洛县| 大邑县| 茂名市| 钟山县| 苍溪县| 江永县| 新邵县| 郸城县| 茌平县| 郴州市| 庆云县| 吴旗县| 巴中市| 浦城县| 天镇县| 绿春县|