散文網(wǎng) » 科技 »學(xué)習(xí) » 實戰(zhàn)｜如何低成本訓(xùn)練一個可以超越 70B Llama2 的模型 Zephyr-7B

實戰(zhàn)｜如何低成本訓(xùn)練一個可以超越 70B Llama2 的模型 Zephyr-7B

2023-10-28 01:32 作者:HuggingFace 0人讀過 | 我要投稿

每一周，我們的同事都會向社區(qū)的成員們發(fā)布一些關(guān)于 Hugging Face 相關(guān)的更新，包括我們的產(chǎn)品和平臺更新、社區(qū)活動、學(xué)習(xí)資源和內(nèi)容更新、開源庫和模型更新等，我們將其稱之為「Hugging News」?？靵砜纯从心男┙诟掳桑???

新的訓(xùn)練方法 Zephyr-7B 模型超越 70B Llama2

跟大家介紹一個比較簡單的方法訓(xùn)練出的一個 7B 的模型，它在 MT Bench 測試中的表現(xiàn)甚至超過了 Llama2 70B 模型。

馬上就試試看？https://huggingfaceh4-zephyr-chat.hf.space/

=== 方法揭秘 ?? ===

首先，使用 UltraChat 數(shù)據(jù)集對 SFT Mistral 7B 模型進(jìn)行訓(xùn)練。然后，使用"直接偏好優(yōu)化" (DPO) 方法，將 SFT 模型調(diào)整到 UltraFeedback 數(shù)據(jù)集上。

=== 細(xì)節(jié)揭秘 ?? ===

對于 SFT 訓(xùn)練，我們使用了 UltraChat 數(shù)據(jù)集，它包含了約 1.6M個由 GPT3.5 生成的對話。我們最初是在所有數(shù)據(jù)上進(jìn)行訓(xùn)練的，但后來發(fā)現(xiàn)訓(xùn)練出來的模型性格有點讓人討厭??。因此，我們篩選出了大約 200K 個更注重有益幫助的例子進(jìn)行訓(xùn)練：https://hf.co.co/datasets/stingning/ultrachat

接下來，我們使用了來自 Stanford 研究者們的超棒 DPO 算法進(jìn)行了另一輪微調(diào)。我們發(fā)現(xiàn)， DPO 比 PPO 穩(wěn)定得多——強烈推薦去看他們的論文，了解更多信息！https://hf.co/papers/2305.18290

在使用 DPO 的過程中，我們選用了 UltraFeedback 數(shù)據(jù)集，它包含了 64K 個提示和完整的回答，涵蓋了各種開放和封閉訪問模型的范圍。每個回答都由 GPT-4 根據(jù)有益性等標(biāo)準(zhǔn)進(jìn)行了評分，以此來推導(dǎo) AI 的偏好：https://hf.co/datasets/openbmb/UltraFeedback

在訓(xùn)練方面，我們在所有實驗中都使用了 ?? TRL 和 DeepSpeed ZeRO-3：

SFTTrainer https://hf.co/docs/trl/sft_trainer
DPOTrainer: https://hf.co/docs/trl/dpo_trainer

總計算成本：$500 或在16 x A100 上運行 8 小時

為了評估，我們使用了 LMSYS 提供的優(yōu)秀工具 MT Bench。這個多輪的基準(zhǔn)測試可以評估聊天機器人在創(chuàng)意寫作、編碼和數(shù)學(xué)等各個領(lǐng)域的能力。相比其他排行榜，它能提供更準(zhǔn)確的關(guān)于聊天機器人性能的信息：https://hf.co/spaces/lmsys/mt-bench

這個教程其實是我們在 Hugging Face 工作的一部分，是 “Alignment Handbook” 手冊的預(yù)告，我們在這本手冊中分享了關(guān)于 SFT、DPO、PPO 等多種訓(xùn)練方法的穩(wěn)健訓(xùn)練方法。我們計劃不久后發(fā)布初版，你可以在這里跟蹤項目的進(jìn)度??：https://github.com/huggingface/alignment-handbook

Hugging Face Hub 0.18.0 現(xiàn)已發(fā)布

0.17.0 發(fā)布的內(nèi)容已經(jīng)很多了，現(xiàn)在，0.18.0 也發(fā)布啦！0.18.0 加入了對網(wǎng)站上 Collection 的 API 支持，文檔也有了社區(qū)支持的韓語和德語的翻譯。更多詳細(xì)內(nèi)容，請查看此次 release note https://github.com/huggingface/huggingface_hub/releases/tag/v0.18.0

Hugging Face Hub｜Follow 功能上線 ??

Hub 剛剛更新了 Follow - 互相關(guān)注功能，可以隨時關(guān)注你喜歡的 / 仰慕的 / 想一起合作的 / 社群小伙伴啦 ??（社群小伙伴 = 業(yè)界大牛??）

來試試 ?? ?然后告訴我們你的使用感受和建議吧 ?

以上就是本周的 Hugging News，周末愉快！

標(biāo)簽：