實戰(zhàn)|如何低成本訓(xùn)練一個可以超越 70B Llama2 的模型 Zephyr-7B

每一周,我們的同事都會向社區(qū)的成員們發(fā)布一些關(guān)于 Hugging Face 相關(guān)的更新,包括我們的產(chǎn)品和平臺更新、社區(qū)活動、學(xué)習(xí)資源和內(nèi)容更新、開源庫和模型更新等,我們將其稱之為「Hugging News」??靵砜纯从心男┙诟掳桑???
新的訓(xùn)練方法 Zephyr-7B 模型超越 70B Llama2

跟大家介紹一個比較簡單的方法訓(xùn)練出的一個 7B 的模型,它在 MT Bench 測試中的表現(xiàn)甚至超過了 Llama2 70B 模型。
馬上就試試看?https://huggingfaceh4-zephyr-chat.hf.space/
=== 方法揭秘 ?? ===
首先,使用 UltraChat 數(shù)據(jù)集對 SFT Mistral 7B 模型進(jìn)行訓(xùn)練。 然后,使用"直接偏好優(yōu)化" (DPO) 方法,將 SFT 模型調(diào)整到 UltraFeedback 數(shù)據(jù)集上。
=== 細(xì)節(jié)揭秘 ?? ===
對于 SFT 訓(xùn)練,我們使用了 UltraChat 數(shù)據(jù)集,它包含了約 1.6M個 由 GPT3.5 生成的對話。我們最初是在所有數(shù)據(jù)上進(jìn)行訓(xùn)練的,但后來發(fā)現(xiàn)訓(xùn)練出來的模型性格有點讓人討厭??。因此,我們篩選出了大約 200K 個更注重有益幫助的例子進(jìn)行訓(xùn)練:https://hf.co.co/datasets/stingning/ultrachat
接下來,我們使用了來自 Stanford 研究者們的超棒 DPO 算法進(jìn)行了另一輪微調(diào)。我們發(fā)現(xiàn), DPO 比 PPO 穩(wěn)定得多——強烈推薦去看他們的論文,了解更多信息!https://hf.co/papers/2305.18290
在使用 DPO 的過程中,我們選用了 UltraFeedback 數(shù)據(jù)集,它包含了 64K 個提示和完整的回答,涵蓋了各種開放和封閉訪問模型的范圍。每個回答都由 GPT-4 根據(jù)有益性等標(biāo)準(zhǔn)進(jìn)行了評分,以此來推導(dǎo) AI 的偏好:https://hf.co/datasets/openbmb/UltraFeedback
在訓(xùn)練方面,我們在所有實驗中都使用了 ?? TRL 和 DeepSpeed ZeRO-3:
SFTTrainer https://hf.co/docs/trl/sft_trainer
DPOTrainer: https://hf.co/docs/trl/dpo_trainer
總計算成本:$500 或在16 x A100 上運行 8 小時
為了評估,我們使用了 LMSYS 提供的優(yōu)秀工具 MT Bench。這個多輪的基準(zhǔn)測試可以評估聊天機器人在創(chuàng)意寫作、編碼和數(shù)學(xué)等各個領(lǐng)域的能力。相比其他排行榜,它能提供更準(zhǔn)確的關(guān)于聊天機器人性能的信息:https://hf.co/spaces/lmsys/mt-bench
這個教程其實是我們在 Hugging Face 工作的一部分,是 “Alignment Handbook” 手冊的預(yù)告,我們在這本手冊中分享了關(guān)于 SFT、DPO、PPO 等多種訓(xùn)練方法的穩(wěn)健訓(xùn)練方法。我們計劃不久后發(fā)布初版,你可以在這里跟蹤項目的進(jìn)度??:https://github.com/huggingface/alignment-handbook
Hugging Face Hub 0.18.0 現(xiàn)已發(fā)布

0.17.0 發(fā)布的內(nèi)容已經(jīng)很多了,現(xiàn)在,0.18.0 也發(fā)布啦!0.18.0 加入了對網(wǎng)站上 Collection 的 API 支持,文檔也有了社區(qū)支持的韓語和德語的翻譯。更多詳細(xì)內(nèi)容,請查看此次 release note https://github.com/huggingface/huggingface_hub/releases/tag/v0.18.0
Hugging Face Hub|Follow 功能上線 ??

Hub 剛剛更新了 Follow - 互相關(guān)注功能,可以隨時關(guān)注你喜歡的 / 仰慕的 / 想一起合作的 / 社群小伙伴啦 ??(社群小伙伴 = 業(yè)界大牛??)
來試試 ?? ?然后告訴我們你的使用感受和建議吧 ?
以上就是本周的 Hugging News,周末愉快!
實戰(zhàn)|如何低成本訓(xùn)練一個可以超越 70B Llama2 的模型 Zephyr-7B的評論 (共 條)
