最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

實戰(zhàn)|如何低成本訓(xùn)練一個可以超越 70B Llama2 的模型 Zephyr-7B

2023-10-28 01:32 作者:HuggingFace  | 我要投稿

每一周,我們的同事都會向社區(qū)的成員們發(fā)布一些關(guān)于 Hugging Face 相關(guān)的更新,包括我們的產(chǎn)品和平臺更新、社區(qū)活動、學(xué)習(xí)資源和內(nèi)容更新、開源庫和模型更新等,我們將其稱之為「Hugging News」??靵砜纯从心男┙诟掳桑???

新的訓(xùn)練方法 Zephyr-7B 模型超越 70B Llama2

跟大家介紹一個比較簡單的方法訓(xùn)練出的一個 7B 的模型,它在 MT Bench 測試中的表現(xiàn)甚至超過了 Llama2 70B 模型。

馬上就試試看?https://huggingfaceh4-zephyr-chat.hf.space/

=== 方法揭秘 ?? ===

首先,使用 UltraChat 數(shù)據(jù)集對 SFT Mistral 7B 模型進(jìn)行訓(xùn)練。 然后,使用"直接偏好優(yōu)化" (DPO) 方法,將 SFT 模型調(diào)整到 UltraFeedback 數(shù)據(jù)集上。

=== 細(xì)節(jié)揭秘 ?? ===

對于 SFT 訓(xùn)練,我們使用了 UltraChat 數(shù)據(jù)集,它包含了約 1.6M個 由 GPT3.5 生成的對話。我們最初是在所有數(shù)據(jù)上進(jìn)行訓(xùn)練的,但后來發(fā)現(xiàn)訓(xùn)練出來的模型性格有點讓人討厭??。因此,我們篩選出了大約 200K 個更注重有益幫助的例子進(jìn)行訓(xùn)練:https://hf.co.co/datasets/stingning/ultrachat

接下來,我們使用了來自 Stanford 研究者們的超棒 DPO 算法進(jìn)行了另一輪微調(diào)。我們發(fā)現(xiàn), DPO 比 PPO 穩(wěn)定得多——強烈推薦去看他們的論文,了解更多信息!https://hf.co/papers/2305.18290

在使用 DPO 的過程中,我們選用了 UltraFeedback 數(shù)據(jù)集,它包含了 64K 個提示和完整的回答,涵蓋了各種開放和封閉訪問模型的范圍。每個回答都由 GPT-4 根據(jù)有益性等標(biāo)準(zhǔn)進(jìn)行了評分,以此來推導(dǎo) AI 的偏好:https://hf.co/datasets/openbmb/UltraFeedback

在訓(xùn)練方面,我們在所有實驗中都使用了 ?? TRL 和 DeepSpeed ZeRO-3:

  • SFTTrainer https://hf.co/docs/trl/sft_trainer

  • DPOTrainer: https://hf.co/docs/trl/dpo_trainer

總計算成本:$500 或在16 x A100 上運行 8 小時

為了評估,我們使用了 LMSYS 提供的優(yōu)秀工具 MT Bench。這個多輪的基準(zhǔn)測試可以評估聊天機器人在創(chuàng)意寫作、編碼和數(shù)學(xué)等各個領(lǐng)域的能力。相比其他排行榜,它能提供更準(zhǔn)確的關(guān)于聊天機器人性能的信息:https://hf.co/spaces/lmsys/mt-bench

這個教程其實是我們在 Hugging Face 工作的一部分,是 “Alignment Handbook” 手冊的預(yù)告,我們在這本手冊中分享了關(guān)于 SFT、DPO、PPO 等多種訓(xùn)練方法的穩(wěn)健訓(xùn)練方法。我們計劃不久后發(fā)布初版,你可以在這里跟蹤項目的進(jìn)度??:https://github.com/huggingface/alignment-handbook

Hugging Face Hub 0.18.0 現(xiàn)已發(fā)布

0.17.0 發(fā)布的內(nèi)容已經(jīng)很多了,現(xiàn)在,0.18.0 也發(fā)布啦!0.18.0 加入了對網(wǎng)站上 Collection 的 API 支持,文檔也有了社區(qū)支持的韓語和德語的翻譯。更多詳細(xì)內(nèi)容,請查看此次 release note https://github.com/huggingface/huggingface_hub/releases/tag/v0.18.0

Hugging Face Hub|Follow 功能上線 ??

Hub 剛剛更新了 Follow - 互相關(guān)注功能,可以隨時關(guān)注你喜歡的 / 仰慕的 / 想一起合作的 / 社群小伙伴啦 ??(社群小伙伴 = 業(yè)界大牛??)

來試試 ?? ?然后告訴我們你的使用感受和建議吧 ?

以上就是本周的 Hugging News,周末愉快!

實戰(zhàn)|如何低成本訓(xùn)練一個可以超越 70B Llama2 的模型 Zephyr-7B的評論 (共 條)

使用qq登录你需要登录后才可以评论。
济南市| 宜都市| 赤峰市| 寿光市| 宣威市| 武乡县| 大渡口区| 叶城县| 双辽市| 广德县| 新邵县| 牟定县| 那曲县| 武鸣县| 青神县| 揭西县| 中牟县| 瓦房店市| 蓬溪县| 天门市| 茌平县| 武平县| 北票市| 南岸区| 莒南县| 双辽市| 崇州市| 潍坊市| 华宁县| 安丘市| 通海县| 慈利县| 开原市| 黔西| 醴陵市| 富锦市| 福州市| 托里县| 孟州市| 昔阳县| 师宗县|