從零開始的ChatGLM教程(四)
寫在前面
本文中所有的內容僅供參考,本人并不對任何產生的后續(xù)問題負任何責任。近期的事情特別的多啊,以至于這一篇文章幾乎咕咕了一個星期才寫好。(但我是不會反省的)
特別鳴謝:
huang1332?https://github.com/huang1332/finetune_dataset_maker
mymusise?https://github.com/mymusise/ChatGLM-Tuning
感謝大佬們的開源精神,為社區(qū)做出的巨大貢獻。本章節(jié)的內容將會基于這三位大佬的包進行說明。

基于Lora的微調模型訓練
經過了前面的幾篇文章我相信此時你已經成功在自己的機器上部署并運行了ChatGLM,并且在經過使用后希望能夠對它進行微調,因此在這篇文章中讓我們談談應該如何Lora進行本地訓練。
為了省事,我在這里以零炻制作的一鍵包為例說明,這個一鍵包可以傻瓜式部署,不需要提前配置環(huán)境,方便新手小白快速進行數(shù)據(jù)集的制作以及訓練。
這個包的下載地址在大佬視頻的詳情中,鏈接在下方:
https://www.bilibili.com/video/BV1P24y1L7Ge/?spm_id_from=333.788.top_right_bar_window_custom_collection.content.click&vd_source=5750eed90125c50ecbbb12a07db3cca7
首先,你需要查看包中的questions.txt文件,在其中填寫你所需要訓練的問答問題。然后運行一鍵包中的“00打開數(shù)據(jù)集制作系統(tǒng)”.bat。腳本會顯示一個本地IP,將它在瀏覽器中打開,就可以看到用于數(shù)據(jù)集處理的UI界面。在其中你可以通過填寫ChatGPT的Key讓它進行自動生成回答,也可以手動填寫問題的答案。在所有的答案填寫并保存后點擊界面中的“導出載入的已保存回答為.json”按鈕。至此,最麻煩的步驟就已經結束了。
在成功導出為.json文件后只需要依次運行“01轉換數(shù)據(jù)集”.bat,“02標記化數(shù)據(jù)集”.bat,"03開始訓練".bat就可以傻瓜式全自動地進行數(shù)據(jù)集的轉換,標記化,以及訓練了。
最終生成的模型會保存在output文件夾中,為一個.json文件和一個.bin文件。這兩個文件就是我們的期望產物。使用作者預設的話必須要跑完400步才會出現(xiàn)這兩個文件,如果是自己設定的訓練步數(shù),那么也是必須訓練到你設定的步數(shù)才會出現(xiàn)。
至此,簡單的一鍵式訓練就已經完成,你可以運行“04打開web_demo”.bat文件查看自己訓練的成果了。
在下一篇的文章中,我會講解如何將ChatGLM接入Wenda并實現(xiàn)聯(lián)網(wǎng)搜索回答或根據(jù)私人數(shù)據(jù)庫進行回答的內容。

本文中如有錯誤或疏漏,歡迎私信我或在下方評論區(qū)留言,我會修正或補充