A100 買不到了，只有小顯卡怎么訓(xùn)大模型

2023-02-06 10:42 作者:曠視天元MegEngine 0人讀過 | 我要投稿

為了達(dá)到更好的訓(xùn)練效果，通常煉丹師們會使用更大的模型和更大的 Batch size，但因此帶來的大顯存占用，卻成為不可避免的硬傷。

尤其是如今 GPU 越來越貴，甚至還可能買不到......

MegEngine v1.5 及以上版本，支持動態(tài)圖和靜態(tài)圖的顯存優(yōu)化，顯存占用可降至 1/4。

先上對比效果

背后的邏輯很簡單：計算換顯存 - MegEngine 使用重計算策略，實現(xiàn)了用時間換空間。

使用方法

動態(tài)圖下開啟：

在訓(xùn)練代碼之前只需添加一行代碼：

靜態(tài)圖下開啟：

在編譯靜態(tài)圖時使用?DTRConfig?設(shè)置?trace?的參數(shù)?dtr_config：

更多使用技巧，見官方文檔??https://www.megengine.org.cn/doc/stable/zh/user-guide/model-development/dtr/

延展閱讀：

https://zhuanlan.zhihu.com/p/375642263

https://www.bilibili.com/video/BV1Bg411c7cf?spm_id_from=333.999.0.0

To 新朋友的特別提示：

DTR 作為 MegEngine 原生特性，無法脫離 MegEngie 獨立使用。

好在 MegEngine?頂層 API 基于 Python，采取了類似于?PyTorch?的風(fēng)格，已被眾多用戶反饋易上手，入門簡單。

還有豐富的用戶指南文檔：

https://www.megengine.org.cn/doc/stable/zh/user-guide/index.html

所以，不用顧慮太多，可以勇敢嘗試哦~

開源地址：?https://github.com/MegEngine/MegEngine? ?（歡迎 star~? :D

標(biāo)簽：