第三篇關(guān)于Lora模型的煉制參數(shù)
第三篇 Lora煉制
一.說明
????本文以朱尼醬賽博丹爐為例,文章只做參考幫助大家更快上手,以及理解含義。
二.概念解析以及推薦設(shè)置
? 1.素材準(zhǔn)備
?????先帶大家理解一些擬合問題造成因素:
????欠擬合:復(fù)雜度過低;特征量過少;
????過擬合:樣本數(shù)量少;選樣方法錯(cuò)誤;樣本標(biāo)簽錯(cuò)誤;噪音干擾過大;參數(shù)太多;模型復(fù)雜度過高,表現(xiàn)為泛化能力下降。
????所以推薦圖片選擇數(shù)量上多優(yōu)于少;清晰度要高,表現(xiàn)為細(xì)節(jié)清晰;選擇圖片人物或畫風(fēng)要準(zhǔn)確,表現(xiàn)為訓(xùn)練某一個(gè)人物特征時(shí)勿選擇其他人物,圖片寬高為64倍數(shù)。

2.模型選擇
????訓(xùn)練Lora時(shí),選擇畫風(fēng)相近的大模型效果會(huì)更接近素材圖片。

3.觸發(fā)詞
????觸發(fā)詞需要寫一個(gè)目前不存在的單詞否則會(huì)影響訓(xùn)練結(jié)果。

4.步數(shù)設(shè)置
????Repeat(學(xué)習(xí)步數(shù)):每張圖片一輪學(xué)習(xí)多少次。
????Epoch(循環(huán)步數(shù)):所有圖片學(xué)習(xí)完后進(jìn)入第二輪循環(huán),這個(gè)數(shù)值表示進(jìn)行多少輪循環(huán)。

5.效率設(shè)置
????Batch size(并行數(shù)量):可理解為數(shù)值越高訓(xùn)練速度越快,指在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),每個(gè)訓(xùn)練迭代中用于更新模型參數(shù)的樣本數(shù)量。(數(shù)字越大需要更大的學(xué)習(xí)步數(shù)或循環(huán)步數(shù)或?qū)W習(xí)率,視擬合情況增加或減少,沒有固定數(shù)值。
????Optimizer(優(yōu)化器):這里推薦AdamW, AdamW8bit, Lion。其中AdamW8bit表示使用8-bit的AdamW優(yōu)化器,顯存小可用這個(gè);Lion和AdamW對(duì)比,Lion具有內(nèi)存占用低、運(yùn)行速度快的特點(diǎn),但小batch size下(小于64)Lion效果不如AdamW。(其他優(yōu)化器可自行研究)
????Save everyN epochs(每N輪保存一個(gè)模型):搭配Epoch使用;不建議開太大,一次訓(xùn)練10個(gè)模型已經(jīng)夠多了,比如epoch10這個(gè)填1,epoch20這個(gè)填2。
????lr Scheduler(調(diào)度器):cosine是以余弦函數(shù)的方式進(jìn)行周期性變換;cosine_with_restarts是基于cosine函數(shù)的硬重啟動(dòng)態(tài)學(xué)習(xí)率調(diào)整方法,推薦使用cosine_with_restarts。

6.質(zhì)量設(shè)置
????Learning rate(學(xué)習(xí)率):用于控制模型在每次參數(shù)更新時(shí)的步長大小。學(xué)習(xí)率決定了模型在梯度方向上更新參數(shù)的幅度。
????Unet Ir(圖片特征學(xué)習(xí)率):學(xué)習(xí)圖片特征,與Learning rate基本保持一致。
????Text Lr(文本相關(guān)的學(xué)習(xí)率):用于提示詞敏感度,一般設(shè)置為Unet Ir的1/2到1/10。
????Network Dim(網(wǎng)絡(luò)維度):學(xué)習(xí)圖片的精細(xì)度根據(jù)情況而定,
????????建議:二次元32-64或更高,真人64到128或更高,畫風(fēng)128或更高。
????Network Alpha(網(wǎng)絡(luò)Alpha):沒有固定說法一般比Network Dim低。