Lora畫風(fēng)訓(xùn)練,從入門到入橘子(
Hello,大家好。這里是娛樂Eisthol
很多人一直在催我出畫風(fēng)的教程啊
正巧現(xiàn)在對于畫風(fēng)訓(xùn)練這一塊兒沒有那么敏感了,那我就稍微講一下吧。
觀前提示,大家悄悄的學(xué),學(xué)會了不要去跳臉畫師就行(
一,基礎(chǔ)篇(quick lora)
其實(shí)想要去復(fù)刻某種風(fēng)格的畫風(fēng),是非常簡單的一件事
我們只需要去打全標(biāo),然后使用默認(rèn)參數(shù)去訓(xùn)練就行了,實(shí)際上大部分畫風(fēng)lora都是這么訓(xùn)練過來的。
舉個例子就是lion的學(xué)習(xí)率一般為3e-5,adam8bit的學(xué)習(xí)率一般為1e-4
文本學(xué)習(xí)率一般為圖像學(xué)習(xí)率的十分之一
Dim一般設(shè)置為128,alpha一般設(shè)置64
現(xiàn)在進(jìn)入解釋環(huán)節(jié)
首先是為什么要打全標(biāo),
一直有一種說法,就是有人在教訓(xùn)練畫風(fēng)的時(shí)候不達(dá)標(biāo)直接扔進(jìn)去
實(shí)際上這種做法是相當(dāng)錯誤的,
雖然用這樣方法訓(xùn)練出來的lora確實(shí)在某種程度上能夠?qū)W會這種畫風(fēng)的筆觸
但是圖像中的元素全都會失去語義指導(dǎo),這也就導(dǎo)致了兩個問題
第一個問題就是訓(xùn)練出來的模型會不聽話,甚至過擬合
第二個問題就是隨著prompt的增多,會有越來越多的底模中的素材代替lora學(xué)會的圖像
從而使效果降低
所以還是建議大家打全標(biāo),效果會好的多。
然后這個學(xué)習(xí)率問題,你問我為什么建議這個學(xué)習(xí)率,我只能說這是親身實(shí)驗(yàn)(
為了做這個教程,娛樂親身實(shí)驗(yàn)過好多的學(xué)習(xí)率,
那兩天是真的怎么練怎么炸啊,險(xiǎn)些搞到道心破碎
所以大家一定要用手中的三連狠狠的安慰一下up
最后確定了還是默認(rèn)參數(shù)的學(xué)習(xí)率最合適(不然你猜猜為什么這是默認(rèn)參數(shù))
然后就是dim,這個dim維度主要影響兩個東西,一個是lora模型的大小,另一個就是lora能學(xué)到的東西,而且當(dāng)dim大于128之后對學(xué)習(xí)效果的提升就不明顯了
我們訓(xùn)練畫風(fēng)肯定是希望什么都能學(xué)會的
所以這里的dim一般設(shè)置成128
二,進(jìn)階篇
其實(shí)用我們上面說的方法去訓(xùn)練畫風(fēng),或者說復(fù)刻某種畫風(fēng),效果就非常不錯了
但如果我們想更精進(jìn)一步,就需要在打標(biāo)上面下手了
也就是說,我們需要對tagger打好的標(biāo)簽進(jìn)行一定的修改,來提升效果
這里有兩個方向
第一個,就是人工對打錯的標(biāo)簽進(jìn)行修改或者刪除,從而使lora的泛化性能更好
但是目前tagger打的標(biāo)簽足夠準(zhǔn)確,這么干也比較費(fèi)時(shí)費(fèi)力,所以只推薦那些對于自己模型質(zhì)量精益求精的同志們?nèi)ナ褂?/p>
第二個,就是把某些出現(xiàn)概率很高的tag刪除,來引導(dǎo)畫面效果
舉個例子

我在訓(xùn)練這個lora的時(shí)候,刪除了所有描述”藍(lán)色”物體的標(biāo)簽,從而使得畫面風(fēng)格變得偏向于冷色調(diào)。
又比如這個

就是使用Yuu(Yuumei)老師的某幾張圖片,刪除了所有描述星星的tag,只保留一個
star\(symbol)\作為觸發(fā)詞得到的效果,
(當(dāng)然因?yàn)閿?shù)據(jù)集比較少,效果達(dá)不到Y(jié)uu老師的一根毛)
又或者我們可以在訓(xùn)練某種畫風(fēng)的時(shí)候,刪除see-through或者shiny skin之類的tag,來達(dá)到某些不可告人的目的((((((((
解釋為什么要這么做的話:
Tag被刪除后,這個tag所描述的特征就會只學(xué)習(xí)圖像特征,而沒有語義指導(dǎo),我們刪除的都是某些描述整個畫面或者人物的tag,這也就代表被刪除tag所描述的特征會應(yīng)用到整個圖像上,從而引導(dǎo)畫面效果。
三,額外參數(shù)
除了基礎(chǔ)的學(xué)習(xí)率,dim,repeat,epoch之外
Lora訓(xùn)練還有不少額外的參數(shù)
這里娛樂的建議是,除了金字塔噪聲(multires_noise)之外,其他參數(shù)基本上都是沒什么大用,不好控制不說,隨便開啟反而會使訓(xùn)練效果降低。
至于金字塔噪聲,他的原理是創(chuàng)建多分辨率的噪聲并堆疊在一起,同時(shí)縮減低分辨率的噪聲,從而增強(qiáng)訓(xùn)練出lora的對比度以及光影效果
有細(xì)微的副作用(比如可能會出現(xiàn)動作略微過擬的情況)
但是相當(dāng)建議大家開啟,對訓(xùn)練效果有很大的提升
甚至有的時(shí)候這個參數(shù)開啟與否訓(xùn)練出來的lora是兩個效果
嗯,建議金字塔噪聲的兩個參數(shù)設(shè)置為6和0.3