關(guān)于我在飛槳煉丹兩周的心得
前言:?
對于這個心得,我也不知道有沒有用,總結(jié)的對不對,反正就是上課摸魚的時候?qū)懙?,由于煉丹比較耗時間所以我獲得的信息并不多,只能靠自己的幾次煉制來總結(jié)。能想到的都了,至于例子,失敗的例子數(shù)不勝數(shù)了,我就例舉我成功的幾個權(quán)重模型吧,(時鐘貓系列、幻夢冰語系列)。?
如果有什么錯誤,也歡迎各位來指正,下面是正文:?
?
一、煉制模型的分類:?
1)模型分為兩類,一類是人物實體模型,一類是畫風模型。?
2)選擇人物實體模型的時候AI會根據(jù)你給出圖包的圖片內(nèi)容去自主識別判定“實體”并加以學習。而畫風模型側(cè)重的是畫面整體的效果學習,比如明暗度、顏色飽和度等。?
二、訓練面板說明:?
1)學習率越低,需要的最大步數(shù)越大,成功率越高,最大訓練步數(shù)要大于等于每張學習次數(shù)*圖片數(shù)量。?
2)這里需要注意的就是喂給Ai的圖,長寬比一定要為1:1,因為當前飛槳只支持512*512的訓練,如果比例不對的話系統(tǒng)自動縮放,學出來的東西.....大概率古神奧。?
3)最接近的詞是你要訓練的內(nèi)容的“本質(zhì)”,就一個簡單的詞,比如“星璇”本質(zhì)上,就是girl?
4)飛槳訓練出來的模型是PD模型而不是PT,目前飛槳還無法使用PT模型?
三、訓練過程總結(jié)(人物):?
1)確定自己要煉制的模型?
2)配制圖包?
3)建議:人物模型建議找基本相同的圖片(無論是人物動作,還是表情,還是外貌),就像“天玥”的煉制圖包,我是用一個固定的TAG反復roll圖,roll出小1000張,然后挑出來60張去訓練的,這60張圖片的內(nèi)容、畫風基本上可以說是乍一看沒區(qū)別的。?
四、訓練過程總結(jié)(畫風)?
畫風的煉制相對于人物的煉制就簡單了不少,畫風的煉制可以是單純的畫風(幻夢冰語),也可以是把背景煉制進去(ClockCat)。只煉制畫風的話,要求就是畫風一樣,內(nèi)容可以不同,學習次數(shù)不要太高,每張20+次,每次30+張。如果想要背景,就需要背景相似度比較高,而且色調(diào)一致。?
五、訓練步驟:?
1)對于怎么確定這個數(shù)值,我個人覺得是:你越想得到細節(jié)的東西,需要的圖片越多,單張圖片學習次數(shù)越大。?
2)而過大的步數(shù)則會出現(xiàn)“過擬合”狀態(tài),就是不僅人物被學進去了,人物身后的背景也會被學進去,這樣就會導致更換背景或人物外貌時,原背景無法替換或者崩圖的情況。而畫本體+本體背景則會十分穩(wěn)定。?
3)具體的訓練步數(shù)到底怎么才是合適的,我這里有一些自己訓練的數(shù)據(jù)參考(格式為:圖片數(shù)、每張的訓練數(shù)、最大訓練步數(shù)),但不一定準確和好用:人物:90、70、6500;90、50、4700;90、30、3000?
70、80、6000;70、50、4000;70、30、2500?
50、90、5000;50、80、4500;50、70、3800?
40、100、4000;40;70;3500;40、50、2400?
30、120、4000;30、90、3000;30、30、1200?
20、200、4000;20、100、2500;20、50、1100?
畫風:20、30、600;20、50、1100;25、40、1200?
30、30、950;30、40、1500;35、30、1300?
40、30、1200;40、50、2000;45、30、1400?
50、20、1000;50、30、1500;50、40、2100?
70、20、1500;70、30、2100;70、50、3600?
90、20、2000;90、30、3000;90、50、5000?
五、人物模型與畫風模型的關(guān)系:?
首先人物模型自帶畫風,但畫風模型不一定有人物。同時畫風模型的基礎權(quán)重對比與人物模型來說,是要低一些的。但并不是說“有人物模型了畫風模型就不用了”,經(jīng)過我的測試,畫風模型在有對應人物模型的存在的時候(ClockCat與TianYue),更多的是起到一個穩(wěn)定圖像的作用,就是修改人物外貌,但會減少人物崩掉的概率,所以畫風模型有時候是充當著“穩(wěn)定器”的作用。其次,畫風訓練出來之后根據(jù)特點我給自己的畫風分成了兩組,一組是以“ClockCat”為經(jīng)典的的“主要畫風”,在繪圖過程中起到“穩(wěn)定”與作為畫風的作用,而另一種是以“幻夢冰語”為例的“輔助畫風”,這種的畫風模型本身對圖片的改變并不大,可以說改動少的EB,我當時甚至以為煉制失敗了,后來測試的時候發(fā)現(xiàn)這個模型可以中和別的畫風,讓有高亮效果的圖片變的柔和,同時優(yōu)化人物與背景,在冰元素魔法上尤其突出,就很是神奇。?
六、測試模型:首先是查看模型的“本體”,即不帶任何正反tag,只輸入模型,其余數(shù)值全為默認數(shù)值,多次生成圖片后,不看美觀與否,看內(nèi)容元素,比如“ClockCat”本體具有的元素是:“貓、女孩、鐘的樣子、法陣、畫風”等,畫風模型也一樣,與訓練用圖的元素基本相同時,就可以初步判斷:成了。第二步就是添加反面tag,查看優(yōu)化后的本體元素,看圖片是否有元素缺失(這個時候不是真丟失了,而是元素本身在其中權(quán)重較小,沒有體現(xiàn)),然后加上未體現(xiàn)的元素,查看整體情況,然后是模型加權(quán)查看整體體現(xiàn),效果仍然不錯,就成功了一半。最后是改變?nèi)宋锿饷玻ㄍl(fā)色、姿勢、、衣著),如果多次嘗試后圖沒有崩或者崩的很少,基本上就可以說是成功了。?
七:權(quán)重對比:?
模型間權(quán)重大的有可能“屏蔽”權(quán)重小的,用初中生物類比就相當于“顯性基因與隱性基因的關(guān)系”,在特定的外加tag強調(diào)下可以讓“隱性表現(xiàn)”,更多的是模型間的融合,但不可否認兩個人物模型放一塊出現(xiàn)連體人的概率很小,至少我這甚至沒出現(xiàn)過連體人。?
八、參數(shù)調(diào)試:?
(一)step調(diào)試:(默認50)?
1)step對應的AI的推理步數(shù),步數(shù)越高,越接近tag描述,畫的內(nèi)容也會被不斷完善。同時在一定程度上會讓圖片變得清晰。?
2)step并不是越高越好,基本上AI是每15步-20步會出現(xiàn)一次“重新排版”,即畫出與上一步完全不同的畫。?
3)調(diào)試步數(shù)可以清楚的知道AI“先畫什么后畫什么”,這也對應著AI的繪畫重點分配。比如我70步的時候,人物有胳膊,我調(diào)回60步,整體沒變但胳膊沒了,這個時候就能確定:胳膊實在其他元素畫完之后才畫的。?
(二)cfg調(diào)試:(默認7.5)?
1)cfg即AI對tag的重視程度,cfg越高,AI畫的就會越接近tag,但cfg過高會“只有tag”,出現(xiàn)古神,而低會讓AI放飛,所以cfg的調(diào)整也十分重要?
2)我的常用cfg參數(shù)調(diào)整范圍:7-16?
(三)圖片大小:(默認512*512)?
1)在飛槳里最大圖片為512*10242)長寬必須為64的倍數(shù)?
2)不同的圖片大小AI繪制的內(nèi)容也會有所區(qū)別,例如:一般豎版的(1024*512)容易出現(xiàn)人物全身;橫版則會比較。。精致?,1:1的大小AI會比較偏向于上半身繪畫。(以上均在無tag強調(diào)的情況下?
3)出圖保存的時候建議50-70圖一存(打包下載),壓縮包過大會出現(xiàn)無法下載的情況?
(四)長度上限倍數(shù):(默認為3)?
1)一個長度上限為77(似乎,我忘了),即AI可以識別的tag數(shù)量,默認為3,也就是210多?
2)tag很多,但圖片里沒有,可以試著調(diào)一下上限?
(五)采樣器:(默認DDIM)?
1)每個采樣器對圖片繪制的側(cè)重點不同,看著選就好2)問就是我沒找到啥規(guī)律,每次看著換 (玄學抽獎)。?
(六)超分模型:(默認為falsr_a)?
1)默認就好?
(七)精度:(默認float32)?
1)精度越高圖片質(zhì)量越高?
2)不用動?
(八)括號修改權(quán)重?
1)有啥括號就用啥?
(九)模型:(默認waifu)?
1)多種模型有不同的側(cè)重點,網(wǎng)頁里有詳解?
2)記得改成NA模型(MoososCap/NOVEL-MODEL)?