lora記錄,參考使用
轉載自:活埋紅豬
說兩句對真人照片lora訓練集預處理經(jīng)驗。
1.可以有多個角度的樣本,但各個角度的樣本數(shù)最好差不多(正臉可以多些),以保證不同角度的在訓練中的權重。
2.樣本數(shù)量并不需要太多,一般來說 ,真人有20張左右就非常富裕了,實際上當單獨的照片足夠清晰的時候,一到兩張照片就能夠提供綽綽有余的特征細節(jié)。
3.不需要多少的tag,因為lora模型本身就已經(jīng)是最重要的特征描述了,建議tag刪光,就留1girl就足夠了,加太多的tag會導致在出圖時讓底包模型里的其他tag污染lora里的特征,這也是很多人訓練出模型不像的最重要原因。另外在訓練時我發(fā)現(xiàn),似乎再再添加一個姓名tag,能夠提高出圖的穩(wěn)定性(但這很可能是錯覺,不過添加并沒有壞處)。
4.如果找到的照片中有很多樣本都具備一些共有特征,比如戴眼鏡,戴項鏈,戴耳環(huán),側臉等,還是建議打上對應的tag,這樣在出圖的時候,能夠減少對面部特征的影響。如果不打,很可能會導致每張圖都有一樣的特征(比如都戴耳環(huán))。
5.樣本集的選擇上,如果是要提取面部的話,以證件照的景別為主,建議添加幾張半身照,在出圖時可以添加profile shoot類似的負面tag來避免出圖都是證件照。
暫時就這么多,另外用真人訓練的法律風險就不需要我來多說了。大家煉丹出圖還是講究個自己開心,別搞出什么摟子把整個小圈子給揚了,那就不好了。補充一點,如果你最后出圖是有一個偏愛的固定底包模型的話,比如大家最愛的chillout,訓練模型也最好用一樣的底包。如果底包的風格或者訓練集差距過大會影響模型的泛化能力。如果沒有這個要求,那就用秋葉大大里面的默認final prune這種萬能底包就好了。
底模是stable diffusion的基礎模型,對應的是civitai這類網(wǎng)站上的checkpoint類。lora是根據(jù)少量訓練集訓練出的小型風格模型,需要結合底模使用。具體使用方法,還是參照原up的一系列視頻,說的很清楚的。
按說參數(shù)不需要調整,一般來說出圖效果不好,大多還是訓練集選擇的問題。訓練集的一致性是挺重要的。選擇的圖片的角度,光照,等如果出現(xiàn)差異會對出圖有影響。因為SD完全可以在只提取面部結構的情況下,在圖片生成端增加表情與光照的設定。所以建議訓練集以平光、輕微表情或無表情為主。
個人建議,不一定先要煉目標對象,找一個畫質較好的隨便什么的視頻截圖生成訓練集,比如明星采訪視頻就能夠保證一致的妝造和光照條件,先找找感覺不用,刪不刪tag還是取決于你的訓練圖怎么選的。動漫角色肯定不可能都是大頭照,而且面部特征區(qū)別其實沒那么大的,正常打tag就可以。
轉載:鄰家咪啪
補充一下群里大佬分享的經(jīng)驗:
1、假設腳本里訓練分辨率設置為512,512
2、那么橫屏素材分辨率設置為640*384,豎屏素材設置為384*640,正方形素材設置為512*512
3、這樣訓練素材不用裁切畫面就可以丟給lora訓練
至少我用kohya的圖形gui這樣煉丹出來效果是沒問題的

本地訓練:
配置好后,訓練 512 x 512, 【W(wǎng)inError 1455】 頁面文件太小,但實際只吃了6G顯存,還有1G多沒用。
2023-01-23 22:5839回復
秋葉aaaki:這是虛擬內存太小
Risa回復 @秋葉aaaki : 確實是這個問題,其實一開始出問題的時候,我還去查了一下虛擬內存是不是關了,但系統(tǒng)盤是有的。目測這腳本是需要包所在的盤有虛擬內存,我去單獨給所在盤符開了一下,就可以正常運行了。
由崎黑板回復 @秋葉aaaki : 我在所在盤符設置了16G的虛擬內存,依然1455
西行寺夜見回復 @由崎黑板 : 16g夠干啥的,先設個60g再看看,不夠就120g