5月7日,Stable Diffusion復現(xiàn)物體進度
文中圖片均為SD生成,僅用于學習交流,禁止商用,禁止違法用途。

學習使用SD第30天,一整月了。
物體方面目前已攻克SD對小物體,一般可識別物體的批量替換背景,
優(yōu)化對不識別物體的批量替換背景。
優(yōu)化服裝的批量出圖。
對指定物體的定向結果控制。
目前未解決:
指定顏色替換,復雜紋飾圖樣的背景替換,其他未嘗試問題。
一些結果↓
瓶子定向(無Lora):960*960,約7秒/張。




食品封口機替換背景(無lora):尺寸3500*3500,約9秒/張。




某個網(wǎng)友發(fā)的圖(無lora):512*512,約1秒/張。



粉色針織羊絨衫+歐美模特(有Lora):640*960,約13秒/張(剔除手腳廢圖)





蕎麥面粉定向生成(無lora):尺寸768*1024,約4秒/張。







雪人玩偶3D感復現(xiàn)+樣式變化(有l(wèi)ora):尺寸960*960,約7秒/張。






某不規(guī)則魔方玩具替換場景(少部分使用lora):尺寸960*960,約12秒/張。







關于復現(xiàn)產(chǎn)品的一些個人經(jīng)驗整理:
1.每個產(chǎn)品的尺寸和比例都不一樣,對于不同的產(chǎn)品,需要用到不同的tag詞進行調(diào)試。
2.產(chǎn)品的tag詞+模型調(diào)試時間在1小時以內(nèi),超過這個時間太多,要么用詞方向存在問題,要么模組存在問題,且拉高了成本,不劃算。
3.需要光影效果的物體和AI不識別的物體需要使用Lora以達到最佳效果,AI可識別物體即使不訓練lora也可以通過蒙版達到只替換背景的效果。
4.通過蒙版進行復現(xiàn),可以不使用高清插件和高清修復來實現(xiàn)高分辨率和圖像的高清內(nèi)容化。
5.太過復雜但不考慮光影的紋樣復現(xiàn)需要增加生成步數(shù)和測試采樣方式來達到對應的結果。
6.考慮光影且批量化多角度復現(xiàn)完整的不規(guī)則花紋分布,目前我還未做到,后續(xù)嘗試通過lora分層或loha模型解決。
關于lora訓練的一些想法。
通過對SD基礎算法的學習和對LORA的學習,以及實測一些物體的訓練結果。
得到以下結論(僅為個人看法):
1.Loss值:
Loss值的區(qū)間并非固定,根據(jù)不同的產(chǎn)品,內(nèi)容的復雜程度,內(nèi)容的存在數(shù)量類型,Loss值會存在不同的變化。
人像及帶人像的半身服飾,其訓練的loss區(qū)間正如各個SD大佬所言,在0.6-0.8這個區(qū)間波動,最終可以得到相對較好的結果。
而對于物體和一些小物件,loss值即使低至0.09-0.2這個區(qū)間,也可以得到可用的結果(只是可用,但不一定是最好的結果)。
當訓練透明背景圖物體的loss處于0.25-0.4這個區(qū)間時,出現(xiàn)的結果會偏差很大,有擬合效果很好的,也有完全欠擬合無法生效的,這點原因未知。
2.物體的欠擬合、過擬合、擬合:
通過對模型權重的調(diào)整和詞的全部調(diào)用,
如果一個模型在權重-2至2區(qū)間內(nèi),它都無法產(chǎn)生結果,那么理論上,它是廢的,歸屬到欠擬合。
如果一個模型在權重-1至1區(qū)間內(nèi),它都能產(chǎn)生或反或正的結果,那么理論上,它是擬合的。
如果一個模型在權重-2至2區(qū)間內(nèi),它都能有效果,且在值為1時,它的應用覆蓋范圍超過產(chǎn)品本身影響到其他內(nèi)容,它是過擬合的。
從實際的應用上來看,欠擬合的模型對物體的復現(xiàn)應用效率為0,擬合和過擬合的模型則都可以通過調(diào)整權重和詞來達到想要的效果。
3.lora訓練標簽:
tag標簽的多少和模型的擬合程度并沒有絕對的關系。
對于風格化模型的訓練,tag標簽需要多且準確,原因在于調(diào)用模型的時候,較多的tag詞可以只調(diào)用其中一部分tag對應的內(nèi)容,給予整體更多的變化。
對于物體的復現(xiàn)訓練,取決于你想要用到該物體的什么部分。
如果是整體應用,則減少訓練時的tag詞,
如果需要多樣變化或者應用于其他的物體,則增加訓練時的tag詞。
同時,如果需要做整體調(diào)用,還需要調(diào)整文本的學習率。
在訓練設置中,存在以下文段。
# Learning rate | 學習率
$lr = "1e-4"
$unet_lr = "1e-4"
$text_encoder_lr = "1e-5"
描述段不改變,數(shù)值改變即可。
1e-4=1乘以10的-4次方=0.0001;
2e-4=2乘以10的-4次方=0.0002;
1e-5=1乘以10的-5次方=0.00001;
2e-5=2乘以10的-5次方=0.00002;
9e-5=9乘以10的-5次方=0.00009;
以此類推。
4.僅通過lora我還無法做到100%復現(xiàn),可能存在的問題是:
⑴學習時對訓練集進行了分割處理。
⑵文本與圖像內(nèi)容的權重匹配度存在問題。
⑶輸出內(nèi)容進行的整體輸出。
⑷輸出內(nèi)容與底模進行了一定程度的重疊。
打算嘗試通過BV1nP411U7me的內(nèi)容進行控制測試。
如無法,則進行下一步的loha訓練測試。