Stable Diffusion 汽車?yán)L圖初探一(基礎(chǔ)創(chuàng)作)

一、概述
這兩周迷上了AI繪圖,出了千把張圖,今天簡單總結(jié)下兩周來的經(jīng)驗(yàn)。
首先,對Stable Diffusion(以下簡稱SD)感興趣的朋友可以在B站秋葉aaaki的空間里找到基礎(chǔ)教程和整合包
感謝秋葉aaaki的整理和無私分享!
使用SD離線整合包需要至少4G顯存,顯存越大越好。我所使用的4090顯卡擁有24G顯存,為我的學(xué)習(xí)提供了強(qiáng)大的支持。另外運(yùn)行SD除了顯卡外,對硬盤空間也有較大的需求。
安裝好SD整合包后,首先需要安裝SD模型Checkpoint(ckpt),ckpt是AI深度學(xué)習(xí)過程中的保存狀態(tài),然后可以導(dǎo)出按照特定意向和風(fēng)格訓(xùn)練的模型供AI繪圖時(shí)進(jìn)行參考。在C站(https://civitai.com/)上有許多別人已經(jīng)訓(xùn)練得比較成熟的模型,可以看到頁面上熱度較高的模型大都是用于生成小姐姐的,有寫實(shí)和卡通等各種風(fēng)格的模型,帥到不行。ckpt文件通常較大,單個(gè)文件2G-5G不等。除了SD模型外,還有一種相對較小的模型LORA,LORA模型主要用于特定風(fēng)格的訓(xùn)練,不像SD模型那樣需要滿足全局的需求,因此通常較小,需要搭配SD模型一起使用。
C站上大部分的模型都是面向生成人物而訓(xùn)練的,只有非常少數(shù)面向建筑和產(chǎn)品的模型。產(chǎn)品設(shè)計(jì)目前只有一個(gè)用戶eddiemauro分享的模型,包括1個(gè)ckpt模型和若干個(gè)LORA模型。最初我只下載了他提供的eddiemauro V2.0版本的ckpt模型和LORA模型進(jìn)行創(chuàng)作。
二、Stable Diffusion 汽車設(shè)計(jì)基礎(chǔ)創(chuàng)作
安裝好SD整合包和模型后,接下來我們開始創(chuàng)作!
如圖1所示,在左上角的“Stable Diffusion模型(ckpt)”中選擇eddiemauro分享的SD模型“productDesign_eddiemauro20.safetensors”,同時(shí)在邊上的“模型的VAE”中選擇“vaeFtMse840000Ema_v100.pt”。VAE具體介紹和下載可參考該視頻, 再往右是“Clip跳過層”,具體可見該視頻。
接著選擇“文生圖”,下方第一欄是正向提示詞(prompt),填入你想要生成圖的意向風(fēng)格關(guān)鍵詞。開始時(shí)不懂怎么填可以用C站作者提供的一些樣例圖的模板,上面都用提供一些參考圖。這里大家可以先使用樣例(https://civitai.com/images/973642?modelVersionId=85831&prioritizedUserIds=719134&period=AllTime&sort=Most+Reactions&limit=20)的提示詞:
3D product render, futuristic vehicle, finely detailed, purism, ue 5, a computer rendering, minimalism, octane render, 4k
第二欄的反向提示詞(Negative prompt),就是你希望避開哪些不想生成的要素,比如:
EasyNegative, (worst quality:2), (low quality:2), (normal quality:2), low-res, ((monochrome)), ((grayscale)), cropped, text, jpeg artifacts, signature, watermark, username, sketch, cartoon, drawing, anime, duplicate, blurry, semi-realistic, out of frame, ugly, deformed,?

可以看出提示詞中有不少是用于約束生成圖的品質(zhì)的,關(guān)于產(chǎn)品風(fēng)格的詞其實(shí)并不多,這也為AI創(chuàng)作提供了較大的空間。
接著往下是“采樣迭代步數(shù)(Steps)”,就是你希望通過特定的“采樣方法(Sampler)”計(jì)算多少步來生成圖,步數(shù)越多,圖也會(huì)更精細(xì),但精細(xì)到一定程度通常就不會(huì)有太大變化了,因此步數(shù)太高也沒有太大意義。因此通常步數(shù)設(shè)置在20-40左右即可。采樣方法有比較多的方式,具體可以參考樣例選擇特定的采樣方法,也可以自己測試比較,這里我們選擇跟樣例一樣的"Euler a"。
接下來選擇圖的寬度和高度為“512”,AI繪圖時(shí)對圖的大小非常敏感,長寬1024看似只是512的2倍,但計(jì)算時(shí)間會(huì)有幾何倍數(shù)的增長,同時(shí)也非??佳酗@存容量。因此出Draft圖時(shí)512是一個(gè)比較合適的選擇,太小則細(xì)節(jié)會(huì)太模糊。
“生成批次1”,“每批數(shù)量4”是一個(gè)相對來說比較合適的選擇,每次能夠自動(dòng)生成一張4方圖可以對結(jié)果做橫向比較。
“提示詞相關(guān)性(CFG Scale)”比較好理解,就是希望生成的結(jié)果與提示詞的相關(guān)度。這個(gè)參數(shù)比較關(guān)鍵,如同中國古老的哲學(xué)“過猶不及”,并不是一味高就是好的,過高的數(shù)值會(huì)讓AI難以權(quán)衡,最后生成的結(jié)果往往比較生硬,通常在6-8左右就可以取得比較理想的結(jié)果。
所有數(shù)值就緒后,按下右上橙色的”生成“按鈕,靜靜等待結(jié)果,可以看到第一次生成的圖品質(zhì)還是非常不錯(cuò)的。選擇其中一張比較滿意的,可以繼續(xù)往下進(jìn)行”圖生圖“

在圖生圖頁面中,會(huì)有一個(gè)增加的參數(shù)“重繪幅度(Denoising)”,這個(gè)參數(shù)決定了重新生成的圖與原圖的差異度,數(shù)值越高,結(jié)果變化越大,反之亦然。如圖2所示,選擇0.55出現(xiàn)的結(jié)果其實(shí)已經(jīng)變化很大了。
如果結(jié)果不滿意,可以進(jìn)行多次重繪。如果找到一張滿意的結(jié)果,可以點(diǎn)擊結(jié)果圖片右下方的“附加功能”,對其進(jìn)行放大。如圖3所示,選擇放大的比例,還有兩次放大的模型“Upscaler1“和”Upscaler2”,以及可見度等參數(shù)。具體可以見該視頻。

點(diǎn)擊生成結(jié)果圖片下方的打開文件夾圖案的按鈕,可以找到這張放大后的圖(圖4),第一次生成的效果如何?

其實(shí)這張圖本身還是有不少問題,主體擺放位置太靠下,細(xì)節(jié)還有很多不夠精致的地方。如果多生成幾次,結(jié)合一起其他方法,是可以獲得更高質(zhì)量的圖的。
三、根據(jù)已有的風(fēng)格進(jìn)行創(chuàng)作
接著我又想,文生圖畢竟是隨機(jī)生成的,靈活度很高,但是我想試試按照自己的想法來生成特定方向的造型風(fēng)格。于是我找了一個(gè)我在很多年前創(chuàng)作的童車效果圖,如圖5。

這次我想試試看不用的SD模型結(jié)合LORA模型會(huì)有怎樣的結(jié)果,于是我選擇了一個(gè)新的SD模型“deliberate_v2”,添加了一個(gè)能夠體現(xiàn)技術(shù)美的LORA“(Tech minimalism-eddiemauro)?”(https://civitai.com/models/59816/product-design-tech-minimalism-eddiemauro-lora),LORA模型添加可見視頻。
在上一次的提示詞基礎(chǔ)上添加了“city commuting, concept, crab, huge wheels, K-car, show something special”。其中的“Crab”主要是用于風(fēng)格導(dǎo)向,希望生成的車身能夠帶有一些甲殼類動(dòng)物的特征。提示詞尾添加LORA模型<lora:eddiemauroLora2(Tech):0.3>,這里的“0.3”指LORA模型占的權(quán)重,具體可參考模型制作者介紹來自行調(diào)整。
采樣迭代步數(shù)(Steps)改為20,提示詞相關(guān)性(CFG Scale)7.5,重繪幅度(Denoising)0.45,結(jié)果如圖6。

整體風(fēng)格很酷,不過主體變得比較的激進(jìn)和夸張,不是我想要的那種比較溫和的變化,繼續(xù)修改下參數(shù)。將采樣迭代步數(shù)(Steps)改為30,重繪幅度(Denoising)改為0.35,試著換一個(gè)簡潔風(fēng)格的LORA模型minimalism-eddiemauro(https://civitai.com/models/58902/product-design-minimalism-eddiemauro-lora),LORA權(quán)重仍為0.3,得出如圖7的結(jié)果,感覺好像比較符合預(yù)期了。

四、總結(jié)
由此可以得出結(jié)論,所有基礎(chǔ)的SD模型其實(shí)都可以用于生成產(chǎn)品效果圖,因?yàn)楸旧鞸D模型訓(xùn)練都是出于全局的考慮,在合適的提示詞的幫助下,都能夠生成比較理想的結(jié)果。適當(dāng)?shù)腖ORA對風(fēng)格影響能夠起到很好的輔助作用。
下一期里我將談?wù)劷Y(jié)合Controlnet進(jìn)行主體控制,背景和細(xì)節(jié)的生成方法,喜歡的朋友請持續(xù)關(guān)注。
PS:Stable Diffusion 雖然非常好用,但是其原理相當(dāng)復(fù)雜,背后的支撐知識相當(dāng)深厚,對于非計(jì)算機(jī)和人工智能背景的用戶來說有不少知識都是很難的,因此本文主要還是探討作者個(gè)人在使用過程中的一些經(jīng)驗(yàn),描述中有錯(cuò)誤也是難免,請大家不吝指正。