Stable Diffusion中CFG scale與denoising strength的參數(shù)分析--以純愛(ài)戰(zhàn)神為例

本文中所有圖片都來(lái)自本人個(gè)人電腦運(yùn)行,歡迎討論,未經(jīng)允許轉(zhuǎn)載Σ。
以一張梗圖為例,通過(guò)X/Y Plot繪圖法,展示了Stable Diffusion1.4模型和NovelAILeak模型中CFGscale和Denoising strength兩個(gè)參數(shù)的基本意義及其相互影響。
基本理解:擴(kuò)散模型生成圖像的過(guò)程是將以一張滿(mǎn)是噪點(diǎn)的圖為基準(zhǔn),一點(diǎn)一點(diǎn)地向目標(biāo)(prompt)“擴(kuò)散”靠近。其中,CFG可以大致理解為prompt對(duì)擴(kuò)散過(guò)程的指導(dǎo)強(qiáng)度。CFG越大,AI就越努力地想將圖片精準(zhǔn)繪制成prompt中的樣子,反之,AI則會(huì)自由發(fā)揮,生成的目的性不是很強(qiáng)(可能會(huì)更有“藝術(shù)性”或“創(chuàng)造性”)(也可能生成對(duì)人類(lèi)而言還為時(shí)尚早的藝術(shù))。
當(dāng)進(jìn)行以圖繪圖(img2img)時(shí),同樣地,基于基本原理,AI會(huì)先在圖片中添加噪點(diǎn),再進(jìn)行擴(kuò)散繪圖。這就引入了新的參數(shù):Denoising strength,添加噪點(diǎn)的強(qiáng)度。AI是基于噪點(diǎn)擴(kuò)散的,噪點(diǎn)強(qiáng)度越高,AI的創(chuàng)作空間就越大,出圖也就和原圖越不相似。
下面以實(shí)例說(shuō)明:
下列例子以純愛(ài)戰(zhàn)神視頻截圖為原圖,prompt是“a handsome hero standing on the battleground,detaild face,sad face”

圖1,SD1.4模型測(cè)試結(jié)果。(注意,圖中橫軸參數(shù)CFGscale的變化是跳躍式的)

可以看出,當(dāng)噪聲強(qiáng)度極小時(shí),CFG再大也沒(méi)有用,AI沒(méi)有發(fā)揮空間。
當(dāng)噪聲強(qiáng)度極大時(shí),CFG就比較關(guān)鍵了,會(huì)較大地影響圖片內(nèi)容:當(dāng)CFG極小時(shí),畫(huà)面很模糊(這個(gè)畫(huà)風(fēng)讓我想起了DiscoDiffusion);CFG在7左右,已經(jīng)能正常生成圖片,但沒(méi)有背景(prompt中的battleground被忽略);隨CFG進(jìn)一步增大,在11時(shí)出現(xiàn)了背景;當(dāng)CFG達(dá)到20,背景才被畫(huà)成戰(zhàn)場(chǎng)battleground。
值得注意的是,在噪聲強(qiáng)度僅為0.2-0.3時(shí),盡管AI創(chuàng)作空間不大,但只要CFG足夠大,AI也基本能生成畫(huà)風(fēng)比較像樣的圖了。
此外還有一些特點(diǎn):
CFG過(guò)小似乎會(huì)生成模糊的、筆觸很強(qiáng)的感覺(jué)的畫(huà)。
CFG較大時(shí)似乎光影對(duì)比會(huì)更強(qiáng)烈。
對(duì)Dinoisingstrength而言,0.5似乎是一個(gè)很關(guān)鍵的閾值。超過(guò)0.5之后,即便CFG不大,普遍也能實(shí)現(xiàn)從臨摹到二創(chuàng)的跳躍。

圖2,NAI模型結(jié)果。(注意,圖中橫軸參數(shù)CFGscale的變化是跳躍式的)

NAI模型結(jié)果規(guī)律與SD1.4類(lèi)似(畢竟都是擴(kuò)散生成),但是NAI明顯更二次元,在Denoising較低時(shí)就有了漫畫(huà)畫(huà)風(fēng)的傾向。
多論一句,如果只拿來(lái)畫(huà)紙片人,NAI確實(shí)比SD更強(qiáng),但可惜,如果想要畫(huà)更廣闊的領(lǐng)域,還是不得不借助SD模型,盡管它可能不太穩(wěn)定。每次看DALL·E2或者midjourney的圖都覺(jué)得好香,尤其midjourney,往往能給人一種精致的感覺(jué)。期待4chan的盜火者能再度英雄登場(chǎng),盡管NAI泄露之后感覺(jué)各大公司肯定有了防范措施。