一份 prompt 以及關(guān)于它的構(gòu)造的一些解析和說明
圖片:? ? ? ?

? ? ? ? ?
prompt :
正向:
(((masterpiece))),best quality,watercolor,((illustration),
(((beautiful detailed girl))),((mysterious)),small chest,(witch_brew),
((delicate cute face)),red eyes,
ringlets,white hair,
((witch_robe)),black robe,hooded robe,golden laces,
((fairytale)),(night),((cauldron)),mushroom_forest,glowing_mushrooms,luminous_spirit,light_particles,
反向:
EasyNegative, extra fingers,fewer fingers,
參數(shù)列表和模型:
Steps: 30, Sampler: DPM++ SDE Karras, CFG scale: 10, Seed: 2566641591, Size: 512x384, Model: counterfeit2.5, Denoising strength: 0.5, Clip skip: 2, ENSD: -1, Hires upscale: 2.75, Hires upscaler: Latent (nearest-exact), Eta: 0.667
解析:
這張圖片的話,是一次 TtoI 的產(chǎn)物來著...沒有經(jīng)過多次處理就產(chǎn)生了原圖中這種比較特殊的效果,主要是利用了 prompt 中的一些特性...
最主要的是利用了噪點(diǎn)來著...
一般來說,對(duì)于 512*384 的圖片,使用 2.75 的 up,是需要 0.6 以上的 DS 防止產(chǎn)生噪點(diǎn)的來著...而這里只使用了 0.5 的 DS。
但是對(duì)于這個(gè) prompt,2.75 的 up 首先模糊化了所有的背景(也就是 cauldron 之后的所有 tags,它們雖然可能難以從結(jié)果圖中看出完整的表現(xiàn),但為生成提供了相應(yīng)的基底...),而 0.5 的 DS ,在進(jìn)一步的生成中,是不足完全鏈和,從而補(bǔ)全這些背景 tags 的,所以產(chǎn)生了具有部分關(guān)聯(lián)性的噪點(diǎn)...
進(jìn)一步的,因?yàn)橛懈呒訖?quán)強(qiáng)泛化詞 fairytale 的存在,所以這些噪點(diǎn)有了明確的補(bǔ)全方向...(實(shí)際上補(bǔ)全為小花也是噪點(diǎn)的一般補(bǔ)全方向之一)
所以就有了如圖的效果。
嗯,概括而言就是,因?yàn)榧尤氲脑朦c(diǎn)與圖片的放大比例不均衡,所以出現(xiàn)了噪點(diǎn),利用背景 tags 將這些噪點(diǎn)進(jìn)行一定程度的規(guī)約后就可以用關(guān)聯(lián)的強(qiáng)泛化詞進(jìn)一步修飾它們,使它們成為圖片的特色而非錯(cuò)誤。
大概就是這樣?
然后...還有其他的一些特性來著...
比如第四個(gè) tag illustration,左右側(cè)括號(hào)不等并不是誤打來著...這是一個(gè)我比較喜歡使用的特性...效果的話...和后面 tag 之間的關(guān)聯(lián)順序有關(guān),因?yàn)楸容^繁瑣所以這里就不細(xì)說了...
(這個(gè)其實(shí)主要是用來保證“不使用高清修復(fù)的情況下,1k*1k 的分辨率不會(huì)導(dǎo)致人物的邊緣化" 這一屬性的,其實(shí)是之前沒有使用高清修復(fù)時(shí)的遺留特性...用習(xí)慣了就沒改來著///)
(具體參見最下面的注釋)
還有一些詞匯,權(quán)重,分塊,順序,長(zhǎng)度之類的特性...嗯,應(yīng)該很明顯的來著?
注釋:
一般而言,((A),B 可以看作 ((A),B) 理解
也就是說,省略了一個(gè)位于整個(gè) prompt 末尾的反括號(hào)。(雖然這兩種寫法好像也有一些微妙的差別來著//)
但是上面的寫法,與 ((A)),(B) 之間是有絕對(duì)的差異的。雖然它們看上去都是增加所有 tags 的權(quán)重,但是整體的括號(hào)效果上會(huì)更加“平滑”一些。
【另外,這兩種寫法在與整個(gè)括號(hào)外的,其他詞匯的交互上可能也有一些區(qū)別】
這個(gè) “平滑” 是什么意思呢?
如果要理解這一點(diǎn)的話,就要提一個(gè)歷史遺留問題:
同類型的 tag,它們的效果(尤其是加權(quán)后的效果)是可能有非常大的差異的。
這一問題的由來是 tag 屬性的兩面性:比如 red hair,如果給它加權(quán),那么是詞匯的本質(zhì)(紅的程度)得到強(qiáng)化,還是詞匯的數(shù)量(頭發(fā)的多少)得到強(qiáng)化呢?
實(shí)際上,強(qiáng)化的效果是二者的結(jié)合,也就是整體意義上的加權(quán)得到強(qiáng)化。
這看上去似乎并沒有什么好奇怪的,但實(shí)際上導(dǎo)致了非常大的問題。
舉個(gè)例子:short hair,wavy hair,(Blond hair),(hair flower),
這是一組關(guān)于頭發(fā)的描述,我們假設(shè)這一組描述在整體描述中的權(quán)重是均衡的。
那么這一組描述有沒有什么問題呢?
是有問題的!它幾乎必然會(huì)在高分辨率(直接生成而非高清修復(fù))下分裂成兩個(gè)人。
當(dāng)然,如果利用一些其他的特性也是可以保證只生成一個(gè)人的。
原因是 short hair 無法承載后面大量關(guān)于頭發(fā)的描述帶來的 “量” 上的強(qiáng)化。
如果換成 long hair,雖然它和 short hair ,在我們的理解上,詞性幾乎是一模一樣的,但是分裂成兩個(gè)人的概率會(huì)小很多,原因是顯然的。
好,回到之前的話題,為什么說這種打括號(hào)的方法會(huì)比單獨(dú)打更優(yōu)呢?
因?yàn)槿绻胫苯由筛叻直媛实膱D(而不經(jīng)過高清修復(fù))的話,我們是需要增加人物的權(quán)重的(不然會(huì)導(dǎo)致人物的邊緣化)。
增加人物的整體權(quán)重的同時(shí)需要增加人物各部分的權(quán)重...這就會(huì)引起上面提到的問題:
加權(quán)之后 short hair 這類對(duì) “量” 有限制的詞匯會(huì)出現(xiàn)錯(cuò)誤,可能是 short hair 失效,可能是身體扭曲,當(dāng)然,最可能的還是出現(xiàn)兩個(gè)人(畢竟這確實(shí)是滿足 prompt 的最優(yōu)方案)
而最上面那種打括號(hào)的方式可以一定程度上避免這種問題,它加權(quán)的模式比較“平滑”。
大概就是這樣(雖然好像還是沒有解釋什么叫 “平滑”)。
這是一個(gè)沒有必要了解的知識(shí)點(diǎn)
在有 EN 一類效果強(qiáng)大的負(fù)面 Pt 的現(xiàn)在,用上高清修復(fù)后,一般而言,就算 prompt 里有大量原本非常致命的錯(cuò)誤描述,也不會(huì)太過影響生成的圖片的效果了
另外,更大多數(shù)的情況下,這么打括號(hào)只是打錯(cuò)了而已...