采樣方法和步數(shù)選擇
原理
各位觀眾大家好,我是Octppus,本篇文章會(huì)介紹采樣方法和步數(shù)的原理,之后會(huì)出視頻講解。
使用Diffusion模型生成圖片是一個(gè)去噪的過(guò)程

輸入一張完全隨機(jī)的噪點(diǎn)圖
由訓(xùn)練好的噪聲預(yù)測(cè)器生成一張當(dāng)前步數(shù)(加上其他輸入信息)的噪點(diǎn)圖
噪聲圖減去生成出來(lái)的噪點(diǎn)圖
將去除噪點(diǎn)的圖片當(dāng)作輸入再執(zhí)行2和3的步驟
以上的步驟需要執(zhí)行許多次,直到從一張?jiān)朦c(diǎn)圖變成一張清晰的圖片。
去噪的過(guò)程就被稱為采樣,不同的采樣方法就表示不同的去噪方式

要進(jìn)行去噪的次數(shù),就是采樣步數(shù)

使用不同的去噪方式會(huì)生成完全不同,且?guī)缀鯚o(wú)法預(yù)測(cè)的圖像,因此選擇不同的采樣方式和采樣步數(shù),不能作為調(diào)整畫(huà)面的內(nèi)容的手段,只能用來(lái)調(diào)整生成圖片的速度,質(zhì)量,可控性和準(zhǔn)確性。

采樣步數(shù)

無(wú)論采樣步數(shù)是多少,都是一個(gè)噪點(diǎn)數(shù)量從高降至0的過(guò)程。

采樣步數(shù)多,噪點(diǎn)減少的過(guò)程就會(huì)比較平滑,可以減少截?cái)嗾`差。
足夠的采樣步數(shù),如同從小學(xué),初中,高中到大學(xué),花的時(shí)間就,但是能學(xué)到完整的知識(shí)。
過(guò)低的采樣步數(shù),如同學(xué)會(huì)了四則運(yùn)算,然后馬上學(xué)習(xí)微積分,中間有大量的知識(shí)斷層只能靠蒙。
過(guò)高的采樣步數(shù),如同只要9年就能學(xué)完的內(nèi)容,學(xué)了18年,能學(xué)到的東西沒(méi)有多多少,但是時(shí)間花了很久。
步數(shù)太多不但不會(huì)提升圖片品質(zhì),還會(huì)平白浪費(fèi)時(shí)間,但如果步數(shù)不夠產(chǎn)生的圖像效果又不佳。
不用擔(dān)心對(duì)于所有采樣方法來(lái)說(shuō),大于30步的步數(shù)都可以有一個(gè)不錯(cuò)的效果,但在處理大量圖片的時(shí)候,減少步數(shù)可以節(jié)約大量的時(shí)間。
步數(shù)的選擇主要取決于采樣方法(使用插件的時(shí)候也需要針對(duì)性調(diào)整步數(shù),但影響不大),不同的采樣方法,圖像收斂的速度也不同。

圖像收斂
這里所指的收斂,就是說(shuō)再采樣的過(guò)程中,圖像內(nèi)容基本不變。
圖像是否已經(jīng)收斂,可以被視為生成完畢的一個(gè)指標(biāo)。

大部分算法都可以在30步的時(shí)候收斂,其中Heun在20步的時(shí)候就已經(jīng)收斂。
收斂之后的步數(shù)幾乎沒(méi)有意義,因?yàn)閳D像的改變非常細(xì)微。
但是?。。。。。。。。。?!
有些采樣方法會(huì)導(dǎo)致圖像無(wú)法收斂,無(wú)論迭代多少步,產(chǎn)生的圖像都會(huì)發(fā)生變化。

因?yàn)檫@些采樣方法了祖先采樣器(Ancestral sampling)
這會(huì)在每個(gè)步驟中添加隨機(jī)噪聲,即便是在步數(shù)很高,圖像改變很小的時(shí)候,細(xì)微的變化累計(jì)也會(huì)造成圖像發(fā)生很大的改變。
例如“Euler a”這個(gè)名字中帶有a(Ancestral)的采樣方法,就是采用了祖先采樣器,有些不帶a的也有采用,如DPM++ SDE 和?DPM++ SDE Karras。
能否收斂是區(qū)分采樣方法的其中一條標(biāo)準(zhǔn),這決定了生成的圖像是否穩(wěn)定可控且符合描述。如果希望生成的畫(huà)面內(nèi)容可控和準(zhǔn)確就避免使用這一類采樣方法,反之則使用。


一下兩組圖片使用了完全相同的生成條件,只改變了頭發(fā)的顏色,一組使用Euler采樣方法,一組使用Euler a采樣方法。



收斂速度
除了生成圖片的可控性之外,收斂的速度也是考量因素之一。




一些方法可以用更少的步數(shù)完成圖像收斂,在批量處理的時(shí)候非常有用。
注意!?。?!
使用同樣的步數(shù),生成圖像的時(shí)間也會(huì)有很大區(qū)別。



畫(huà)面質(zhì)量
在相同的生成條件下,不同采樣方法通常只要迭代到圖片收斂,畫(huà)質(zhì)都沒(méi)有明顯的好壞之分。
除了極個(gè)別的拉跨方法。



好看千篇一律,丑的各有特點(diǎn)??偟膩?lái)說(shuō),畫(huà)面質(zhì)量并不是主要考量因素,因?yàn)榇蟛糠址椒ㄔ谕瓿墒諗亢螅?huà)質(zhì)區(qū)別都不大。

Karras噪聲減少更為平滑,畫(huà)面質(zhì)量會(huì)相對(duì)更好一些。

總結(jié)
選擇采樣方式主要考慮穩(wěn)定性,其實(shí)是生成圖片的時(shí)間。
在完成收斂之后,大部分采樣方式的畫(huà)質(zhì)都差不多。
相同條件下采用不同采樣方法生成的圖像內(nèi)容差距很細(xì)微。
希望結(jié)果多變,選擇帶有祖先采樣器的采樣方式
希望結(jié)果穩(wěn)定可控,選擇不帶祖先采樣器的采樣方式
不同采樣方式的收斂步數(shù)不同,但是大多在30步之后收斂,因此超過(guò)30步之后的步數(shù)意義不大。
如果想要節(jié)省時(shí)間,選擇收斂塊的采樣方式,并將步數(shù)調(diào)整至收斂完成的步數(shù)即可。
不懂怎么選的話,用“Euler步數(shù)30”