AIGC: Denoising Diffusion GANs 筆記

去噪擴散模型雖然可以生成很好的圖像,但問題是生成圖片的時間太長。而原因就在于加噪和去噪都需要符合高斯分布。如果去噪要符合高斯分布,意味著
?
(可以簡單理解為控制加噪強度的參數(shù)) 足夠小,或者
邊緣概率分布
?是一個高斯分布

從圖中可以看出,步長越大,例如從 x5 到 x0,那么去噪分布將越不滿足高斯分布,反而呈現(xiàn)一個多峰值的概率分布。
但是,反之,如果我們可以去學(xué)習(xí)這么一個多峰值的分布的話,我們就可以省去很多中間步驟,大大加速去噪擴散模型的生成時間。
所以論文依舊遵循去噪擴散模型的設(shè)定,但是大幅地增大了?, 減少了總步數(shù) (
), 然后用一個 Generator 去模擬這個真實的去噪分布?
。
但是為什么不直接一步到位呢(one-shot, 即等同于 GAN 的訓(xùn)練),論文認為一步到位將會增加訓(xùn)練難度以及增加 mode collapse 的風(fēng)險;而分步降噪的去噪分布更容易學(xué)習(xí),也降低了 Discriminator 過擬合的可能性。

Parametrization
看上面的流程示意圖會發(fā)現(xiàn),Generator G 沒有直接預(yù)測?, 而是預(yù)測了?
. 這是因為論文中使用了?Parametrization:?
然后再利用??和
?以及一個后驗概率分布
?來生成
, 而這個后驗概率分布無論步長和數(shù)據(jù)分布,都滿足高斯分布(太神奇了?。?/span>:
以上的好處在于
整體架構(gòu)更接近去噪擴散模型,可以借用DDPM的一些思想(如模型架構(gòu))
相比預(yù)測不同時間點的
, 預(yù)測一個未加噪的
?更加容易

更多細節(jié)和效果圖見原文,數(shù)學(xué)公式太長太復(fù)雜了沒有一個看得懂的?ㄟ( ▔, ▔ )ㄏ
Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
Zhisheng Xiao, Karsten Kreis, Arash Vahdat
arXiv:2112.07804v2