AIGC: Non-Gaussian Denoising Diffusion Models 筆記
DDPM
眾所周知,DDPM 是一個基于馬爾可夫鏈 (這個聯合概率分布之前筆記里面也出現過,
?的意思是
),在原圖像上逐漸添加高斯噪聲
的模型(每一步的
?需要足夠?。?。
所以,.?

高斯混合分布
高斯混合分布(Gaussian Mixture),就像它的名字所說,是多個高斯分布混合在一起。
顯然,我們的加噪過程中,添加的噪聲未必要是高斯分布,所以在這里,論文里面討論了噪聲高斯混合分布的情況(而高斯分布則變成了高斯混合分布的一個特例)。這里我們依舊以??代表高斯噪聲,而高斯混合分布情況下,加噪過程有
這里,論文特別討論了當 時的情況,即:
這里我們令??(即公式里面的噪音部分,去掉
), 并且我們希望這個噪音具有一些"高斯"特性,即?
.
我們知道,針對高斯分布有?,以及,針對伯努利分布有?
.?
所以,三個待定系數 ?和
,我們根據
,可以有如下的等式:
額,上面的公式不是特別重要。
現在我們可以讓? 作為一個自由參數,
?來代表一個由兩個高斯分布——均值如上,方差均為?
?,且權重相同?
——所組成的高斯混合模型。
,且?
,那么我們有:
這里,論文認為,類似于 DDPM,逆向過程也可以取類似的形式:
(這里,)
有關上面這個式子,論文沒有給出任何證明。原 DDPM 的逆向過程是從貝葉斯定理? 推導出來的。這里我因為懶和菜沒有去嘗試推導,就假定論文里面的是對的了。
接下來就簡單了,我們利用一個神經網絡去模擬噪音?, 其余的和 DDPM 的步驟一樣。
Denoising Diffusion Gamma Models
不用多說,Denoising Diffusion Gamma Models(2110.05948)是噪音服從 Gamma 分布時候的情況,即:
其中,.?
?是兩個超參數(Hyperparameters)。
顯然這里有,?所以?
;并且,
?是一個常數,所以?
.?
Gamma 分布的概率密度函數為?,
被稱作 shape,
被稱作 scale.?
如果多個獨立的隨機變量 ?服從 Gamma 分布
,即,這些 Gamma 分布含有相同的 scale
?和不同的 shape
, 相加后的隨機變量服從 Gamma 分布?
?. 這個性質可以用來推導出從?
?到?
的公式:
推導上述公式,論文里面用的是數學歸納法(假定 成立,推得
成立),由于不是特別重要,所以不搬過來了,見論文附錄。
和上面高斯混合分布不同,這里論文給出了詳細的反向過程推導,方法依舊是貝葉斯定理 ,這里三個概率分布都服從 Gamma 分布。由于公式過于復雜,我沒仔細看,所以選擇略過。
從推導出來的??可以計算變分下界的 loss?
,這里有關的計算流程過于復雜,大概一半左右都沒看懂,等著哪天哪個大神出來解釋。
總之,最終的結論是,最小化??即等同于最小化的 loss?
.

所以為什么要用 Gamma 分布作為噪音呢,其實還是為了加速。論文認為比起高斯分布只有一個自由度(Degree of Freedom),即方差, Gamma 分布具有兩個自由度,可以調整起來更靈活。對此,論文里面做的實驗是,在 DDPM 的環(huán)境下,針對 t-50 步時的噪音?,分別用高斯分布和 gamma 分布去貼合它,當然 gamma 分布可以調整的更加靈活,自然 gamma 分布可以貼合得更好。

(但是問題是 DDPM 我們添加的是高斯噪聲,DDGM 我們添加的是?gamma 噪音,這里是不是有點拿著蘋果去比橘子了?)

總覺得有些怪怪的。有些高斯分布下成立的東西,拿到 Gamma 分布以后為什么也成立,這一部分論文好像缺少一些解釋,網上也找不到任何文章講解的。說不定哪天,高斯分布的擴散模型走到頭了,人們回過頭來發(fā)現,誒,居然還有這么一篇論文,然后都來研究它了呢?
完。