最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

AIGC: Non-Gaussian Denoising Diffusion Models 筆記

2023-08-14 18:05 作者:剎那-Ksana-  | 我要投稿

DDPM

眾所周知,DDPM 是一個基于馬爾可夫鏈 q(x_%7B1%3AT%7D%7Cx_0)%3D%5Cprod_%7Bt-1%7D%5ETq(x_t%7Cx_%7Bt-1%7D) (這個聯合概率分布之前筆記里面也出現過,x_%7B1%3AT%7D?的意思是 x_1%2Cx_2%2C...%2Cx_T),在原圖像上逐漸添加高斯噪聲 %5Csqrt%7B%5Cbeta_t%7D%5Cepsilon_%7Bt-1%7D%2C%20%5Cepsilon_%7Bt-1%7D%5Csim%20%5Cmathcal%7BN%7D(0%2CI) 的模型(每一步的 %5Cbeta_t?需要足夠?。?。

所以,x_t%3D%5Csqrt%7B1-%5Cbeta_t%7Dx_%7Bt-1%7D%2B%5Csqrt%7B%5Cbeta_t%7D%5Cepsilon_t.?

高斯混合分布

高斯混合分布(Gaussian Mixture),就像它的名字所說,是多個高斯分布混合在一起。

顯然,我們的加噪過程中,添加的噪聲未必要是高斯分布,所以在這里,論文里面討論了噪聲高斯混合分布的情況(而高斯分布則變成了高斯混合分布的一個特例)。這里我們依舊以?%5Cepsilon_t?代表高斯噪聲,而高斯混合分布情況下,加噪過程有x_t%3D%5Csqrt%7B1-%5Cbeta_t%7Dx_%7Bt-1%7D%2B%5Csqrt%7B%5Cbeta_t%7D(%5Csum_%7Bi%3D0%7D%5EC%20z_i%20%5Cepsilon_t%5Ei)

這里,論文特別討論了當 C%3D2 時的情況,即:

x_t%20%3D%20%5Csqrt%7B1%20-%20%5Cbeta_t%7D%20x_%7Bt-1%7D%20%2B%20%5Csqrt%7B%5Cbeta_t%7D(b%20%5Cepsilon%5E1_t%20%2B%20(1-b)%5Cepsilon%5E2_t)%2C%5C%5C%20%5Cepsilon%5E1_t%20%5Csim%20N(m%5E1_t%2C%20%7B%5Cphi_t%7D%5E2)%2C%20%5Cepsilon%5E1_t%20%5Csim%20N(m%5E2_t%2C%20%7B%5Cphi_t%7D%5E2)%2C%20b%20%5Csim%20%5Cmathcal%20Bernoulli(p)

這里我們令?X_t%20%3D%20b%20%5Cepsilon%5E1_t%20%2B%20(1-b)%5Cepsilon%5E2_t?(即公式里面的噪音部分,去掉 %5Csqrt%7B%5Cbeta_t%7D), 并且我們希望這個噪音具有一些"高斯"特性,即?E(X_t)%3D0%2CV(X_t)%3D1.

我們知道,針對高斯分布有?E(X)%3D%5Cmu%2C%5C%20Var(X)%3D%5Csigma%5E2,以及,針對伯努利分布有?E(X)%3Dp%2C%5C%20Var(X)%3Dp(1-p).?

所以,三個待定系數 m_t%5E1%2C%20m_t%5E2?和 %5Cphi_t,我們根據 E(X_t)%3D0%2CV(X_t)%3D1,可以有如下的等式:

m_t%5E1%20%3D%20%5Csqrt%7B%5Cfrac%7B1-%7B%5Cphi_t%7D%5E2%7D%7Bp(1-p)%20%2B%20%5Cfrac%7Bp%5E3%7D%7B1-p%7D%20%2B%202p%5E2%7D%7D

m_t%5E2%20%3D%20-%5Cfrac%7Bp%7D%7B1-p%7Dm_t%5E1

額,上面的公式不是特別重要。

現在我們可以讓?%5Cphi_t%5E2 作為一個自由參數,%5Cmathcal%7BM%7D(%5Cphi_t%5E2)?來代表一個由兩個高斯分布——均值如上,方差均為?%5Cphi_t%5E2?,且權重相同?p%3D0.5——所組成的高斯混合模型。N_t%5Csim%20%5Cmathcal%7BM%7D(%5Cphi_t%5E2),且?%7B%5Calpha%7D_t%3D1-%5Cbeta_t%2C%5C%20%5Cbar%7B%5Calpha%7D%3D%5Cprod_%7Bi%3D1%7D%5ET%20%7B%5Calpha%7D_i,那么我們有:

x_t%20%3D%20%5Csqrt%7B%5Cbar%20%5Calpha_t%7D%20x_0%20%2B%20%5Csqrt%7B1%20-%20%5Cbar%5Calpha_t%7DN_t

這里,論文認為,類似于 DDPM,逆向過程也可以取類似的形式:

x_%7Bt-1%7D%20%3D%5Cfrac%7B1%7D%7B%5Csqrt%7B%5Cbar%5Calpha_t%7D%7D%20%20%5Cleft(%20%7Bx_t%20-%20%5Cfrac%7B1%20-%20%5Calpha_t%7D%7B%5Csqrt%7B1-%20%5Cbar%5Calpha_t%7D%7D%5Cvarepsilon_%5Ctheta(x_t%2C%20t)%7D%20%5Cright)%2B%20%5Csigma_t%20N_t

(這里,%5Csigma_t%5E2%3D%5Cbeta_t

有關上面這個式子,論文沒有給出任何證明。原 DDPM 的逆向過程是從貝葉斯定理?q(x_%7Bt-1%7D%7Cx_t%2Cx_0)%3Dq(x_t%7Cx_%7Bt-1%7D%2Cx_0)%5Cfrac%7Bq(x_%7Bt-1%7D%7Cx_0)%7D%7Bq(x_t%7Cx_0)%7D 推導出來的。這里我因為懶和菜沒有去嘗試推導,就假定論文里面的是對的了。

接下來就簡單了,我們利用一個神經網絡去模擬噪音?N_t, 其余的和 DDPM 的步驟一樣。

Denoising Diffusion Gamma Models

不用多說,Denoising Diffusion Gamma Models(2110.05948)是噪音服從 Gamma 分布時候的情況,即:

%20x_t%20%3D%20%5Csqrt%7B1%20-%20%5Cbeta_t%7D%20x_%7Bt-1%7D%20%2B%20(g_t%20-%20%5Cmathbb%7BE%7D(g_t))

其中,g_t%5Csim%20%5CGamma(k_t%2C%20%5Ctheta_t)%2C%5C%20%5Ctheta_t%20%3D%20%5Csqrt%7B%5Cbar%20%5Calpha_t%7D%5Ctheta_0%2C%5C%20k_t%3D%5Cdfrac%7B%5Cbeta_t%7D%7B%5Calpha_t%7B%5Ctheta_0%7D%5E2%7D.?%5Ctheta_0%2C%5Cbeta_t?是兩個超參數(Hyperparameters)。

顯然這里有,E(X-E(X))%3D0?所以?%5Cmathbb%7BE%7D(g_t%20-%20%5Cmathbb%7BE%7D(g_t))%3D0;并且,%5Cmathbb%7BE%7D(g_t)?是一個常數,所以?V(g_t%20-%20%5Cmathbb%7BE%7D(g_t))%20%3D%20Var(g_t)%3D%20k_t%7B%5Ctheta_t%7D%5E2%20%3D%20%5Cbeta_t.?

Gamma 分布的概率密度函數為?%5Cfrac%7B1%7D%7B%5CGamma(k)%5Ctheta%5Ek%7Dx%5E%7Bk-1%7De%5E%7B-x%2F%20%5Ctheta%7D, k 被稱作 shape,%5Ctheta 被稱作 scale.?

如果多個獨立的隨機變量 X_i?服從 Gamma 分布 %5CGamma(k_i%2C%5Ctheta),即,這些 Gamma 分布含有相同的 scale %5Ctheta?和不同的 shape k_i, 相加后的隨機變量服從 Gamma 分布?%5CGamma(%5Csum_%5Cnolimits%20i%20k_i%2C%5Ctheta)?. 這個性質可以用來推導出從?x_0?到?x_t 的公式:

x_t%20%3D%20%5Csqrt%7B%5Cbar%20%5Calpha_t%7D%20x_0%20%2B%20(%5Cbar%20g_t%20-%20%5Cbar%20k_t%5Ctheta_t)%2C%20%5C%20%5Cbar%20g_t%20%5Csim%20%5CGamma(%5Cbar%20k_t%2C%20%5Ctheta_t)%2C%5C%20%5Cbar%20k_t%20%3D%20%5Csum_%7Bi%3D1%7D%5Et%20k_i

推導上述公式,論文里面用的是數學歸納法(假定 x_t 成立,推得 x_%7Bt%2B1%7D 成立),由于不是特別重要,所以不搬過來了,見論文附錄。

和上面高斯混合分布不同,這里論文給出了詳細的反向過程推導,方法依舊是貝葉斯定理 q(x_%7Bt-1%7D%7Cx_t%2Cx_0)%3Dq(x_t%7Cx_%7Bt-1%7D%2Cx_0)%5Cfrac%7Bq(x_%7Bt-1%7D%7Cx_0)%7D%7Bq(x_t%7Cx_0)%7D,這里三個概率分布都服從 Gamma 分布。由于公式過于復雜,我沒仔細看,所以選擇略過。

從推導出來的?q(x_%7Bt-1%7D%7Cx_t%2Cx_0)?可以計算變分下界的 loss?L_%7BVLB%7D,這里有關的計算流程過于復雜,大概一半左右都沒看懂,等著哪天哪個大神出來解釋。

總之,最終的結論是,最小化?L_%7BVLB%7D?即等同于最小化的 loss?%5Cmathcal%7BL%7D%3D%7C%20%5Cfrac%7B%5Cbar%7Bg%7D_t-%5Cbar%7Bk%7D_t%5Ctheta_t%7D%7B%5Csqrt%7B1-%5Cbar%7B%5Calpha%7D_t%7D%7D-%5Cepsilon_%5Ctheta%20(x_t%2Ct)%20%7C.

DDGM 訓練過程和推理過程

所以為什么要用 Gamma 分布作為噪音呢,其實還是為了加速。論文認為比起高斯分布只有一個自由度(Degree of Freedom),即方差, Gamma 分布具有兩個自由度,可以調整起來更靈活。對此,論文里面做的實驗是,在 DDPM 的環(huán)境下,針對 t-50 步時的噪音?%5Chat%7B%5Cepsilon%7D%20%3D%5Cfrac%7B%5Csqrt%7B%5Cbar%20%5Calpha_t%7Dx_0%20-%20x_t%7D%7B%5Csqrt%7B1%20-%20%7C%5Cbar%20%5Calpha_t%7C%7D%7D,分別用高斯分布和 gamma 分布去貼合它,當然 gamma 分布可以調整的更加靈活,自然 gamma 分布可以貼合得更好。

左側是利用高斯分布貼合,右側是用gamma分布貼合

(但是問題是 DDPM 我們添加的是高斯噪聲,DDGM 我們添加的是?gamma 噪音,這里是不是有點拿著蘋果去比橘子了?)

總覺得有些怪怪的。有些高斯分布下成立的東西,拿到 Gamma 分布以后為什么也成立,這一部分論文好像缺少一些解釋,網上也找不到任何文章講解的。說不定哪天,高斯分布的擴散模型走到頭了,人們回過頭來發(fā)現,誒,居然還有這么一篇論文,然后都來研究它了呢?

完。

AIGC: Non-Gaussian Denoising Diffusion Models 筆記的評論 (共 條)

分享到微博請遵守國家法律
曲阳县| 嘉禾县| 南漳县| 阿鲁科尔沁旗| 四会市| 泰州市| 岐山县| 会宁县| 康平县| 山东省| 武山县| 兴业县| 麟游县| 昂仁县| 娄底市| 五指山市| 弥渡县| 基隆市| 怀安县| 出国| 化州市| 乐亭县| 钦州市| 扎鲁特旗| 无为县| 永宁县| 梨树县| 临沧市| 安庆市| 调兵山市| 精河县| 白沙| 平山县| 阳朔县| 岳阳县| 辛集市| 同德县| 图木舒克市| 黑山县| 沁阳市| 泸溪县|