最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

最近大火的擴(kuò)散模型經(jīng)典開山作介紹與必備數(shù)學(xué)推導(dǎo)(一)

2023-03-08 18:24 作者:深度之眼官方賬號(hào)  | 我要投稿

來源:投稿 作者:橡皮?

編輯:學(xué)姐

會(huì)議:NeurlPS 2020

貢獻(xiàn)

  • 出了使用擴(kuò)散概率模型的高質(zhì)量圖像合成結(jié)果,這是一類受非平衡熱力學(xué)啟發(fā)的潛在變量模型。

  • 最佳結(jié)果是通過在加權(quán)變異約束上的訓(xùn)練獲得的,該約束是根據(jù)擴(kuò)散概率模型與朗文動(dòng)力學(xué)的去噪分?jǐn)?shù)匹配之間的新聯(lián)系而設(shè)計(jì)的,模型自然地接受了漸進(jìn)式有損解壓方案,可以解釋為自回歸解碼的一般化。

  • 在無條件的CIFAR10數(shù)據(jù)集上,獲得了9.46的Inception分?jǐn)?shù)和3.17的最先進(jìn)的FID分?jǐn)?shù)。在256x256的LSUN上,得到的樣本質(zhì)量與ProgressiveGAN相似。

1引言

最近,各種深度生成模型在各種數(shù)據(jù)模式中都表現(xiàn)出了高質(zhì)量樣本的性能。生成對(duì)抗網(wǎng)絡(luò)(GANs)、自回歸模型、流和變分自動(dòng)編碼器(VAEs)已經(jīng)合成了引人注目的圖像和音頻樣本,而且基于能量的建模和分?jǐn)?shù)匹配也有顯著的進(jìn)步,產(chǎn)生了與GANs相媲美的圖像。

本文介紹了擴(kuò)散概率模型的進(jìn)展。擴(kuò)散概率模型是一個(gè)參數(shù)化的馬爾可夫鏈,使用變分推理訓(xùn)練,在有限時(shí)間后產(chǎn)生與數(shù)據(jù)匹配的樣本。這條鏈的轉(zhuǎn)換被學(xué)習(xí)為逆轉(zhuǎn)擴(kuò)散過程,這是一個(gè)馬爾科夫鏈,在采樣的相反方向逐漸向數(shù)據(jù)添加噪聲,直到信號(hào)被破壞。當(dāng)擴(kuò)散由少量的高斯噪聲組成時(shí),將采樣鏈的轉(zhuǎn)換也設(shè)置為條件高斯就足夠了,這樣就可以實(shí)現(xiàn)特別簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)參數(shù)化。


擴(kuò)散模型的定義很簡(jiǎn)單,訓(xùn)練也很高效,但據(jù)作者所知,還沒有人證明它們能夠產(chǎn)生高質(zhì)量的樣本。作者的工作表明,擴(kuò)散模型實(shí)際上能夠產(chǎn)生高質(zhì)量的樣本,有時(shí)比其他類型的生成模型的公布結(jié)果更好。此外,作者表明,擴(kuò)散模型的某種參數(shù)化揭示了與訓(xùn)練期間多個(gè)噪聲水平的去噪分?jǐn)?shù)匹配和采樣期間的退火Langevin動(dòng)力學(xué)的等同性。作者使用這個(gè)參數(shù)化獲得了樣本質(zhì)量結(jié)果的SOTA,所以這個(gè)是主要貢獻(xiàn)之一。

盡管樣本質(zhì)量很高,但與其他基于似然的模型相比,本文的模型沒有競(jìng)爭(zhēng)性的對(duì)數(shù)似然(不過,本文的模型的對(duì)數(shù)似然比退火重要性抽樣在基于能量的模型和分?jǐn)?shù)匹配中產(chǎn)生的大估計(jì)值要好)。作者發(fā)現(xiàn),模型大部分無損編碼長(zhǎng)度被消耗在描述不可感知的圖像細(xì)節(jié)上。作者用有損壓縮的語言對(duì)這一現(xiàn)象進(jìn)行了更精細(xì)的分析,并表明擴(kuò)散模型的采樣程序是一種漸進(jìn)式解碼,它類似于沿著比特排序的自回歸解碼,極大地概括了自回歸模型通??梢宰龅降摹?/p>

2背景

3擴(kuò)散模型和去噪自動(dòng)編碼器

擴(kuò)散模型可能看起來是一類受限制的潛變量模型,但它們?cè)趯?shí)施中允許有大量的自由度。我們必須選擇正向過程的方差βt以及反向過程的模型結(jié)構(gòu)和高斯分布參數(shù)化。為了指導(dǎo)我們的選擇,我們?cè)跀U(kuò)散模型和去噪分?jǐn)?shù)匹配之間建立了一個(gè)新的明確聯(lián)系(第3.2節(jié)),這導(dǎo)致了擴(kuò)散模型的簡(jiǎn)化、加權(quán)變異約束目標(biāo)(第3.4節(jié))。最終,我們的模型設(shè)計(jì)被簡(jiǎn)單性和經(jīng)驗(yàn)結(jié)果所證明(第4節(jié))。我們的討論按公式(5)的條款進(jìn)行分類。

3.1前向過程和L_T

我們忽略了前向過程方差βt是可以通過重新參數(shù)化來學(xué)習(xí)的,而是將其固定為常數(shù)(詳見第4節(jié))。因此,在我們的實(shí)現(xiàn)中,近似后驗(yàn)q沒有可學(xué)習(xí)的參數(shù),所以LT在訓(xùn)練期間是一個(gè)常數(shù),可以被忽略。

3.2反向過程和L_%7B1%3A%7BT-1%7D%7D

現(xiàn)在我們討論我們的選擇,在1 < t ≤ T時(shí),

首先,我們?cè)O(shè)定

到未經(jīng)訓(xùn)練的時(shí)間相關(guān)常數(shù)。實(shí)驗(yàn)中,

都有相同的結(jié)果。第一個(gè)選擇對(duì)于

來說是最優(yōu)的,第二個(gè)選擇對(duì)于x0確定性地設(shè)置為一點(diǎn)來說是最優(yōu)的。這是兩個(gè)極端的選擇,對(duì)應(yīng)于具有坐標(biāo)上單位方差的數(shù)據(jù)的反向過程熵的上界和下界。

其次,為了表示平均數(shù)

我們提出了一個(gè)具體的參數(shù)化,其動(dòng)機(jī)是對(duì)Lt的以下分析:

寫作:

因此,我們看到μθ最直接的參數(shù)化是一個(gè)預(yù)測(cè)?μt的模型,即前向過程后驗(yàn)平均值。

然而,我們可以通過重新參數(shù)化公式(4)來進(jìn)一步擴(kuò)展公式(8)為:

并應(yīng)用前向過程后驗(yàn)公式(7):

方程(10)顯示,μθ必須預(yù)測(cè)

根據(jù)xt。由于xt可以作為模型的輸入,我們可以選擇參數(shù)化:

其中,θ是一個(gè)函數(shù)近似器,旨在從xt預(yù)測(cè)%5Cepsilon作為數(shù)據(jù)密度的學(xué)習(xí)梯度。此外,通過參數(shù)化(11),公式(10)簡(jiǎn)化為:

這類似于以t為索引的多個(gè)噪聲尺度上的去噪分?jǐn)?shù)匹配。由于公式(12)等于類似Langevin的反向過程(11)的變分約束(其中一項(xiàng)),我們看到,優(yōu)化類似去噪分?jǐn)?shù)匹配的目標(biāo)等同于使用變分推理來適應(yīng)類似Langevin動(dòng)力學(xué)的采樣鏈的有限時(shí)間邊際。

「總的來說:」

我們可以訓(xùn)練反向過程平均函數(shù)近似器%5Cmu%20_%7B%5Ctheta%7D來預(yù)測(cè)%5Ctilde%7B%5Cmu_t%7D,或通過修改其參數(shù)化,我們可以訓(xùn)練它來預(yù)測(cè)%5Cepsilon(也有預(yù)測(cè)x0的可能性,但我們發(fā)現(xiàn)這在實(shí)驗(yàn)的早期會(huì)導(dǎo)致更差的樣本質(zhì)量)。

我們已經(jīng)表明,預(yù)測(cè)參數(shù)化既類似于Langevin動(dòng)力學(xué),又將擴(kuò)散模型的變異約束簡(jiǎn)化為類似于去噪分?jǐn)?shù)匹配的目標(biāo)。盡管如此,它只是

的另一個(gè)參數(shù)化。

因此,我們?cè)诘?節(jié)中驗(yàn)證了它在消融中的有效性,在這里我們比較了預(yù)測(cè)%5Cepsilon和預(yù)測(cè)?μt的效果。

3.3數(shù)據(jù)縮放,反向過程解碼器,以及L0

我們假設(shè)圖像數(shù)據(jù)是由{0, 1, . . . , 255}中的整數(shù),線性縮放為[-1, 1]。這確保了神經(jīng)網(wǎng)絡(luò)反向過程從標(biāo)準(zhǔn)正態(tài)先驗(yàn)p(xT)開始,對(duì)一致縮放的輸入進(jìn)行操作。為了獲得離散的對(duì)數(shù)似然,我們將反向過程的最后一項(xiàng)設(shè)置為一個(gè)獨(dú)立的離散解碼器,該解碼器由高斯

其中D是數(shù)據(jù)維度,i的上標(biāo)表示提取一個(gè)坐標(biāo)。(直接將一個(gè)更強(qiáng)大的解碼器如條件自回歸模型納入其中,但我們將此留給未來的工作)。

與VAE解碼器和自回歸模型中使用的離散連續(xù)分布相似,我們?cè)谶@里的選擇確保了變異約束是離散數(shù)據(jù)的無損編碼長(zhǎng)度,不需要在數(shù)據(jù)中加入噪聲或?qū)⒖s放操作的雅各布系數(shù)納入對(duì)數(shù)似然。在采樣結(jié)束時(shí),我們無噪音地顯示μθ(x1, 1)。

3.4簡(jiǎn)化訓(xùn)練目標(biāo)

有了上面定義的反向過程和解碼器,由公式(12)和(13)得出的條款組成的變異約束,顯然是可以相對(duì)于θ進(jìn)行微分的,并準(zhǔn)備用于訓(xùn)練。然而,我們發(fā)現(xiàn)在以下變異約束的基礎(chǔ)上進(jìn)行訓(xùn)練,有利于提高樣本質(zhì)量(而且實(shí)施起來更簡(jiǎn)單):

其中t在1和T之間是均勻的。t = 1的情況對(duì)應(yīng)于L0,離散解碼器定義(13)中的積分由高斯概率密度函數(shù)乘以bin寬度近似,忽略了σ21和邊緣效應(yīng)。t>1的情況對(duì)應(yīng)于公式(12)的非加權(quán)版本,類似于NCSN去噪分?jǐn)?shù)匹配模型所使用的損失加權(quán)。(LT沒有出現(xiàn),因?yàn)榍跋蜻^程的方差βt是固定的。) 算法1顯示了這個(gè)簡(jiǎn)化目標(biāo)的完整訓(xùn)練過程。

由于我們的簡(jiǎn)化目標(biāo)(14)放棄了公式(12)中的加權(quán),它是一個(gè)加權(quán)的變異約束,與標(biāo)準(zhǔn)的變異約束相比,強(qiáng)調(diào)了重建的不同方面。特別是,我們?cè)诘?節(jié)中的擴(kuò)散過程設(shè)置導(dǎo)致簡(jiǎn)化目標(biāo)降低了與小t相對(duì)應(yīng)的損失項(xiàng)的權(quán)重。這些項(xiàng)訓(xùn)練網(wǎng)絡(luò)對(duì)具有非常小量噪聲的數(shù)據(jù)進(jìn)行去噪,因此降低權(quán)重是有益的,這樣網(wǎng)絡(luò)就可以在較大的t項(xiàng)中專注于更困難的去噪任務(wù)。在我們的實(shí)驗(yàn)中,我們將看到這種重新加權(quán)導(dǎo)致更好的樣本質(zhì)量。

4實(shí)驗(yàn)

我們?yōu)樗械膶?shí)驗(yàn)設(shè)置了T=1000,這樣在采樣過程中所需要的神經(jīng)網(wǎng)絡(luò)評(píng)估的數(shù)量與以前的工作相匹配。我們將前向過程的變數(shù)設(shè)定為從β1=10-4到βT=0.02的線性增加的常數(shù)。這些常數(shù)被選擇為相對(duì)于標(biāo)度為[-1, 1]的數(shù)據(jù)而言的小常數(shù),確保反向和正向過程具有大致相同的函數(shù)形式,同時(shí)保持xT處的信噪比盡可能的小。

為了表示反向過程,我們使用了一個(gè)類似于未屏蔽的PixelCNN++的U-Net主干,并在整個(gè)過程中進(jìn)行分組歸一化。參數(shù)是跨時(shí)間共享的,這是用Transformer正弦波位置嵌入向網(wǎng)絡(luò)指定的。我們?cè)?6×16的特征圖分辨率下使用自我注意。詳情見附錄B。

4.1樣例質(zhì)量:

表1顯示了CIFAR10上的Inception分?jǐn)?shù)、FID分?jǐn)?shù)和負(fù)對(duì)數(shù)似然(無損編碼長(zhǎng)度)。我們的FID分?jǐn)?shù)為3.17,我們的無條件模型比文獻(xiàn)中的大多數(shù)模型(包括類條件模型)取得了更好的樣本質(zhì)量。我們的FID得分是相對(duì)于訓(xùn)練集計(jì)算的,這是標(biāo)準(zhǔn)做法;當(dāng)我們相對(duì)于測(cè)試集計(jì)算時(shí),得分是5.24,這仍然比文獻(xiàn)中的許多訓(xùn)練集FID得分要好。

關(guān)注【學(xué)姐帶你玩AI】公眾號(hào)

回復(fù)“擴(kuò)散模型”獲取論文原文+代碼數(shù)據(jù)集


最近大火的擴(kuò)散模型經(jīng)典開山作介紹與必備數(shù)學(xué)推導(dǎo)(一)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
湘潭市| 会理县| 南投县| 江永县| 垦利县| 梅州市| 当阳市| 乾安县| 武城县| 兴安盟| 徐汇区| 宁安市| 崇仁县| 垦利县| 华蓥市| 黄山市| 扬州市| 桓台县| 平果县| 通辽市| 五寨县| 外汇| 花莲市| 衡山县| 搜索| 扶风县| 龙游县| 望都县| 南郑县| 尤溪县| 大连市| 榆中县| 大安市| 通辽市| 临西县| 加查县| 巨鹿县| 色达县| 湟源县| 信宜市| 资阳市|