66、Classifier Guided Diffusion條件擴(kuò)散模型論文與P


多元高斯分布

評(píng)價(jià)生成模型的效果

兩大目標(biāo):真實(shí)性quality
多樣性:diversity
客觀性評(píng)測(cè)目標(biāo)1:Inception Score(簡(jiǎn)稱IS)
- 基于Inception-V3模型的分類概率來評(píng)估生成照片的質(zhì)量
- KL divergence=p(y|x)*(log(p(y|x))-log(p(y)))
- 這里的p(y|x)給的就是每個(gè)圖片的所屬類別的概率,而p(y)就是對(duì)所有所屬該類別的條件概率求平均而得到
- 對(duì)KL散度對(duì)所有類別求和再取平均值,并且取一個(gè)e指數(shù),即可得到Inception Score。一般生成5000張照片,IS的值在0-1000范圍內(nèi)
- 作者希望p(y|x)應(yīng)該具有低熵即越真實(shí),p(y)應(yīng)該具有高熵即越多樣,因此,IS值越大越好
- 缺點(diǎn):缺乏跟真實(shí)照片之間的比較;缺乏類內(nèi)多樣性,例如每個(gè)類別只產(chǎn)生一張一模一樣的照片,IS一樣很高

代碼實(shí)現(xiàn)

FID:Frechiet Inception Distance
- 基于Inception-V3模型的feature vectors來計(jì)算真實(shí)圖片與生成圖片之間的距離,用高斯分布來表示,F(xiàn)ID就是計(jì)算兩個(gè)分布之間的Wasserstein-2距離
- 將真實(shí)圖片和預(yù)測(cè)圖片分別經(jīng)過Inception模型中,得到2048維度的embedding vector
- mu_1和mu_2分別為均值,C_1和C2為協(xié)方差,Tr為矩陣的跡
- d^2=||mu_1-mu_2||^2+Tr(C_1+C_2-2*sqrt(C_1*C_2))
- d^2即為FID值
- FID越低,說明預(yù)測(cè)分布越接近于真實(shí)的分布
- 可以評(píng)估類內(nèi)多樣性,例如每個(gè)類別只產(chǎn)生一張一模一樣的照片,F(xiàn)ID會(huì)比較高,也就意味著評(píng)估效果比較差

實(shí)現(xiàn)代碼

其他客觀評(píng)測(cè)指標(biāo):Precision與Recall

理想是Precision要大,Recall也要大
論文:Diffusion Models Beat GANs on Image Synthesis
無條件圖像生成-有條件圖像生成
常規(guī)上提高圖像質(zhì)量

生成式模型優(yōu)點(diǎn)

基于似然的模型:pixel cnn/rnn直接對(duì)像素的概率進(jìn)行建模
GAN多樣性方面比那些似然模型要差,是模糊的模型,沒有對(duì)似然進(jìn)行直接的建模,靠對(duì)抗的方式來找到一個(gè)分布,gan不穩(wěn)定,需要精細(xì)的超參數(shù)的選擇和正則化

diffusion也是似然函數(shù)

diffusion和GAN的差距,gan的先進(jìn)結(jié)構(gòu)
diffusion可以在多樣性和質(zhì)量上得到一個(gè)穩(wěn)定的平衡
gan犧牲多樣性獲得結(jié)構(gòu)·
diffusion結(jié)構(gòu)

改進(jìn)

引入可學(xué)習(xí)方差

評(píng)估指標(biāo)

結(jié)構(gòu)提升,用整個(gè)訓(xùn)練集作為參考樣本



自適應(yīng)群歸一化


基于分類器的條件采樣算法的原理與效果


條件diffusion

guidence






算法1:DDPM

DDIM


核心代碼



