手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 筆記 »全部筆記 » DALL·E 2（內(nèi)含擴(kuò)散模型介紹）【論文精讀】

DALL·E 2（內(nèi)含擴(kuò)散模型介紹）【論文精讀】

2023-02-15 13:06 作者:harzvzzza 0人讀過(guò) | 我要投稿

關(guān)鍵詞：AGC，AI生成藝術(shù)，文本描述，擴(kuò)散模型，CLIP特征, unCLIP

?
00:40
?
DALLE2介紹根據(jù)文本描述，生成原創(chuàng)性的圖片，可以結(jié)合concepts, attributes and styles
根據(jù)文本，對(duì)已有的圖片進(jìn)行編輯

文本：添加一個(gè)沙發(fā)

根據(jù)已有圖片的風(fēng)格，生成新的圖片
71.7%的人認(rèn)為DALLE2效果比DALLE好
暫時(shí)不開(kāi)源，不全面開(kāi)發(fā)API，github上有dalle-mini庫(kù)

?

10:21

?

相關(guān)工作進(jìn)展、標(biāo)題和作者

作者是CLIP的作者和GLIDE的作者，有diffusion模型的專(zhuān)家

?

15:36

?

摘要two stage: prior and decoder

prior: 根據(jù)文本生成image embedding

decoder: 根據(jù)image embedding生成圖像

相比較于GAN，更加多樣，有創(chuàng)造力

zero-shot 不需要預(yù)訓(xùn)練

prior和decoder都是diffusion model

?

19:19

?

引言captioned images 帶標(biāo)題的圖像，對(duì)于這種問(wèn)題CLIP模型學(xué)習(xí)能力很強(qiáng)，robust，適合fine-tune

擴(kuò)散模型，fidelity保真度比如GAN，多樣性比較高；guidance technique可以提高保真度

CLIP模型：文本圖像對(duì)，對(duì)比學(xué)習(xí)，文本編碼器，圖像編碼器

prior：訓(xùn)練時(shí)用文本特征預(yù)測(cè)圖像特征

自己命名為 unCLIP

?
27:38
?
圖像生成工作概述GAN, VAE, VQVAE, DALLEGAN：生成器G生成圖片，判別器D判斷真圖片和假圖片，互相較量；優(yōu)點(diǎn)保真度高，缺點(diǎn)訓(xùn)練不穩(wěn)定、多樣性低
Auto-encoder: encoder和decoder，希望輸出x‘接近輸入x

denoising AE: 加入噪音Xc

Variational AE: 生成一個(gè)高斯分布，z是prior，x'是likelihood

VQ-VAE: vector quantized，離散化處理分布，用codebook代替，類(lèi)似于聚類(lèi)中心; fq是quantized features

DALL-E:圖像文本對(duì)，過(guò)VQVAE，文本特征和圖像特征concat；推理時(shí)自回歸

?

41:30

?

diffusion model前向擴(kuò)散：對(duì)圖片加T次正態(tài)分布的噪音

reverse diffusion: 反向擴(kuò)散

U-Net: encoder, decoder, 前后大小一致

?

46:15

?

擴(kuò)散模型的演變DDPM: 預(yù)測(cè)residual/noise

time embedding: 表示走到哪一步了

?
50:30
?
總結(jié)擴(kuò)散模型有time step的概念
?
54:14
?
classifier guided diffusion同時(shí)訓(xùn)練圖像分類(lèi)器，用梯度幫助擴(kuò)散模型采樣和生成，提升了寫(xiě)實(shí)性分?jǐn)?shù)
?
01:02:23
?
DALLE2訓(xùn)練數(shù)據(jù)集：圖像文本對(duì)
結(jié)構(gòu)：piror和decoder
?
01:11:18
?
應(yīng)用和結(jié)果根據(jù)圖片，生成類(lèi)似風(fēng)格的圖片
圖像內(nèi)插
圖像和文本內(nèi)插
?
01:17:27
?
局限性和結(jié)語(yǔ)不能把物體和屬性結(jié)合在一起：CLIP不了解邏輯關(guān)系，只會(huì)比較相似度
BPE編碼器，使得生成文字不好
細(xì)節(jié)不夠高清

標(biāo)簽：

DALL·E 2（內(nèi)含擴(kuò)散模型介紹）【論文精讀】的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

DALL·E 2（內(nèi)含擴(kuò)散模型介紹）【論文精讀】

DALL·E 2（內(nèi)含擴(kuò)散模型介紹）【論文精讀】的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

DALL·E 2（內(nèi)含擴(kuò)散模型介紹）【論文精讀】

本文作者的其他文章

DALL·E 2（內(nèi)含擴(kuò)散模型介紹）【論文精讀】的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

DALL·E 2（內(nèi)含擴(kuò)散模型介紹）【論文精讀】的評(píng)論 (共條)