DALL·E 2(內(nèi)含擴(kuò)散模型介紹)【論文精讀】

關(guān)鍵詞:AGC,AI生成藝術(shù),文本描述,擴(kuò)散模型,CLIP特征, unCLIP
- ?DALLE2介紹根據(jù)文本描述,生成原創(chuàng)性的圖片,可以結(jié)合concepts, attributes and styles00:40?
- 根據(jù)文本,對(duì)已有的圖片進(jìn)行編輯
文本:添加一個(gè)沙發(fā)
- 根據(jù)已有圖片的風(fēng)格,生成新的圖片
- 71.7%的人認(rèn)為DALLE2效果比DALLE好
- 暫時(shí)不開(kāi)源,不全面開(kāi)發(fā)API,github上有dalle-mini庫(kù)
?
相關(guān)工作進(jìn)展、標(biāo)題和作者
10:21
?作者是CLIP的作者和GLIDE的作者,有diffusion模型的專(zhuān)家
?
摘要two stage: prior and decoder
15:36
?prior: 根據(jù)文本生成image embedding
decoder: 根據(jù)image embedding生成圖像
相比較于GAN,更加多樣,有創(chuàng)造力
zero-shot 不需要預(yù)訓(xùn)練
prior和decoder都是diffusion model
?
引言captioned images 帶標(biāo)題的圖像,對(duì)于這種問(wèn)題CLIP模型學(xué)習(xí)能力很強(qiáng),robust,適合fine-tune
19:19
?擴(kuò)散模型,fidelity保真度比如GAN,多樣性比較高;guidance technique可以提高保真度
CLIP模型:文本圖像對(duì),對(duì)比學(xué)習(xí),文本編碼器,圖像編碼器
prior:訓(xùn)練時(shí)用文本特征預(yù)測(cè)圖像特征
自己命名為 unCLIP
- ?圖像生成工作概述GAN, VAE, VQVAE, DALLEGAN:生成器G生成圖片,判別器D判斷真圖片和假圖片,互相較量;優(yōu)點(diǎn)保真度高,缺點(diǎn)訓(xùn)練不穩(wěn)定、多樣性低27:38?
- Auto-encoder: encoder和decoder,希望輸出x‘接近輸入x
denoising AE: 加入噪音Xc
Variational AE: 生成一個(gè)高斯分布,z是prior,x'是likelihood
VQ-VAE: vector quantized,離散化處理分布,用codebook代替,類(lèi)似于聚類(lèi)中心; fq是quantized features
DALL-E:圖像文本對(duì),過(guò)VQVAE,文本特征和圖像特征concat;推理時(shí)自回歸
?
diffusion model前向擴(kuò)散:對(duì)圖片加T次正態(tài)分布的噪音
41:30
?reverse diffusion: 反向擴(kuò)散
U-Net: encoder, decoder, 前后大小一致
?
擴(kuò)散模型的演變DDPM: 預(yù)測(cè)residual/noise
46:15
?time embedding: 表示走到哪一步了
- ?總結(jié)擴(kuò)散模型有time step的概念50:30?
- ?classifier guided diffusion同時(shí)訓(xùn)練圖像分類(lèi)器,用梯度幫助擴(kuò)散模型采樣和生成,提升了寫(xiě)實(shí)性分?jǐn)?shù)54:14?
- ?DALLE2訓(xùn)練數(shù)據(jù)集:圖像文本對(duì)01:02:23?
- 結(jié)構(gòu):piror和decoder
- ?應(yīng)用和結(jié)果根據(jù)圖片,生成類(lèi)似風(fēng)格的圖片01:11:18?
- 圖像內(nèi)插
- 圖像和文本內(nèi)插
- ?局限性和結(jié)語(yǔ)不能把物體和屬性結(jié)合在一起:CLIP不了解邏輯關(guān)系,只會(huì)比較相似度01:17:27?
- BPE編碼器,使得生成文字不好
- 細(xì)節(jié)不夠高清
標(biāo)簽: