【AI繪畫】全新模型 IF 發(fā)布？Stability AI公司下屬DeepFloyd實驗室開源模型

2023-04-29 18:27 作者:秋葉aaaki 0人讀過 | 我要投稿

IF 模型發(fā)布了，由Stability AI公司下屬的DeepFloyd實驗室制作。
這是一個基于Diffusion模型的全新AI繪畫模型，擁有很強大的能力。

IF是一個模塊化、級聯(lián)的像素擴散模型。他和我們一直在玩的stable diffusion不同，是一個在像素空間內(nèi)進行的擴散模型。這是否會是正確的方向？之后可以拭目以待了。

說實話，Google的Imagen就是和這個模型差不多的結(jié)構(gòu)，我不好評價到底哪個好。這個新的IF模型對配置要求很高，latent diffusion系列（指sd）強就強在了配置需求低

能力簡介

標準文生圖能力：

Zero-shot Image-to-Image Translation

零樣本的圖像風格轉(zhuǎn)換

Super Resolution

超分辨率

Zero-shot Inpainting

零樣本的局部重繪

模型詳解

模塊化：
DeepFloyd IF由幾個模塊（圖像生成、超分辨率）組成，其在一個體系結(jié)構(gòu)中的相互作用產(chǎn)生協(xié)同效應。

級聯(lián)：
DeepFloyd IF以級聯(lián)方式模擬高分辨率數(shù)據(jù)，使用一系列在不同分辨率下單獨訓練的模型。該過程從生成獨特低分辨率樣本的基礎(chǔ)模型開始，然后通過連續(xù)的超分辨率模型進行上采樣，以產(chǎn)生高分辨率圖像。

擴散：
DeepFloyd IF的基礎(chǔ)和超分辨率模型是擴散模型，其中使用步驟的馬爾可夫鏈將隨機噪聲注入數(shù)據(jù)，然后將過程反轉(zhuǎn)以從噪聲生成新的數(shù)據(jù)樣本。

像素：
DeepFloyd IF在像素空間中工作。擴散是在像素級別上實現(xiàn)的，不同于潛在擴散模型（如stable diffusion使用潛空間）。

文本編碼器部分為 T5-XXL-1.1

具體的模型工作流程如圖所示

配置需求

根據(jù)上方的介紹，這個模型除文本編碼器以外，至少還需要兩個模型共同工作才可以正常使用。

IF-I 部分為基礎(chǔ)圖像生成，64x64分辨率

IF-II 部分為圖像擴大 128x128分辨率

（可選）IF-III 部分圖像繼續(xù)擴大或使用 stable x4 超分模型，1024x1024分辨率。

16GB 顯存：IF-I-XL (4.3B text to 64x64 base module) & IF-II-L (1.2B to 256x256 upscaler module)
24GB 顯存：IF-I-XL (4.3B text to 64x64 base module) & IF-II-L (1.2B to 256x256 upscaler module) & Stable x4 (to 1024x1024 upscaler)

標簽：