【AI繪畫】全新模型 IF 發(fā)布?Stability AI公司下屬DeepFloyd實驗室開源模型
IF 模型發(fā)布了,由Stability AI公司下屬的DeepFloyd實驗室制作。
這是一個基于Diffusion模型的全新AI繪畫模型,擁有很強大的能力。

IF是一個模塊化、級聯(lián)的像素擴散模型。他和我們一直在玩的stable diffusion不同,是一個在像素空間內(nèi)進行的擴散模型。這是否會是正確的方向?之后可以拭目以待了。
說實話,Google的Imagen就是和這個模型差不多的結(jié)構(gòu),我不好評價到底哪個好。這個新的IF模型對配置要求很高,latent diffusion系列(指sd)強就強在了配置需求低
能力簡介
標準文生圖能力:

Zero-shot Image-to-Image Translation
零樣本的圖像風格轉(zhuǎn)換

Super Resolution
超分辨率

Zero-shot Inpainting
零樣本的局部重繪

模型詳解
模塊化:
DeepFloyd IF由幾個模塊(圖像生成、超分辨率)組成,其在一個體系結(jié)構(gòu)中的相互作用產(chǎn)生協(xié)同效應。
級聯(lián):
DeepFloyd IF以級聯(lián)方式模擬高分辨率數(shù)據(jù),使用一系列在不同分辨率下單獨訓練的模型。該過程從生成獨特低分辨率樣本的基礎(chǔ)模型開始,然后通過連續(xù)的超分辨率模型進行上采樣,以產(chǎn)生高分辨率圖像。
擴散:
DeepFloyd IF的基礎(chǔ)和超分辨率模型是擴散模型,其中使用步驟的馬爾可夫鏈將隨機噪聲注入數(shù)據(jù),然后將過程反轉(zhuǎn)以從噪聲生成新的數(shù)據(jù)樣本。
像素:
DeepFloyd IF在像素空間中工作。擴散是在像素級別上實現(xiàn)的,不同于潛在擴散模型(如stable diffusion使用潛空間)。
文本編碼器部分為 T5-XXL-1.1
具體的模型工作流程如圖所示

配置需求
根據(jù)上方的介紹,這個模型除文本編碼器以外,至少還需要兩個模型共同工作才可以正常使用。
IF-I 部分為基礎(chǔ)圖像生成,64x64分辨率
IF-II 部分為圖像擴大 128x128分辨率
(可選)IF-III 部分圖像繼續(xù)擴大 或使用 stable x4 超分模型,1024x1024分辨率。
16GB 顯存:IF-I-XL (4.3B text to 64x64 base module) & IF-II-L (1.2B to 256x256 upscaler module)
24GB 顯存:IF-I-XL (4.3B text to 64x64 base module) & IF-II-L (1.2B to 256x256 upscaler module) & Stable x4 (to 1024x1024 upscaler)