SDXL 1.0 Release Announcement
本文由 ChatGPT 根據(jù) https://stability.ai/blog/stable-diffusion-sdxl-1-announcement 總結(jié)生成。
發(fā)布
Stability AI團(tuán)隊(duì)自豪地宣布,他們已經(jīng)發(fā)布了開(kāi)放模型SDXL 1.0,這是文本到圖像生成模型的新一代迭代。在對(duì)SDXL 0.9進(jìn)行了有限的、僅供研究的發(fā)布后,SDXL的全新版本已經(jīng)得到了顯著的改進(jìn),現(xiàn)已成為全球最優(yōu)秀的開(kāi)放圖像生成模型。
優(yōu)勢(shì)
SDXL 1.0不僅是Stability AI的旗艦圖像模型,也是圖像生成領(lǐng)域最優(yōu)秀的開(kāi)放模型。經(jīng)過(guò)對(duì)各種模型的深度測(cè)試,結(jié)果顯示人們更傾向于選擇由SDXL 1.0生成的圖像。這一研究結(jié)果來(lái)自于在Discord上對(duì)實(shí)驗(yàn)?zāi)P偷膸状M(jìn)行了數(shù)周的偏好數(shù)據(jù)收集,以及來(lái)自外部的測(cè)試數(shù)據(jù)。
圖像生成能力
SDXL能夠生成幾乎任何藝術(shù)風(fēng)格的高質(zhì)量圖像,是實(shí)現(xiàn)照片真實(shí)感的最佳開(kāi)放模型。用戶可以生成獨(dú)特的圖像,而不需要由模型賦予任何特定的“feel”,從而確保了風(fēng)格的絕對(duì)自由。SDXL 1.0特別適合生動(dòng)和準(zhǔn)確的顏色,與其前身相比,具有更好的對(duì)比度、光照和陰影,所有這些都是在原生的1024x1024分辨率中實(shí)現(xiàn)的。
概念生成能力
此外,SDXL能夠生成圖像模型難以呈現(xiàn)的概念,例如手和文本或空間排列的構(gòu)圖(例如,背景中的女人在追趕前景中的狗)。
語(yǔ)言理解能力
SDXL只需要幾個(gè)詞就可以創(chuàng)建復(fù)雜、詳細(xì)和美觀的圖像。用戶不再需要調(diào)用像“masterpiece”這樣的限定詞來(lái)獲取高質(zhì)量的圖像。此外,SDXL可以理解像“The Red Square”(一個(gè)著名的地方)和“red square”(一個(gè)形狀)之間的概念差異。
架構(gòu)設(shè)計(jì)
SDXL 1.0是任何開(kāi)放訪問(wèn)圖像模型中參數(shù)數(shù)量最大的之一,基于一個(gè)創(chuàng)新的新架構(gòu)構(gòu)建,由一個(gè)3.5B參數(shù)的base model和一個(gè)6.6B參數(shù)的refiner組成。
完整的模型由一個(gè)mixture-of-experts pipeline組成,用于latent diffusion:在第一步中,base model生成(noisy)latents,然后進(jìn)一步用專門(mén)用于最后去噪步驟的refinement model進(jìn)行處理。注意,base model也可以作為一個(gè)獨(dú)立的模塊使用。
這種兩階段的架構(gòu)允許在圖像生成中保持穩(wěn)健性,而不會(huì)妨礙速度或需要過(guò)多的計(jì)算資源。SDXL 1.0應(yīng)該能在具有8GB VRAM的消費(fèi)者GPU或者隨時(shí)可用的云實(shí)例上有效工作。
SDXL目前還不支持圖像控制,但是即將到來(lái)。