散文網(wǎng) » 生活 »日常 » SDXL 1.0 Release Announcement

SDXL 1.0 Release Announcement

2023-07-29 22:13 作者:宿愿賜 0人讀過(guò) | 我要投稿

本文由 ChatGPT 根據(jù) https://stability.ai/blog/stable-diffusion-sdxl-1-announcement 總結(jié)生成。

發(fā)布

Stability AI團(tuán)隊(duì)自豪地宣布，他們已經(jīng)發(fā)布了開(kāi)放模型SDXL 1.0，這是文本到圖像生成模型的新一代迭代。在對(duì)SDXL 0.9進(jìn)行了有限的、僅供研究的發(fā)布后，SDXL的全新版本已經(jīng)得到了顯著的改進(jìn)，現(xiàn)已成為全球最優(yōu)秀的開(kāi)放圖像生成模型。

優(yōu)勢(shì)

SDXL 1.0不僅是Stability AI的旗艦圖像模型，也是圖像生成領(lǐng)域最優(yōu)秀的開(kāi)放模型。經(jīng)過(guò)對(duì)各種模型的深度測(cè)試，結(jié)果顯示人們更傾向于選擇由SDXL 1.0生成的圖像。這一研究結(jié)果來(lái)自于在Discord上對(duì)實(shí)驗(yàn)?zāi)Ｐ偷膸状M(jìn)行了數(shù)周的偏好數(shù)據(jù)收集，以及來(lái)自外部的測(cè)試數(shù)據(jù)。

圖像生成能力

SDXL能夠生成幾乎任何藝術(shù)風(fēng)格的高質(zhì)量圖像，是實(shí)現(xiàn)照片真實(shí)感的最佳開(kāi)放模型。用戶可以生成獨(dú)特的圖像，而不需要由模型賦予任何特定的“feel”，從而確保了風(fēng)格的絕對(duì)自由。SDXL 1.0特別適合生動(dòng)和準(zhǔn)確的顏色，與其前身相比，具有更好的對(duì)比度、光照和陰影，所有這些都是在原生的1024x1024分辨率中實(shí)現(xiàn)的。

概念生成能力

此外，SDXL能夠生成圖像模型難以呈現(xiàn)的概念，例如手和文本或空間排列的構(gòu)圖（例如，背景中的女人在追趕前景中的狗）。

語(yǔ)言理解能力

SDXL只需要幾個(gè)詞就可以創(chuàng)建復(fù)雜、詳細(xì)和美觀的圖像。用戶不再需要調(diào)用像“masterpiece”這樣的限定詞來(lái)獲取高質(zhì)量的圖像。此外，SDXL可以理解像“The Red Square”（一個(gè)著名的地方）和“red square”（一個(gè)形狀）之間的概念差異。

架構(gòu)設(shè)計(jì)

SDXL 1.0是任何開(kāi)放訪問(wèn)圖像模型中參數(shù)數(shù)量最大的之一，基于一個(gè)創(chuàng)新的新架構(gòu)構(gòu)建，由一個(gè)3.5B參數(shù)的base model和一個(gè)6.6B參數(shù)的refiner組成。

完整的模型由一個(gè)mixture-of-experts pipeline組成，用于latent diffusion：在第一步中，base model生成（noisy）latents，然后進(jìn)一步用專門(mén)用于最后去噪步驟的refinement model進(jìn)行處理。注意，base model也可以作為一個(gè)獨(dú)立的模塊使用。

這種兩階段的架構(gòu)允許在圖像生成中保持穩(wěn)健性，而不會(huì)妨礙速度或需要過(guò)多的計(jì)算資源。SDXL 1.0應(yīng)該能在具有8GB VRAM的消費(fèi)者GPU或者隨時(shí)可用的云實(shí)例上有效工作。

SDXL目前還不支持圖像控制，但是即將到來(lái)。

標(biāo)簽：