重磅:Stability AI發(fā)布Stable Diffusion XL 0.9模型



幾小時前,Stability AI宣布了SDXL 0.9,這是Stable Diffusion文本到圖像模型套件中最先進的開發(fā)。繼4月Stable Diffusion XL測試版成功發(fā)布后,SDXL 0.9在圖像和構(gòu)圖細節(jié)方面比前代產(chǎn)品有了大幅改進。
該模型可以通過ClipDrop訪問,API即將推出。隨著我們進入1.0,研究權(quán)重現(xiàn)在可以使用,7月中旬將公開發(fā)布。
盡管SDXL 0.9能夠在現(xiàn)代消費GPU上運行,但它在生成人工智能圖像的創(chuàng)造性用例方面實現(xiàn)了飛躍。SDXL能夠為電影、電視、音樂和教學視頻生成超現(xiàn)實的創(chuàng)作,并為設(shè)計和工業(yè)應(yīng)用提供進步,使其處于人工智能圖像現(xiàn)實世界應(yīng)用的前沿。
SDXL系列還提供了一系列超越基本文本提示的功能。其中包括圖像對圖像提示(輸入一個圖像以獲得該圖像的變體)、修復(重建圖像的缺失部分)和外涂(構(gòu)建現(xiàn)有圖像的無縫擴展)。
引擎蓋下面是什么?
SDXL 0.9的組成進步的關(guān)鍵驅(qū)動因素是其參數(shù)計數(shù)(模型訓練的神經(jīng)網(wǎng)絡(luò)中所有權(quán)重和偏差的總和)比測試版顯著增加。
SDXL 0.9是所有開源圖像模型中參數(shù)計數(shù)最多的模型之一,擁有3.5B的參數(shù)基礎(chǔ)模型和6.6B的參數(shù)模型集成管道(最終輸出是通過在兩個模型上運行并聚合結(jié)果來創(chuàng)建的)。管道的第二階段模型用于向第一階段的生成輸出添加更精細的細節(jié)。
相比之下,測試版運行在3.1B參數(shù)上,只使用一個模型。
SDXL 0.9在兩個CLIP模型上運行,其中包括迄今為止訓練過的最大的OpenCLIP模型之一(OpenCLIP ViT-G/14),它增強了0.9的處理能力和創(chuàng)建更大深度和1024x1024的更高分辨率的逼真圖像的能力。
SDXL團隊不久將發(fā)布一個研究博客,詳細介紹該型號的規(guī)格和測試。
系統(tǒng)要求
盡管SDXL 0.9具有強大的輸出和先進的型號架構(gòu),但它能夠在現(xiàn)代消費級GPU上運行,只需要一個Windows 10或11或Linux操作系統(tǒng),帶有16GB RAM,一個配備至少8GB VRAM的Nvidia GeForce RTX 20顯卡(等效或更高標準)。Linux用戶還可以使用帶有16GB VRAM的兼容AMD卡。
Beta發(fā)布統(tǒng)計數(shù)據(jù)
自SDXL于4月13日推出測試版以來,我們的Discord社區(qū)收到了近7000名用戶的熱烈響應(yīng)。這些用戶已經(jīng)生成了70多萬張圖像,平均每天超過2萬張。超過54000張圖片已被輸入Discord社區(qū)的“決戰(zhàn)”,3521張SDXL圖片被提名為獲勝者。
可利用性
SDXL 0.9現(xiàn)在可以在Clipdrop by Stability AI平臺上使用。Stability AI API和DreamStudio客戶將于6月26日(星期一)訪問該模型,以及其他領(lǐng)先的圖像生成工具,如NightCafe。
SDXL 0.9將僅在有限的時間內(nèi)提供用于研究目的,以收集反饋并在正式公開發(fā)布之前對模型進行全面完善。運行它的代碼將在Github上公開。
如果研究人員想訪問這些模型,請使用以下鏈接申請:SDXL-0.9-Base模型和SDXL-0.9-Refiner。請使用您的學術(shù)電子郵件登錄您的HuggingFace帳戶以請求訪問。請記住,目前,SDXL 0.9僅用于研究目的。
接下來是什么?
SDXL 0.9之后將于7月中旬全面公開發(fā)布SDXL 1.0(時間待定)。
許可證
SDXL0.9是在非商業(yè)、僅限研究的許可證下發(fā)布的,并受其使用條款的約束。