16倍!又一個(gè)強(qiáng)到無(wú)敵的放大插件(腳本)StableSR,推薦!
?。∽鳛槟_本?使用,在【圖生圖】--【腳本】? 里面才能找到!??!
網(wǎng)盤(pán)下載地址:
【完整打包】下載地址? https://pan.quark.cn/s/f6cf07fada85
StableSR插件(含插件模型)+基礎(chǔ)模型
1、下載后把壓縮包內(nèi)的目錄解壓到插件目錄【extensions】即可
2、下載v2-1_512-ema-pruned基礎(chǔ)模型(大模型)放到models\Stable-diffusion里
3、使用的時(shí)候基礎(chǔ)模型一定要切換成v2-1_512-ema-pruned
?可配合Tiled Diffusion和Tiled VAE性能更強(qiáng)大。
翻譯:大華說(shuō)AI
原文:https://github.com/pkuliyi2015/sd-webui-stablesr/blob/master/README_CN.md
StableSR - Stable Diffusion WebUI
StableSR 是由 Jianyi Wang 等人提出的強(qiáng)力超分辨率項(xiàng)目。
本倉(cāng)庫(kù)將 StableSR 項(xiàng)目遷移到 Automatic1111 WebUI。
功能
高保真圖像放大:
不修改人物臉部的同時(shí)添加非常細(xì)致的細(xì)節(jié)和紋理
適合大多數(shù)圖片(真實(shí)或動(dòng)漫,攝影作品或AIGC,SD 1.5或Midjourney圖片...)
較少的顯存消耗:
注意,sdp可能會(huì)不明原因炸顯存。建議使用xformers。
我移除了官方實(shí)現(xiàn)中顯存消耗高的模塊。
剩下的模型比ControlNet Tile模型小得多,需要的顯存也少得多。
當(dāng)結(jié)合Tiled Diffusion & VAE時(shí),你可以在有限的顯存(例如,<12GB)中進(jìn)行4k圖像放大。
小波分解顏色修正:
StableSR官方實(shí)現(xiàn)有明顯的顏色偏移,這一問(wèn)題在分塊放大時(shí)更加明顯。
我實(shí)現(xiàn)了一個(gè)強(qiáng)大的后處理技術(shù),有效地匹配放大圖像與原圖的顏色。請(qǐng)看小波分解顏色修正例子。
使用
1. 安裝
??方法 1: 官方市場(chǎng)
打開(kāi)Automatic1111 WebUI -> 點(diǎn)擊“擴(kuò)展”選項(xiàng)卡 -> 點(diǎn)擊“可用”選項(xiàng)卡 -> 找到“StableSR” -> 點(diǎn)擊“安裝”
??方法 2: URL 安裝

打開(kāi) Automatic1111 WebUI -> 點(diǎn)擊 "Extensions" 標(biāo)簽頁(yè) -> 點(diǎn)擊 "Install from URL" 標(biāo)簽頁(yè) -> 輸入?https://github.com/pkuliyi2015/sd-webui-stablesr.git?-> 點(diǎn)擊 "Install"
2. 必須模型
你必須使用 StabilityAI 官方的 Stable Diffusion V2.1 512?EMA?模型(約 5.21GB)
雖然StableSR需要一個(gè)SD2.1的模型權(quán)重,但你仍然可以放大來(lái)自SD1.5的圖片。NSFW圖片不會(huì)被模型扭曲,輸出質(zhì)量也不會(huì)受到影響。
你可以從?HuggingFace?下載
模型下載地址:https://huggingface.co/stabilityai/stable-diffusion-2-1-base/tree/main


放入 stable-diffusion-webui/models/Stable-Diffusion/ 文件夾
下載 StableSR 模塊
官方資源:HuggingFace?(約1.2G)。請(qǐng)注意這是一個(gè)zip文件,同時(shí)包含StableSR模塊和可選組件VQVAE.
下載地址:https://huggingface.co/Iceclear/StableSR/resolve/main/weibu_models.zip
我的資源:<GoogleDrive> <百度網(wǎng)盤(pán)-提取碼aguq>
百度網(wǎng)盤(pán)下載:https://pan.baidu.com/s/1Nq_6ciGgKnTu0W14QcKKWg?pwd=aguq
把StableSR模塊(約400M大?。┓湃?stable-diffusion-webui/extensions/sd-webui-stablesr/models/ 文件夾
3. 可選組件
安裝?Tiled Diffusion & VAE?擴(kuò)展
原始的 StableSR 對(duì)大于 512 的大圖像容易出現(xiàn) OOM。
為了獲得更好的質(zhì)量和更少的 VRAM 使用,我們建議使用 Tiled Diffusion & VAE。
使用官方 VQGAN VAE
官方資源:同2中的鏈接
我的資源:<GoogleDrive> <百度網(wǎng)盤(pán)-提取碼83u9>
把VQVAE(約750MB大?。┓旁谀愕?stable-diffusion-webui/models/VAE 中
4. 擴(kuò)展使用
在 WebUI 的頂部,選擇你下載的 v2-1_512-ema-pruned 模型。
切換到 img2img 標(biāo)簽。在頁(yè)面底部找到 "Scripts" 下拉列表。
選擇 StableSR 腳本。
點(diǎn)擊刷新按鈕,選擇你已下載的 StableSR 檢查點(diǎn)。
選擇一個(gè)放大因子。
上傳你的圖像并開(kāi)始生成(無(wú)需提示也能工作)。
推薦使用 Euler a 采樣器,CFG值<=2,步數(shù) >= 20。
如果生成圖像尺寸 > 512,我們推薦使用 Tiled Diffusion & VAE,否則,圖像質(zhì)量可能不理想,VRAM 使用量也會(huì)很大。
這里是官方推薦的 Tiled Diffusion 設(shè)置。
方法 = Mixture of Diffusers
隱空間Tile大小 = 64,隱空間Tile重疊 = 32
Tile批大小盡可能大,直到差一點(diǎn)點(diǎn)就炸顯存為止。
Upscaler必須選擇None。
下圖是24GB顯存的推薦設(shè)置。
對(duì)于4GB的設(shè)備,只需將Tiled Diffusion Latent tile批處理大小改為1,Tiled VAE編碼器Tile大小改為1024,解碼器Tile大小改為128。
SDP注意力優(yōu)化可能會(huì)導(dǎo)致OOM(內(nèi)存不足),因此推薦使用xformers。
除非你有深入的理解,否則你不要改變Tiled Diffusion & Tiled VAE中的其他設(shè)置。這些參數(shù)對(duì)于StableSR基本上是最優(yōu)解。?


5. 參數(shù)解釋
什么是 "Pure Noise"?
Pure Noise也就是純?cè)肼?,指的是從完全隨機(jī)的噪聲張量開(kāi)始,而不是從你的圖像開(kāi)始。這是 StableSR 論文中的默認(rèn)做法。
啟用這個(gè)選項(xiàng)時(shí),腳本會(huì)忽略你的重繪幅度設(shè)置。產(chǎn)出將會(huì)是更詳細(xì)的圖像,但也會(huì)顯著改變顏色和銳度。
禁用這個(gè)選項(xiàng)時(shí),腳本會(huì)開(kāi)始添加一些噪聲到你的圖像。即使你將去噪強(qiáng)度設(shè)為1,結(jié)果也不會(huì)那么的細(xì)節(jié)(但可能更和諧好看)。參見(jiàn)?對(duì)比圖。
如果禁用Pure Noise,推薦重繪幅度設(shè)置為1
什么是"顏色修正"?
這是為了緩解來(lái)自StableSR和Tile處理過(guò)程中的顏色偏移問(wèn)題。
AdaIN簡(jiǎn)單地匹配原圖和結(jié)果圖的顏色統(tǒng)計(jì)信息。這是StableSR官方算法,但常常效果不佳。
Wavelet將原圖和結(jié)果圖分解為低頻和高頻,然后用原圖的低頻信息(顏色)替換掉結(jié)果圖的低頻信息。該算法對(duì)于不均勻的顏色偏移非常強(qiáng)力。算法來(lái)自GIMP和Krita,對(duì)每張圖像需要幾秒鐘的時(shí)間。
啟用顏色修正時(shí),原圖也會(huì)出現(xiàn)在您的預(yù)覽窗口中,但不會(huì)被自動(dòng)保存。
6. 重要問(wèn)題
為什么我的結(jié)果和官方示例不同?
這不是你或我們的錯(cuò)。
如果正確安裝,這個(gè)擴(kuò)展有與 StableSR 相同的 UNet 模型權(quán)重。
如果你安裝了可選的 VQVAE,整個(gè)模型權(quán)重將與融合權(quán)重為 0 的官方模型相同。
但是,你的結(jié)果將不如官方結(jié)果,因?yàn)椋?/p>
官方 VQVAE 解碼器將一些編碼器特征作為輸入。
然而,在實(shí)踐中,我發(fā)現(xiàn)這些特征對(duì)于大圖像來(lái)說(shuō)非常大。 (>10G 用于 4k 圖像,即使是在 float16!)
因此,我移除了 VAE 解碼器中的 CFW 組件。由于這導(dǎo)致了對(duì)細(xì)節(jié)的較低保真度,我將嘗試將它作為一個(gè)選項(xiàng)添加回去。
官方倉(cāng)庫(kù)進(jìn)行 100 或 200 步的 legacy DDPM 采樣,并使用自定義的時(shí)間步調(diào)度器,采樣時(shí)不使用負(fù)提示。
然而,WebUI 不提供這樣的采樣器,必須帶有負(fù)提示進(jìn)行采樣。這是主要的差異。
采樣器差異:
VQVAE 解碼器差異:
許可
此項(xiàng)目在以下許可下授權(quán):
S-Lab License 1.0.
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License,由于使用了 NVIDIA SPADE 模塊。
免責(zé)聲明
此擴(kuò)展中的所有代碼僅供研究目的。
嚴(yán)禁販?zhǔn)鄞a和權(quán)重
致謝
感謝 Jianyi Wang 等人提出的 StableSR 方法