【AI繪畫】深入理解Stable Diffusion!站內(nèi)首個(gè)深入教程,3...

寫個(gè)筆記,這個(gè)是給已經(jīng)看完需要復(fù)盤的人用的
(主要也是本人自用)
記得給秋葉這個(gè)視頻一個(gè)大大的三連,我這個(gè)筆記就不用給了,留給秋葉就好
先更一下前面的地方過審先,后續(xù)的部分會(huì)補(bǔ)上
如有錯(cuò)誤還請糾正,會(huì)進(jìn)行修改的
Stable Diffusion后續(xù)會(huì)簡稱為SD
1. SD模型基礎(chǔ)架構(gòu)原理解析
上半部分
(上半部分可以不怎么看,平常用的功能都是在下半部分)

這張圖是SD的前身,Latent Diffusion論文提出的結(jié)構(gòu)
Latent Diffusion 是機(jī)器學(xué)習(xí)模型旨在通過將數(shù)據(jù)集映射到較低維的潛在空間來學(xué)習(xí)數(shù)據(jù)集的底層結(jié)構(gòu)(網(wǎng)上找的不一定準(zhǔn)確)


Pixel Space (像素空間)
我們平時(shí)所在的圖片都會(huì)在這里

經(jīng)過這個(gè)左邊的e和d就是VAE


Latent Space(潛空間)

Conditioning(條件作用)
作為一個(gè)條件輸入,包括我們平時(shí)常用的text,也就是文本輸入
下半部分



Cross attention (交叉注意力層)
交叉注意力可以通過在推理過程中修改擴(kuò)散模型的內(nèi)部注意力圖來更精細(xì)地控制提示,無需用戶輸入掩碼,并且性能損失最小(與剪輯引導(dǎo)相比),并且無需對擴(kuò)散模型進(jìn)行額外的訓(xùn)練或微調(diào)
(網(wǎng)上找的不一定準(zhǔn)確)

下方黃色框框里的整個(gè)架構(gòu)是叫U-Net
UN-et是U型編碼器-解碼器網(wǎng)絡(luò)架構(gòu)

平常迭代的地方是在U-net左側(cè)的框框
Step代表了迭代的次數(shù)
平常生成圖片的時(shí)候會(huì)通過text經(jīng)過以下圖,圈的藍(lán)色框框

經(jīng)過的時(shí)候可以把這個(gè)當(dāng)成是生成條件,通過cross attention ,然后和u-net進(jìn)行結(jié)合去引導(dǎo)SD的生成圖片
這些過程都是在Latent Space,也就是在潛空間里運(yùn)作的
那為什么要在潛空間里運(yùn)作呢??
潛空間可以把它理解為一個(gè)壓縮過的空間
直接原因就是計(jì)算算力可能會(huì)不夠用
小總結(jié)
上半部分是從給正常圖片,然后增加噪聲得到一張混亂噪聲圖片,這個(gè)部分是用來訓(xùn)練用的
下半部分才是正常用生成圖片的部分
2.