最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

AIGC: SDEdit (Stochastic Differential Editing) 筆記

2023-09-09 17:27 作者:剎那-Ksana-  | 我要投稿

上一個(gè)文章介紹了擴(kuò)散模型的圖像修復(fù),這次順勢介紹一下擴(kuò)散模型的 img2img. 論文(2108.01073)里面的一些符號喜歡用函數(shù)表示,這里全部改成通用的下標(biāo)形式了。

Img2img 的任務(wù),左側(cè)為輸入圖像,右側(cè)為輸出圖像

從回顧SGM開始

這里,先回顧一下?Score-based Generative Models?(2011.13456). 對于擴(kuò)散的正向加噪過程,我們可以有以下的通用形式(假設(shè)擴(kuò)散項(xiàng)只與時(shí)間有關(guān)):

d%5Cmathbf%7Bx%7D%3D%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)dt%2Bg(t)d%5Cmathbf%7Bw%7D

對于 VP-SDE (Variance Preserving SDE), 我們有??%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)%3D-%5Cfrac%7B1%7D%7B2%7D%5Cbeta(t)%5Cmathbf%7Bx%7D?和?g(t)%3D%5Csqrt%7B%5Cbeta(t)%7D. 對于 VE-SDE (Variance Exploding SDE), 我們有?%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)%3D0?和?g(t)%3D%5Csqrt%7B%5Cfrac%7Bd%5B%5Csigma%5E2(t)%5D%7D%7Bdt%7D%7D.

而對于每一個(gè)正向加噪過程,我們都有一個(gè)對應(yīng)的逆向去噪過程:

d%5Cmathbf%7Bx%7D%3D%5B%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)-g(t)%5E2%5Cnabla_%7B%5Cmathbf%7Bx%7D%7D%20%5Clog%20p_t(x)%5Ddt%20%2B%20g(t)d%5Cbar%7B%5Cmathbf%7Bw%7D%7D

其中,%5Cnabla_%7B%5Cmathbf%7Bx%7D%7D%20%5Clog%20p_t(x)?被稱作分?jǐn)?shù)函數(shù) (score function), 我們使用一個(gè)模型?s_%7B%5Ctheta%7D(x_t%2C%20t)?去"學(xué)習(xí)"這個(gè)分?jǐn)?shù)函數(shù)。通常我們沒法求上述 SDE 的解析解,所以我們將連續(xù)時(shí)間?t%5Cin%20%5B0%2C1%5D?做一個(gè)離散化,然后利用一些數(shù)值解法來求解。

所以,論文中(對于?VE-SDE)采用了 Euler-Maruyama 的數(shù)值解法:

%7B%5Cmathbf%7Bx%7D%7D_t%20%3D%20%7B%5Cmathbf%7Bx%7D%7D_%7Bt%20%2B%20%5CDelta%20t%7D%20%2B%20(%5Csigma%5E2_%7Bt%7D-%20%5Csigma%5E2_%7Bt%20%2B%20%5CDelta%20t%7D)s_%5Ctheta%20(%5Cmathbf%7Bx%7D_t%2C%20t)%2B%5Csqrt%7B%5Csigma%5E2_t-%5Csigma%5E2_%7Bt%20%2B%20%5CDelta%20t%7D%7D%5Cmathbf%7Bz%7D

其中,

%5Csigma_t%3D%5Cbegin%7Bcases%7D%200%2C%20%26%5Cquad%20t%20%3D%200%5C%5C%0A%20%20%20%20%5Csigma_%5Ctext%7Bmin%7D%20%5Cleft(%5Cfrac%7B%5Csigma_%5Ctext%7Bmax%7D%7D%7B%5Csigma_%5Ctext%7Bmin%7D%7D%20%5Cright)%5Et%2C%20%26%5Cquad%20t%20%3E%200%20%5Cend%7Bcases%7D

Img2Img

接下來是 SDEdit 的初始設(shè)定,我們的任務(wù)是一個(gè) img2img ——將一個(gè)圖片轉(zhuǎn)換為另外一個(gè)圖片。原圖我們稱作引導(dǎo)圖像(guide),用?%5Cmathbf%7Bx%7D%5E%7B(g)%7D?來表示,轉(zhuǎn)換后的圖像我們用 %5Cmathbf%7Bx%7D_0 表示。

我們發(fā)現(xiàn),解 SDE 其實(shí)未必要從 t%3D1 出發(fā),而是可以從中途的任一時(shí)間點(diǎn)開始。所以,我們選取一個(gè)時(shí)間點(diǎn) t_0, 對?%5Cmathbf%7Bx%7D%5E%7B(g)%7D?加噪聲:%5Cmathbf%7Bx%7D%5E%7B(g)%7D_%7Bt_0%7D%5Csim%20%5Cmathcal%7BN%7D(%5Cmathbf%7Bx%7D%5E%7B(g)%7D%3B%20%5Csigma%5E2_%7Bt_0%7DI).?

然后,我們利用上述的數(shù)值解法,從?%5Cmathbf%7Bx%7D%5E%7B(g)%7D_%7Bt_0%7D?進(jìn)行逆向去噪過程,然后獲得圖像 %5Cmathbf%7Bx%7D_0.?

這一整個(gè)過程,我們把它稱作?%5Ctext%7BSDEdit%7D%20(x%5E%7B(g)%7D%3Bt_0%2C%5Ctheta).

我們把接近原圖像的程度稱作是 faithful, 把生成圖片的質(zhì)量稱作是?realistic. 那么我們可以得到如下的一個(gè)圖像:

橫軸是 t0, 藍(lán)色的線是 KID, 衡量了合成的圖片質(zhì)量(越低越好), 橙色的線是 L2 距離,衡量了生成圖像和原圖像的相似程度(越低越好). 所以從圖像上來看,t0 設(shè)置在 0.3 到 0.6 之間是最佳的范圍

很顯然,如果我們把?t_0?設(shè)置為 0, 意味著我們沒有加入任何的噪聲,那么我們最終生成的圖像就是我們的引導(dǎo)圖像(意味著 L2 距離為 0);如果我們把?t_0?設(shè)置為 1,那么就相當(dāng)于純高斯噪聲開始去噪,所以最終生成的圖像將和引導(dǎo)圖像毫無關(guān)聯(lián)。

遮罩編輯

我們在上面的基礎(chǔ)上再進(jìn)一步,希望只"編輯"源圖像的一小部分,那么我們就需要有一個(gè)遮罩,我們把它稱作?%5COmega%20%5Cin%20%5C%7B0%2C1%5C%7D%5E%7BC%5Ctimes%20H%5Ctimes%20W%7D.?

首先我們還是選擇一個(gè)時(shí)間點(diǎn)?t_0 對原圖像 %5Cmathbf%7Bx%7D_0 進(jìn)行加噪,得到?%5Cmathbf%7Bx%7D_%7Bt_0%7D.?

然后我們針對遮罩的部分,和被遮罩的部分,這兩個(gè)部分進(jìn)行分別處理。對于遮罩的部分,我們利用上述的?%5Ctext%7BSDEdit%7D%20?進(jìn)行去噪,然后將每一步去噪的結(jié)果和遮罩 %5COmega?進(jìn)行元素間相乘。用公式表達(dá),即?%5COmega%20%5Codot%20(%5Cmathbf%7Bx%7D_t%2B%5Cepsilon%5E2s_%5Ctheta(%5Cmathbf%7Bx%7D_t%2Ct)%2B%5Cepsilon%20z).

而對于未遮罩的部分,我們則直接進(jìn)行一個(gè)加噪,即??(1-%5COmega)%20%5Codot%20(%5Cmathbf%7Bx%7D_0%20%2B%5Csigma_t%20%5Cmathbf%7Bz%7D).

然后我們把上面兩部分相加,就得到了每個(gè)時(shí)間點(diǎn) t 時(shí)對應(yīng)的圖像。

完。

B站公式編輯器經(jīng)常崩潰,所以如果看到 tex parse error 之類的錯(cuò)誤信息時(shí),刷新一下頁面一般能解決。

AIGC: SDEdit (Stochastic Differential Editing) 筆記的評論 (共 條)

分享到微博請遵守國家法律
衡东县| 略阳县| 甘南县| 宜春市| 海南省| 杭锦后旗| 平泉县| 邵阳市| 邻水| 来安县| 融水| 黄浦区| 灵石县| 汕头市| 巴楚县| 鲁山县| 桂林市| 中阳县| 龙山县| 陆河县| 新昌县| 屯昌县| 普兰店市| 昌平区| 汝城县| 泰和县| 苗栗县| 尼木县| 肃南| 通渭县| 云林县| 滕州市| 余庆县| 阿勒泰市| 佛学| 海林市| 武威市| 永登县| 玉溪市| 丹阳市| 札达县|