散文網(wǎng) » 科技 »學(xué)習(xí) » AIGC: Textual Inversion 筆記

AIGC: Textual Inversion 筆記

2023-08-01 10:34 作者:剎那-Ksana- 0人讀過(guò) | 我要投稿

Inversion

假設(shè)我們手里有一個(gè)生成模型 $G$ （比如說(shuō)，一個(gè)無(wú)條件的?GAN），這個(gè)生成模型可以將?latent? $z$ ?轉(zhuǎn)化為一幅圖像 $x%3DG(z)$ . 那么，上述過(guò)程的逆操作（Inversion）就是，給出一幅圖像 $x'$ , 找到這幅圖像所對(duì)應(yīng)的 $z'$ . 換句話說(shuō)就是——找到最佳的 $z'$ ?, 使? $G(z')$ 和? $x'$ ?兩者之間的距離最小。

Inversion 的一種應(yīng)用是，在保持圖像的構(gòu)圖不變的情況下，（通過(guò)操作 latent $z$ ）對(duì)原圖像進(jìn)行操作——比如說(shuō)，將白天改成晚上，改變面部表情，等等。

Textual Inversion

接下來(lái)進(jìn)入到 "Textual Inversion" （以下簡(jiǎn)稱(chēng) TI）。

TI 所做的事情，簡(jiǎn)單地說(shuō)就是——我們想要生成某個(gè)物體X的圖像（比如，某個(gè)網(wǎng)紅），但是物體X不在我們的訓(xùn)練集里面，我們也不知道如何描述這個(gè)物體。我們不希望針對(duì)這個(gè)物體X重新訓(xùn)練一遍模型，而是希望在一個(gè)預(yù)訓(xùn)練好的模型上面，找到這么一個(gè)"單詞" $S_*$ 去代表這個(gè)物體。然后，我們將這個(gè)"單詞"放到我們的"句子"里面，就可以生成和這個(gè)物體X有關(guān)的圖像。

一個(gè)簡(jiǎn)單的示意圖，S* 就是上面所謂的單詞，用戶可以將 S* 放入自己定義的句子里面，然后生成對(duì)應(yīng)風(fēng)格的圖片，例如："一個(gè) S* 的背包". （S* 所代表的未必是要一個(gè)物體，也可以是一種風(fēng)格）

本文所用原材料是一個(gè) Latent Diffusion Model（2112.10752），比如 Stable Diffusion；一個(gè)文字編碼模型，負(fù)責(zé)將輸入文字轉(zhuǎn)化為向量；最后是一些目標(biāo)對(duì)象的圖片。我們的目標(biāo)是找到最優(yōu)的 embedding? $v_*$ , 使得? $%5Cmathbb%7BE%7D_%7Bz%5Csim%20%5Cvarepsilon(x)%2Cy%5Csim%20%5Cmathcal%7BN%7D(0%2C1)%2Ct%7D%20%5Cleft%5B%20%7C%7C%5Cepsilon-%5Cepsilon_%5Ctheta(z_t%2Ct%2Cc_%5Ctheta(y))%7C%7C_2%5E2%20%5Cright%5D$ ?最小化。