AIGC: Textual Inversion 筆記
Inversion
假設(shè)我們手里有一個(gè)生成模型 (比如說(shuō),一個(gè)無(wú)條件的?GAN),這個(gè)生成模型可以將?latent?
?轉(zhuǎn)化為一幅圖像
. 那么,上述過(guò)程的逆操作(Inversion)就是,給出一幅圖像
, 找到這幅圖像所對(duì)應(yīng)的
. 換句話說(shuō)就是——找到最佳的
?, 使?
和?
?兩者之間的距離最小。
Inversion 的一種應(yīng)用是,在保持圖像的構(gòu)圖不變的情況下,(通過(guò)操作 latent )對(duì)原圖像進(jìn)行操作——比如說(shuō),將白天改成晚上,改變面部表情,等等。
Textual Inversion
接下來(lái)進(jìn)入到 "Textual Inversion" (以下簡(jiǎn)稱(chēng) TI)。
TI 所做的事情,簡(jiǎn)單地說(shuō)就是——我們想要生成某個(gè)物體X的圖像(比如,某個(gè)網(wǎng)紅),但是物體X不在我們的訓(xùn)練集里面,我們也不知道如何描述這個(gè)物體。我們不希望針對(duì)這個(gè)物體X重新訓(xùn)練一遍模型,而是希望在一個(gè)預(yù)訓(xùn)練好的模型上面,找到這么一個(gè)"單詞" 去代表這個(gè)物體。然后,我們將這個(gè)"單詞"放到我們的"句子"里面,就可以生成和這個(gè)物體X有關(guān)的圖像。

本文所用原材料是一個(gè) Latent Diffusion Model(2112.10752),比如 Stable Diffusion;一個(gè)文字編碼模型,負(fù)責(zé)將輸入文字轉(zhuǎn)化為向量;最后是一些目標(biāo)對(duì)象的圖片。我們的目標(biāo)是找到最優(yōu)的 embedding?, 使得?
?最小化。

代碼可參考 Github 上面 chenxwh 的 replicate-sd-textual-inversion.

估計(jì)是目前AIGC幾篇文章里面最短的一篇了??。