【AI繪畫】當(dāng)我們在訓(xùn)練AI的時(shí)候,究竟在訓(xùn)練什么?AI訓(xùn)練前置知識(一)

本篇文章寫于2022年10月,一些新的訓(xùn)練方法并沒有在本篇專欄~ 包括 Dreambooth、LoRA這兩種比較新的訓(xùn)練方法,以后會寫新的專欄繼續(xù)介紹~

看了這么多教程,從來沒有人講過這些東西,自己寫一個(gè)。
可能很多人已經(jīng)下載到別人分享的、各種地方來源的一些“模型”了,但是他們種類繁多——有pt文件,有圖片格式的文件:甚至大小差別都很大,有的幾十kb,有的要80、90mb左右。
那他們究竟都是什么,有什么區(qū)別?

首先我們要知道,目前來說一般用戶可以訓(xùn)練的有兩種小模型:
一個(gè)叫embedding(Textual Inversion),另外一個(gè)叫hypernetwork。分辨方法就看大小,小的就是embedding,大的就是hypernetwork
當(dāng)然,還有一個(gè)最主要的巨大無比的模型(novelai泄露的那種、我們常說的4g、7g模型)這個(gè)是一般人甚至是實(shí)驗(yàn)室的計(jì)算資源無法訓(xùn)練的,我們暫且不提。
一.?Textual Inversion
首先從Textual Inversion開始介紹。這個(gè)是目前所有訓(xùn)練教程都在教的一個(gè)東西,也是最好訓(xùn)練的,最常見的一種
這個(gè)方法訓(xùn)練出來的模型是embedding,大小約幾十到幾百kb,文件類型可以是.pt,.png,.webp等等。
使用這個(gè)模型的方法就是放在embedding文件夾里,然后在生成圖片的時(shí)候就可以輸入對應(yīng)的tag來使用了。
這個(gè)Textual Inversion究竟是怎么工作的呢?來一起看下面這張圖。(看不懂也不要緊)

我們在生成一張圖片的時(shí)候,要提供prompt(也就是tag)。
然后這些詞會通過一系列的復(fù)雜操作,變成連續(xù)向量的形式來指導(dǎo)AI去生成對應(yīng)的圖片。
embedding訓(xùn)練的過程,就是像在寫一本詞典。在這本“詞典”中,添加一個(gè)詞的解釋?——用他來翻譯AI所不認(rèn)識的詞。來告訴AI:這個(gè)詞、就是指的這個(gè)人物、東西、或者一個(gè)風(fēng)格!
訓(xùn)練的過程就是從一堆給定的圖片中尋找一個(gè)向量,來表示你給的詞語。
然后再當(dāng)讀取到這個(gè)詞語的時(shí)候,AI就知道了:哦 原來這個(gè)詞對應(yīng)的是這個(gè)東西
這個(gè)過程并不會觸及到大模型的網(wǎng)絡(luò)的任何參數(shù)以及權(quán)重,完完全全是作用在從輸入的詞到翻譯成連續(xù)向量的過程上。這也是為什么這個(gè)訓(xùn)練出來的模型會如此之小、一張家用顯卡在一個(gè)小時(shí)左右就可以輕松訓(xùn)練出來1w步數(shù)左右的模型。
這就是“文本反演”(Textual Inversion)——在文本編碼器的嵌入空間(embedding)中找到新的偽詞,使它可以捕獲高級語義和精細(xì)視覺細(xì)節(jié)。[1]
二.?hypernetwork
超網(wǎng)絡(luò)是一種在不接觸任何權(quán)重的情況下微調(diào)模型的概念。簡單說就是用一個(gè)網(wǎng)絡(luò)來生成另外一個(gè)網(wǎng)絡(luò)的參數(shù) [2]
工作原理是:用一個(gè)hypernetwork輸入訓(xùn)練集數(shù)據(jù),然后輸出對應(yīng)模型的參數(shù),最好的輸出是這些參數(shù)能夠使得在測試數(shù)據(jù)集上取得好的效果。
也就是說,他會對整個(gè)模型進(jìn)行微調(diào)、無論是什么tag全部起作用。
具體的東西過于技術(shù)了,有興趣的朋友可以看引用的這篇論文,我就不再過多介紹了(其實(shí)是我太菜不敢教別人)
三.?對比與區(qū)別
說了這么多,那么如何選擇訓(xùn)練哪種?
我自己的評價(jià)是,如果只是想學(xué)個(gè)人物、簡單的畫風(fēng)、一律推薦用Textual Inversion。他能做到只影響部分、甚至是多種不同人物、畫風(fēng)混合等等操作。而且他訓(xùn)練簡單方便、快捷。
hypernetwork訓(xùn)練經(jīng)常就過擬合,寄了,不是很好訓(xùn)練。
四.?引用
[1] Gal R, Alaluf Y, Atzmon Y, et al. An image is worth one word: Personalizing text-to-image generation using textual inversion[J]. arXiv preprint arXiv:2208.01618, 2022.
[2]?Ha D, Dai A, Le Q V. Hypernetworks[J]. arXiv preprint arXiv:1609.09106, 2016.

小知識:長按點(diǎn)贊可以三連投幣~ 你的點(diǎn)贊對我很重要!