AI繪圖學(xué)習(xí)筆記(一)——基本概念
概念介紹
1.Stable Diffusion
直譯為穩(wěn)定擴(kuò)散模型,是一種用于生成圖片的AI算法,同時(shí)也可指運(yùn)用這種算法的AI繪圖軟件。
這個(gè)軟件大致可分為三層,分別是文本編碼器、U-NET和VAE。
文本編碼器的作用是將你給它的輸入(比如文生圖中的tag,圖生圖中的圖片結(jié)構(gòu))轉(zhuǎn)化為軟件能理解的參數(shù)。
U-NET簡(jiǎn)單理解就是生成圖片的算法。
VAE的作用是對(duì)U-NET生成的圖片做后處理,VAE相關(guān)的模型一般是用來(lái)美化圖片,讓圖片更清晰、顏色更艷麗。
2.webUI
一般指的是Stable Diffusion WebUi,簡(jiǎn)稱 SDWebUi,web UI是一個(gè)基于 Gradio 庫(kù)的 Stable Diffusion 瀏覽器界面。
3.大模型(底模型、主模型,基礎(chǔ)模型,base model,check point)
常見大?。?G-7G
主要作用:決定出圖的偏向,是真人寫實(shí)、二次元、建筑、服裝或者其他。
4.微調(diào)模型
4.1 介紹
主要作用:在主模型的基礎(chǔ)上進(jìn)行微調(diào),以達(dá)到出圖者想要的效果。
舉例說明:出圖者想要繪制一個(gè)美女,也添加了美女tag,軟件繪制的圖也的確算是美女,但不是出圖者喜歡的類型。
在沒有附加模型的情況下,出圖者只能靠大量隨機(jī)重復(fù)以期望軟件繪制出自己喜歡的圖片。
這種情況下,如果出圖者加上合適的附加模型,那么最終出來(lái)的圖大概率就是附件模型指定的效果,這樣就能大大節(jié)約時(shí)間,提高效率。
甚至更極端一點(diǎn),在出圖者心中,只有LYF算美女,也只想出LYF的圖,那么它就可以添加一個(gè)LYF的附件模型,那么軟件出的圖基本上就都是LYF了。
4.2 微調(diào)模型類別
下面這些都是附加模型的類別。雖然這些附加模型理論上能應(yīng)用于在任何調(diào)整需求上,但因?yàn)槟P偷木唧w策略和算法不同,擅長(zhǎng)調(diào)整的方向不同,所以一般都是根據(jù)不同的需求來(lái)選擇不同的模型類別。
不過一般來(lái)說,因?yàn)榧夹g(shù)再不斷進(jìn)步,所以后面出現(xiàn)的模型類別會(huì)優(yōu)于前面的模型類別,所以現(xiàn)在用的最多的是最新出現(xiàn)的lora模型。
Embeddings(嵌入式):也叫textual inversion(文本反轉(zhuǎn)),提示詞打包,可以用別人已經(jīng)訓(xùn)練好的模型在使用很少提示詞的情況下達(dá)成特定的效果。和Lora不同,這個(gè)模型數(shù)據(jù)量小,所以更適合想生成某一個(gè)特定主題,但心里沒什么好的想法,用來(lái)尋找靈感的場(chǎng)景。
常見大小:幾十K
Hypernetworks(超網(wǎng)絡(luò)):基本不再使用,本人也不了解,不多做介紹。
常見大?。?0M~1G
lora:能夠在很小的算力和數(shù)據(jù)集的前提下達(dá)到很好的效果,是目前最流程的模型。因?yàn)閘ora模型能保存的信息更多,在復(fù)刻這一應(yīng)用場(chǎng)景表現(xiàn)更優(yōu)秀,所以現(xiàn)在流程用它來(lái)固定寫實(shí)風(fēng)的人臉,簡(jiǎn)單來(lái)說就是用來(lái)決定臉長(zhǎng)什么樣。
常見大?。?00M左右
5.模型的VAE
一般名字中帶vae,主要用來(lái)美化出圖,一般來(lái)說加載VAE之后圖片會(huì)更精細(xì),更鮮艷。不過有些base?model在訓(xùn)練時(shí)就自帶VAE了,如果加載VAE反而會(huì)變差,這個(gè)要看情況。
6.后綴名
章節(jié)3-5中的模型后綴名可能是ckpt,safetensors,pt三者中的任一一種,所以不能通過后綴名來(lái)判斷模型文件到底是什么模型,目前也沒有通用的判斷方法,所以請(qǐng)?jiān)谙螺d時(shí)注意分類。
ckpt和safetensors實(shí)質(zhì)上是同樣的文件,但因?yàn)楦鱾€(gè)模型算法有安全漏洞,導(dǎo)致普通模型文件ckpt可能攜帶病毒,所以對(duì)ckpt文件進(jìn)行了封裝,變成了更安全的safetensors。
7.其他名詞
DreamBooth:一個(gè)訓(xùn)練繪圖AI的算法,效果很好,但需要大量的數(shù)據(jù)和算力。