由AI繪畫模型引發(fā)的思考
AI繪畫的底層邏輯
輸入:用戶可以通過(guò)文本、語(yǔ)音、手繪草圖等方式輸入自己想要繪制的內(nèi)容或主題,例如“一只貓?jiān)诓莸厣贤嫠!薄?/span>
編碼:AI系統(tǒng)會(huì)將用戶的輸入轉(zhuǎn)換為一種特征向量或編碼,這個(gè)編碼包含了用戶輸入的語(yǔ)義信息和風(fēng)格信息,例如“貓”、“草地”、“玩?!钡?。
等深度學(xué)習(xí)模型來(lái)實(shí)現(xiàn)的。這些模型通常需要大量的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)如何生成逼真和多樣化的圖片。
輸出:AI系統(tǒng)會(huì)將優(yōu)化后的圖片輸出給用戶,用戶可以查看、保存或分享圖片。用戶也可以對(duì)圖片進(jìn)行反饋或修改,以改進(jìn)AI系統(tǒng)的性能和效果。

深度學(xué)習(xí)模型
? ? ?什么是深度學(xué)習(xí)模型?
深度學(xué)習(xí)模型是一種用于解決復(fù)雜問(wèn)題的機(jī)器學(xué)習(xí)模型,它由多個(gè)層次的神經(jīng)網(wǎng)絡(luò)組成,可以從數(shù)據(jù)中自動(dòng)提取特征和規(guī)律。深度學(xué)習(xí)模型有以下的特點(diǎn):
。
。
。

GANs是一種由生成器(Generator)和判別器(Discriminator)組成的深度學(xué)習(xí)模型,它們相互競(jìng)爭(zhēng),生成器試圖生成逼真的圖片,判別器試圖區(qū)分真實(shí)圖片和生成圖片。通過(guò)不斷地訓(xùn)練,生成器可以學(xué)習(xí)到數(shù)據(jù)的分布,并產(chǎn)生新的樣本。
混合是指將不同的GANs結(jié)合起來(lái),利用它們各自的優(yōu)勢(shì)和特點(diǎn),例如不同的風(fēng)格、主題、分辨率等。混合的方式有很多種,例如加權(quán)平均、融合、拼接等?;旌峡梢蕴岣呱蓤D片的質(zhì)量和符合度。

VAE
VAE(Variational Autoencoder)是一種基于自編碼器(Autoencoder)的深度學(xué)習(xí)模型。與傳統(tǒng)的自編碼器不同,VAE不僅可以學(xué)習(xí)輸入數(shù)據(jù)的壓縮表示,還可以學(xué)習(xí)數(shù)據(jù)的分布,因此可以用于生成新的樣本數(shù)據(jù)。
VAE的關(guān)鍵思想是將輸入數(shù)據(jù)視為從潛在空間中的一些隱變量生成的結(jié)果,這些隱變量構(gòu)成了潛在空間的編碼。為了學(xué)習(xí)這個(gè)潛在空間的分布,VAE使用了一種稱為變分推斷(Variational Inference)的方法。
,VAE將輸入數(shù)據(jù)分解為兩個(gè)部分:一個(gè)潛在空間的編碼,以及從該編碼生成的數(shù)據(jù)。這個(gè)過(guò)程可以用一個(gè)編碼器網(wǎng)絡(luò)和一個(gè)解碼器網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。編碼器網(wǎng)絡(luò)將輸入數(shù)據(jù)轉(zhuǎn)換為潛在空間中的均值和方差,然后從該分布中采樣以獲得潛在編碼。解碼器網(wǎng)絡(luò)將潛在編碼轉(zhuǎn)換回原始數(shù)據(jù)。

定義了模型參數(shù),包括輸入數(shù)據(jù)的維度、潛在空間的維度、編碼器和解碼器中間層的維度、訓(xùn)練輪數(shù)和批量大小等。
定義編碼器網(wǎng)絡(luò),包括輸入層、中間層和輸出層。其中,中間層使用ReLU激活函數(shù),輸出層分別輸出均值和方差。
定義采樣函數(shù),從潛在分布中采樣一個(gè)編碼。這個(gè)函數(shù)將在編碼器網(wǎng)絡(luò)中使用。
使用Lambda層將采樣函數(shù)添加到編碼器網(wǎng)絡(luò)中,將均值和方差轉(zhuǎn)換為潛在編碼。
定義解碼器網(wǎng)絡(luò),包括輸入層、中間層和輸出層。其中,中間層使用ReLU激活函數(shù),輸出層使用Sigmoid激活函數(shù)。
將編碼器和解碼器組成整個(gè)VAE模型。
定義VAE的損失函數(shù),包括重構(gòu)損失和KL散度。其中,重構(gòu)損失使用二元交叉熵?fù)p失函數(shù),KL散度用于衡量潛在編碼和標(biāo)準(zhǔn)正態(tài)分布之間的差異。
使用訓(xùn)練數(shù)據(jù)訓(xùn)練VAE模型。
安裝stable-diffusion-webui UI
安裝深度學(xué)習(xí)模型(放入stable-diffusion-webui/models/Stable-diffusion)
[安裝網(wǎng)站] ? ?https://civitai.com/?
安裝lore模型(Lore模型通過(guò)學(xué)習(xí)真實(shí)圖像的分布特征,能夠生成高分辨率、高質(zhì)量的自然場(chǎng)景圖像。) ?(放入stable-diffusion-webui/models/lora)
啟動(dòng)使用
成功圖片展示



