常用SD高清放大算法說明
ESRGAN算法 ESRGAN是Enhanced Super-Resolution Generative Adversarial Network的縮寫,是一種基于生成對抗網(wǎng)絡(luò)(GAN)的圖像超分辨率算法。其主要思想是通過學(xué)習(xí)低分辨率(LR)圖像與其高分辨率(HR)對應(yīng)物之間的映射,來實(shí)現(xiàn)從LR圖像到HR圖像的映射過程,從而實(shí)現(xiàn)圖像的超分辨率。相較于傳統(tǒng)的基于插值的超分辨率算法,ESRGAN可以生成更加清晰、細(xì)節(jié)更加豐富的高分辨率圖像。ESRGAN的訓(xùn)練數(shù)據(jù)集通常包括低分辨率圖像及其對應(yīng)的高分辨率圖像,其訓(xùn)練過程中通過生成器網(wǎng)絡(luò)(Generator)和判別器網(wǎng)絡(luò)(Discriminator)相互對抗,以提高生成器的超分辨率效果。
ESRGAN_4x是一種基于超分辨率技術(shù)的圖像增強(qiáng)算法。它是ESRGAN算法的一種改進(jìn)版本,可以將低分辨率的圖像通過神經(jīng)網(wǎng)絡(luò)模型增強(qiáng)到4倍的分辨率。ESRGAN_4x算法主要利用超分辨率技術(shù)中的單圖像超分辨率重建方法,通過對低分辨率圖像進(jìn)行學(xué)習(xí)和訓(xùn)練,學(xué)習(xí)到圖像的高頻細(xì)節(jié)信息,然后將這些信息用于重建高分辨率圖像。相比于傳統(tǒng)的插值方法,ESRGAN_4x算法在增強(qiáng)圖像的細(xì)節(jié)信息和保留圖像質(zhì)量方面有了明顯的提升。
LDSR算法 LDSR是一種用于圖像超分辨率的深度學(xué)習(xí)算法,其全稱為"Deep Laplacian Pyramid Super-Resolution"。LDSR算法通過學(xué)習(xí)圖像的低分辨率版本和高分辨率版本之間的關(guān)系來實(shí)現(xiàn)圖像的超分辨率。LDSR算法采用了一種名為"深度拉普拉斯金字塔"的方法,該方法可以將原始圖像分解為多個(gè)圖像金字塔,以便更好地捕捉圖像的細(xì)節(jié)和結(jié)構(gòu)。 LDSR算法的核心思想是使用深度學(xué)習(xí)網(wǎng)絡(luò)來學(xué)習(xí)輸入圖像的低分辨率版本與高分辨率版本之間的映射關(guān)系。具體來說,LDSR算法將輸入圖像的低分辨率版本作為網(wǎng)絡(luò)的輸入,將高分辨率版本作為網(wǎng)絡(luò)的輸出,并訓(xùn)練網(wǎng)絡(luò)以最小化兩者之間的差異。LDSR算法采用了深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)來實(shí)現(xiàn)這一目標(biāo)。 LDSR算法具有高精度、高效率、易于實(shí)現(xiàn)等優(yōu)點(diǎn),在圖像超分辨率等領(lǐng)域得到了廣泛應(yīng)用。
R-ESRGAN 4x+算法 R-ESRGAN 4x+是一種圖像超分辨率重建算法。其全稱為"Real-Time Enhanced Super-Resolution Generative Adversarial Network 4x+",是一種基于生成式對抗網(wǎng)絡(luò)(GAN)的算法,是 ESRGAN(Enhanced Super-Resolution Generative Adversarial Networks)的改進(jìn)版本之一。它通過引入殘差連接和遞歸結(jié)構(gòu),改進(jìn)了 ESRGAN 的生成器網(wǎng)絡(luò),并使用 GAN(Generative Adversarial Networks)進(jìn)行訓(xùn)練。R-ESRGAN 4x+ 在提高圖像分辨率的同時(shí),也可以增強(qiáng)圖像的細(xì)節(jié)和紋理,并且生成的圖像質(zhì)量比傳統(tǒng)方法更高。它在許多圖像增強(qiáng)任務(wù)中都取得了很好的效果,比如圖像超分辨率、圖像去模糊和圖像去噪等。
R-ESRGAN 4x+ Anime6B算法 R-ESRGAN 4x+ Anime6B 是一種基于超分辨率技術(shù)的圖像增強(qiáng)算法,主要用于提高動漫圖像的質(zhì)量和清晰度。它基于 R-ESRGAN 4x+ 算法,并使用了 Anime6B 數(shù)據(jù)集進(jìn)行訓(xùn)練。Anime6B 數(shù)據(jù)集是一個(gè)專門用于動漫圖像處理的數(shù)據(jù)集,其中包含了大量不同風(fēng)格、不同質(zhì)量的動漫圖像,使得算法可以適應(yīng)不同類型的動漫圖像。 R-ESRGAN 4x+ Anime6B 算法主要通過提取圖像特征、生成高分辨率圖像和優(yōu)化來實(shí)現(xiàn)圖像增強(qiáng)。具體來說,它采用了一種名為殘差塊的結(jié)構(gòu)來提取圖像的高級特征,然后通過反卷積和上采樣等方法生成高分辨率圖像。最后,通過對生成的圖像進(jìn)行優(yōu)化和后處理,進(jìn)一步提高圖像的質(zhì)量和清晰度。 R-ESRGAN 4x+ Anime6B 算法在動漫圖像增強(qiáng)領(lǐng)域具有較高的準(zhǔn)確性和效果,并且可以應(yīng)用于不同類型的動漫圖像處理,如動畫制作、漫畫制作等。
SwinIR_4x SwinIR_4x是一種基于Swin Transformer的圖像超分辨率重建算法,可將低分辨率圖像放大4倍,生成高分辨率圖像。Swin Transformer是一種新型的Transformer模型,相對于傳統(tǒng)的Transformer模型,在處理圖像等二維數(shù)據(jù)時(shí),具有更好的并行性和更高的計(jì)算效率。SwinIR_4x通過引入Swin Transformer和局部自適應(yīng)模塊(LAM)來提高圖像重建的質(zhì)量和速度。其中,局部自適應(yīng)模塊用于提高圖像的局部細(xì)節(jié),從而增強(qiáng)圖像的真實(shí)感和清晰度。SwinIR_4x被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,特別是圖像重建、圖像增強(qiáng)和圖像超分辨率等方面。
Lanczos算法 Lanczos是一種用于對稱矩陣的特征值分解的算法。在機(jī)器學(xué)習(xí)中,Lanczos算法通常用于實(shí)現(xiàn)特征值分解的近似算法,例如用于計(jì)算大規(guī)模數(shù)據(jù)集中的主成分分析(PCA)或矩陣逆運(yùn)算。Lanczos算法的基本思路是利用正交矩陣將原始矩陣變換為一個(gè)三對角矩陣,然后使用迭代方法找到這個(gè)三對角矩陣的特征值和特征向量。由于三對角矩陣的維度通常比原始矩陣小得多,因此Lanczos算法可以大大加速特征值分解的計(jì)算過程。
Nearest算法 Nearest算法(最近鄰算法)是一種常見的機(jī)器學(xué)習(xí)算法,用于分類和回歸問題。在分類問題中,最近鄰算法根據(jù)樣本之間的距離將新樣本分配給最相似的已知樣本所屬的類別。在回歸問題中,最近鄰算法通過找到與新樣本最相似的已知樣本來預(yù)測輸出值。 最近鄰算法通常包括兩個(gè)步驟:首先計(jì)算新樣本與已知樣本之間的距離或相似度,然后根據(jù)最相似的已知樣本的標(biāo)簽或值進(jìn)行預(yù)測。 最近鄰算法的優(yōu)點(diǎn)是它非常簡單且易于實(shí)現(xiàn),并且對于許多數(shù)據(jù)集而言效果很好。然而,該算法的缺點(diǎn)是它在處理高維數(shù)據(jù)和大規(guī)模數(shù)據(jù)時(shí)的計(jì)算開銷非常大,并且對于噪聲數(shù)據(jù)和類別之間的不平衡性表現(xiàn)較差。
結(jié)論: ESRGAN系列 ESRGAN_4x適用于照片寫實(shí)類(可能出現(xiàn)細(xì)節(jié)過于銳利的效果,但有些人喜歡這樣的風(fēng)格),R-ESRGAN 4x+(全能型),R-ESRGAN 4x+ Anime6B(適用于二次元),R-ESRGAN-General-WDN-4xV3(適用于厚涂插畫) SwinIR_4x SwinIR_4x需要表現(xiàn)光影的厚涂插畫表現(xiàn)優(yōu)于照片和二次元的圖片放大,但遜于R-ESRGAN-General-WDN-4xV3 LDSR LDSR照片寫實(shí)類圖片表現(xiàn)很好,插畫和二次元圖片不行,而且體積很大,速度很慢
Tiled Diffusion 對比Ultimate SD Upscale, 這一的算法更加忠實(shí)于原圖,且產(chǎn)生更少的奇怪結(jié)果。與Ultimate SD Upscale(實(shí)測最佳去噪強(qiáng)度0.3), Tiled Diffusion upscaler: R-ESRGAN 4x+, Tiled Diffusion scale factor: 2, Tiled Diffusion: "{'Method': 'Mixture of Diffusers', 'Latent tile width': 128, 'Latent tile height': 128, 'Overlap': 16, 'Tile batch size': 8, 'Upscaler': 'R-ESRGAN 4x+', 'Scale factor': 2, 'Keep input size': True, 'Noise inverse': True, 'steps': 8, 'renoise strength': 0.5, 'kernel size': 64}" 官方推薦的放大參數(shù)如下,可在此基礎(chǔ)上適當(dāng)調(diào)整 采樣器(Sampler) = Euler a,步數(shù)(steps) = 20,去噪強(qiáng)度(denoise) = 0.35,方法(method) = Mixture of Diffusers,潛變量塊高和寬(Latent tile height & width) = 128,重疊(overlap) = 16,分塊批處理規(guī)模(tile batch size)= 8(如果 CUDA 內(nèi)存不足,請減小塊批量大小)。 另外發(fā)現(xiàn)Tiled Diffusion有一個(gè)選項(xiàng),噪聲反轉(zhuǎn),一般將參數(shù)設(shè)置為步數(shù)5、重繪幅度0.5
他可以讓圖像少一些細(xì)節(jié),但是留下來的主題內(nèi)容格外清晰,有一種厚涂的感覺,效果很棒 原圖、Hires. fix 2x、Tiled Diffusion 2x、Tiled Diffusion 2x后、再2x,提升是巨大細(xì)節(jié)。
Topaz Photo AI修復(fù) 最后在介紹一個(gè)高清修復(fù)軟件Topaz Photo AI,具體怎么下載就自行百度谷歌了,Topaz Photo AI功能非常單一,就是放大像素、去噪和銳化、但是這些都是由AI完成的,其內(nèi)置了一些專門適用于這些場景的模型,而且操作十分簡單,照片丟進(jìn)去就行了,自動檢測照片和修復(fù) 它和上面的高清修復(fù)工作流的區(qū)別是,修復(fù)過程中增加的細(xì)節(jié)還不夠,只能在放大像素的基礎(chǔ)之上增加細(xì)節(jié)(也說明它尊重原圖),而Stable Diffusion增加細(xì)節(jié)的程度大得多,這也導(dǎo)致Stable Diffusion非常慢,而Topaz Photo AI則非常快,不管是什么場景,都建議最后丟進(jìn)Topaz Photo AI進(jìn)行最終修復(fù),缺點(diǎn)是不支持批處理,下面來看看效果如何