學習筆記|AI的征程是星辰大海：如何畫一張高清圖

2023-05-29 20:42 作者:鐵華團的黃金船 0人讀過 | 我要投稿

幾年前喜歡寫科幻小說，收到不少《科幻世界》的退稿信，不過這并不妨礙我的創(chuàng)作熱情。

為了讓作品更加飽滿和充實，我甚至嘗試學習素描，希望能畫下我腦海里關于未來的想象。

編輯切換為居中

買了一本《素描從入門到精通》，發(fā)現(xiàn)實際上成了從入門到放棄，一方面自己沒有那么多的精力練習，另一方面畫畫還是需要天分的。

這件事就不了了之。

直到有一天，我熟練掌握了Stable Diffusion，發(fā)現(xiàn)它可以把我的想法轉化為圖像。

編輯切換為居中

Stable Diffusion作為一款開源軟件，有三大門檻，一是硬件，需要一塊還說得過去的N家顯卡；二是安裝和部署，雖然有一鍵安裝包，但配置依然略顯復雜（前文已經(jīng)有了詳細的介紹）；三是和AI的交互，也就是關鍵詞（prompt）。

在我和Stable Diffusion的交流中，發(fā)現(xiàn)前兩個門檻其實都可以很容易的解決，但后一個實在太難了。

那么，如何實現(xiàn)更便捷的交流呢？

一是安裝翻譯插件，可以方便用熟練的母語來表達，翻譯后可能還會有一定的偏差，比如百度文心一言會把總線畫成公交車，就是因為總線和公交車的單詞都是bus，可以根據(jù)生成效果對單詞進行微調，最終實現(xiàn)相對滿意的效果。

二是參考別人的勞動成果。比如在C站看好看的照片（小姐姐，劃掉），然后把他們的提示詞貼過來進行學習，再根據(jù)自己的需要進行修改。

我很想刻畫出一艘龐大的太空戰(zhàn)艦的畫面，我期初扔給Stable Diffusion的關鍵詞很簡單，就是科幻風格、太空飛船。

Stable Diffusion給出的畫面也很簡單，粗糙的一眼假的飛船。

后來發(fā)現(xiàn)模型選擇不夠嚴謹，飛船相關的最好是用動漫和科幻類的模型；再有就是措辭太簡陋。

舉例一組比較好的提示詞：

Future sci-fi urban landscape, high detail, dusk, urban lighting, surreal, high-resolution, urban, modern, futuristic flying cars, silver wing killer style

特意告訴AI，我要銀翼殺手的風格，它居然真的懂。

模型我選擇的是著名的二次元系列：abyssorangemix2SFW_abyssorangemix2Sfw

畫面比較滿意了，但新問題又來了，默認畫面是512*768，相對粗糙，我想要高清版當桌面怎么辦？

有兩個辦法：一是選中高清修復重新算，這個辦法缺點也比較明顯，因為往往是批量出圖，重新算的話會每張畫面都重新算，出圖速度大打折扣，同時還有很大幾率算出和之前完全不同的畫面；二是選中相中的照片，選擇“后期處理”。

在這里可以對單張照片進行“精修”。

AI的放大不是簡單的放大，而是用算法填充了很多細節(jié)，會在細微之處和原圖有所不同。

不同的畫面，也需要選擇不同的算法。

這些算法沒有絕對的優(yōu)劣，可以通過多次嘗試選擇自己喜歡的。

從原理上來說，各個算法都有自己的“特長”。

ESRGAN是Enhanced Super-Resolution Generative Adversarial Network的縮寫，是一種基于生成對抗網(wǎng)絡（GAN）的圖像超分辨率算法。

LDSR是一種用于圖像超分辨率的深度學習算法，其全稱為"Deep Laplacian Pyramid Super-Resolution"。LDSR算法通過學習圖像的低分辨率版本和高分辨率版本之間的關系來實現(xiàn)圖像的超分辨率。

R-ESRGAN 4x+是一種圖像超分辨率重建算法。其全稱為"Real-Time Enhanced Super-Resolution Generative Adversarial Network 4x+"，是一種基于生成式對抗網(wǎng)絡（GAN）的算法，是 ESRGAN（Enhanced Super-Resolution Generative Adversarial Networks）的改進版本之一。

R-ESRGAN 4x+ Anime6B 是一種基于超分辨率技術的圖像增強算法，主要用于提高動漫圖像的質量和清晰度。它基于 R-ESRGAN 4x+ 算法，并使用了 Anime6B 數(shù)據(jù)集進行訓練。Anime6B 數(shù)據(jù)集是一個專門用于動漫圖像處理的數(shù)據(jù)集，其中包含了大量不同風格、不同質量的動漫圖像，使得算法可以適應不同類型的動漫圖像。

一般來說，真人建議使用ESRGAN_4x ，動漫人物使用 R- ESR GAN 4x，而科幻類的場景題材，可以用R- ESR GAN 4x+Anime6GB，實測效果更好。

經(jīng)過重新修復的圖片，雖然和第一次出圖的畫面有些一些變化，但場景還是相似，和腦海里想象的畫面基本一致。