AI繪圖之stablediffusion從零到商業(yè)實(shí)戰(zhàn)超細(xì)教程(一)
序言
??????? (文中出現(xiàn)的專業(yè)名詞您不用理會(huì),更不用去深究它的含義,你只需要把它當(dāng)作一個(gè)符號(hào),而對(duì)于需要了解的名詞,我會(huì)用較通俗的語言進(jìn)行解釋,以便零基礎(chǔ)的同學(xué)理解)
?????????? 在開始學(xué)習(xí)之前,我們應(yīng)當(dāng)簡(jiǎn)單了解一下AI繪圖的發(fā)展歷史及其對(duì)社會(huì)的影響,這是很有必要的,因?yàn)橹贫ㄈ魏文繕?biāo)前,您一定先得明白目標(biāo)的方向和意義。
一、AI繪圖的發(fā)展歷史。
?????????? AI繪圖的出現(xiàn)時(shí)間可能比很多人想象的要早。計(jì)算機(jī)是上世紀(jì)60年代出現(xiàn)的,而就在70年代,一位藝術(shù)家,哈羅德·科恩Harold Cohen(畫家,加利福尼亞大學(xué)圣地亞哥分校的教授) 就開始打造電腦程序“AARON”進(jìn)行繪畫創(chuàng)作。與當(dāng)下 AI 繪畫不同之處在于,ARRON 使用機(jī)械手臂在畫布上進(jìn)行繪畫,而非數(shù)字繪圖。
??????????

AARON利用機(jī)械手臂繪圖
?????????? 2012年,Google兩位大名鼎鼎的AI大神,Andrew Ng和Jef Dean進(jìn)行了一場(chǎng)空前的試驗(yàn)。聯(lián)手使用1.6萬個(gè)CPU訓(xùn)練了一個(gè)當(dāng)時(shí)世界上最大的深度學(xué)習(xí)網(wǎng)絡(luò)。用來指導(dǎo)計(jì)算機(jī)畫出貓臉圖片。這是一次具有突破意義的嘗試,正式開啟了深度學(xué)習(xí)模型支持的AI繪畫這個(gè)“全新”研究方向。
?????????? 2015年 Google發(fā)布的一個(gè)圖像工具深夢(mèng) (Deep Dream)。深夢(mèng)發(fā)布了一系列畫作,一時(shí)吸引了很多眼球。谷歌甚至為這個(gè)深夢(mèng)的作品策劃了一場(chǎng)畫展。但如果較真一下,深夢(mèng)與其說是AI繪畫,更像是一個(gè)高級(jí)AI版濾鏡。同樣在2015年,加拿大蒙特利爾大學(xué)的Ian Goodfellow于2014年提出了生成對(duì)抗網(wǎng)絡(luò)GAN的算法,這個(gè)算法一度成為了AI生成繪畫的主流方向。GAN的原理是通過訓(xùn)練兩個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,一個(gè)生成器(Generator)和一個(gè)判別器(Discriminator),使得生成器可以生成與真實(shí)數(shù)據(jù)相似的新數(shù)據(jù)樣本,并且判別器可以準(zhǔn)確地區(qū)分生成器生成的假樣本和真實(shí)數(shù)據(jù)。
?????????? 2017年,Facebook聯(lián)合羅格斯大學(xué)和查爾斯頓學(xué)院藝術(shù)史系三方合作得到的新模型,號(hào)稱創(chuàng)造性對(duì)抗網(wǎng)絡(luò)CAN,在嘗試輸出一些像是藝術(shù)家作品的圖畫,它們是獨(dú)一無二的,而不是現(xiàn)存藝術(shù)作品的仿品。
?????????? 2021年初,OpenAI發(fā)布了廣受關(guān)注的DALL-E系統(tǒng),其AI繪畫的水平也就一般,但到了這里,AI開始擁有了一個(gè)重要的能力,就是按照輸入的提示進(jìn)行創(chuàng)作。
????? ????? 2022年2月,在GAN技術(shù)路線上遇到瓶頸后,科學(xué)家想出了非常神奇的 Diffusion Model (擴(kuò)散模型)(通俗一點(diǎn)的理解就是計(jì)算機(jī)先生成一幅由無數(shù)噪點(diǎn)-可以直接理解為點(diǎn),然后再根據(jù)我們的要求去除不需要的點(diǎn),最終形成一幅我們?nèi)祟惪梢岳斫獾膱D片,就好比用一層沙子鋪在盤子里,然后扣掉部分沙子就能形成一幅畫了) 的辦法去訓(xùn)練模型:把原圖用馬爾科夫鏈將噪點(diǎn)不斷地添加到其中,最終成為一個(gè)隨機(jī)噪聲圖像,然后讓訓(xùn)練神經(jīng)網(wǎng)絡(luò)把此過程逆轉(zhuǎn)過來,從隨機(jī)噪聲圖像逐漸還原成原圖?;跀U(kuò)散模型的AI繪圖生成器——Disco diffusion開始爆紅,它可以根據(jù)描述場(chǎng)景的關(guān)鍵詞渲染出對(duì)應(yīng)的圖像。
?????????? 至此,AI繪圖翻開了新的篇章,開始往實(shí)際應(yīng)用發(fā)展。
?????????? 2022年3月,一款由Disco diffusion的核心開發(fā)參與建設(shè)的AI生成器Midjouney正式發(fā)布。Midjouney選擇搭載在discord平臺(tái),借助discord聊天式的人機(jī)交互方式,不需要之前繁瑣的操作,也沒有Disco diffusion十分復(fù)雜的參數(shù)調(diào)節(jié),你只需要向聊天窗口輸入文字就可以生成圖像。更關(guān)鍵的是,Midjouney生成的圖片效果非常驚艷,普通人幾乎已經(jīng)很難分辨出它產(chǎn)生的作品,竟然是AI繪畫生成的。

?????????? 2022年8月,一幅使用AI繪畫服務(wù) MidJourney 生成的數(shù)字油畫,,生成它的用戶以這幅畫《Theatre Dopera Spatial》參加美國科羅拉多州博覽會(huì)的藝術(shù)比賽,奪得了第一名。這件事被曝光之后引發(fā)了網(wǎng)絡(luò)上巨大的爭(zhēng)論至今。

?????????? 2022年8月22日stablediffusion首次發(fā)布,由Stability AI、CompVis和Runway合作開發(fā),并得到EleutherAI和LAION的支持。
- stablediffusion的技術(shù)原理是基于latent diffusion model(LDM)的,LDM是一種在2015年推出的擴(kuò)散模型的變體,其目的是消除對(duì)訓(xùn)練圖像的連續(xù)應(yīng)用高斯噪聲,可以將其視為一系列去噪自編碼器。stablediffusion由三個(gè)部分組成:變分自編碼器(VAE)、U-Net和一個(gè)文本編碼器。它使用CLIP text encoder提取的text embeddings(可以理解為文字)作為condition(條件),可以根據(jù)文本的描述產(chǎn)生詳細(xì)圖像,也可以應(yīng)用于其他任務(wù),如內(nèi)補(bǔ)繪制、外補(bǔ)繪制,以及在提示詞指導(dǎo)下產(chǎn)生圖生圖的翻譯。
?????????? stablediffusion的特點(diǎn)是開源免費(fèi)、可本地部署或云端使用、技術(shù)原理清晰、擴(kuò)展應(yīng)用多樣、當(dāng)代藝術(shù)理解好。
?????????? stablediffusion的發(fā)展歷程如下:
??? - 2022年8月22日,stablediffusion 1.0版本發(fā)布,支持以512×512分辨率生成圖像。
?? ?- 2022年9月15日,stablediffusion 1.1版本發(fā)布,修復(fù)了一些bug,并增加了對(duì)float16精度加載權(quán)重的支持。
??? - 2022年10月7日,stablediffusion 2.0版本發(fā)布,引入了以768×768分辨率生成圖像的能力,并增加了無分類指導(dǎo)比例值(classifier-free guidance scale value)這一可配置選項(xiàng)。
??? - 2022年10月18日,Stability AI宣布獲得了1.01億美元超額融資,估值達(dá)10億美元。
??? - 2022年12月7日,stablediffusion 2.1版本發(fā)布,優(yōu)化了代碼結(jié)構(gòu),并增加了對(duì)Dreamstudio云端服務(wù)的支持
二、stablediffusion與midjouney的區(qū)別
?????????? 至此,我們可以看到stablediffusion和midjouney成為了AI繪圖領(lǐng)域兩股主流,代表AI繪圖的最前沿發(fā)展方向,那么我們?nèi)绾卧趦烧咧g選擇呢?我們得看到它們的區(qū)別:
?????????? 1. midjouney的特點(diǎn):
?????????? midjouney是一個(gè)商業(yè)化產(chǎn)品,用戶需要付費(fèi)才能使用,而且只能通過其官方Discord上的Discord機(jī)器人使用。midjouney沒有公布其技術(shù)細(xì)節(jié),但是其生成的圖像效果非常驚艷,普通人幾乎已經(jīng)很難分辨出它產(chǎn)生的作品,竟然是AI繪畫生成的。? ?? midjouney善于適應(yīng)實(shí)際的藝術(shù)風(fēng)格,創(chuàng)造出用戶想要的任何效果組合的圖像。它擅長環(huán)境效果,特別是幻想和科幻場(chǎng)景,看起來就像游戲的藝術(shù)效果。midjouney的提示詞門檻低,不需要特別精細(xì)的描述也可以出不錯(cuò)的圖像。但是缺點(diǎn)是畫面不太受控,而且被BAN的敏感詞非常多,像bare,nude(裸體)這類詞就用不了。
?????????? 2. stablediffusion的特點(diǎn):
?????????? stablediffusion是一個(gè)開源的模型,任何人都可以免費(fèi)使用(但是需要有GPU來跑),也可以部署到GoogleColab和Drive去薅Tesla T4。stablediffusion是基于latent diffusion model(LDM)的條件擴(kuò)散模型,采用CLIP text encoder提取的text embeddings作為condition。stablediffusion對(duì)當(dāng)代藝術(shù)圖像有比較好的理解,可以產(chǎn)生充滿細(xì)節(jié)的藝術(shù)作品。除了文生圖功能外,還支持圖生圖、圖像重繪、個(gè)性化模型訓(xùn)練、可控生成等多種擴(kuò)展應(yīng)用。stablediffusion比較適合生成復(fù)雜的、有創(chuàng)意的插圖。但是缺點(diǎn)是提示詞門檻高,手部問題,Lora的兼容性等等。
?????????? 3.midjouney和stablediffusion的優(yōu)劣
?? midjouney和stablediffusion各有優(yōu)劣之處,具體如下:
??? - midjouney的優(yōu)點(diǎn)是:出圖質(zhì)量高、出圖穩(wěn)定、提示詞簡(jiǎn)單、藝術(shù)風(fēng)格豐富、環(huán)境效果出色。
??? - midjouney的缺點(diǎn)是:收費(fèi)昂貴、只能通過Discord使用、技術(shù)細(xì)節(jié)不透明、畫面不太受控、敏感詞過多。
??? - stablediffusion的優(yōu)點(diǎn)是:開源免費(fèi)、可本地部署或云端使用、技術(shù)原理清晰、擴(kuò)展應(yīng)用多樣、當(dāng)代藝術(shù)理解好。
??? - stablediffusion的缺點(diǎn)是:需要GPU資源、提示詞門檻高、手部問題突出、Lora兼容性差。
?????????? 那么對(duì)于普通人來說,選擇stablediffusion可能比選擇midjouney更合適,原因如下:
??? - stablediffusion是免費(fèi)的,而midjouney是收費(fèi)的,對(duì)于預(yù)算有限的普通人來說,stablediffusion更劃算。
??? - stablediffusion是開源的,而midjouney是閉源的,對(duì)于想要了解AI繪圖技術(shù)原理和細(xì)節(jié)的普通人來說,stablediffusion更透明。
??? - stablediffusion是靈活的,而midjouney是固定的,對(duì)于想要嘗試不同功能和插件的普通人來說,stablediffusion更多樣。
??? - stablediffusion是創(chuàng)新的,而midjouney是成熟的,對(duì)于想要挑戰(zhàn)自己和發(fā)揮想象力的普通人來說,stablediffusion更有趣。
?????????? 總的來說,如果您會(huì)使用midjouney,就相當(dāng)于您學(xué)會(huì)了買車票搭車去某個(gè)地方,你只能選擇路線,而您會(huì)使用stablediffusion,就相當(dāng)于您自己買了一輛車,考了一個(gè)駕照,想去哪里就去哪里,想怎么開車就怎么開車(劃重點(diǎn))。
三、AI繪圖對(duì)社會(huì)的影響
?????????? AI繪圖技術(shù)的出現(xiàn)對(duì)市場(chǎng)和行業(yè)都帶來了很大的變化和影響,但是并不一定會(huì)導(dǎo)致大批人失業(yè)。AI繪圖可以成為設(shè)計(jì)師、插畫師、美術(shù)工作者等創(chuàng)意人士的輔助工具,提高他們的創(chuàng)作效率和質(zhì)量,拓展他們的創(chuàng)作空間和想象力。
?????????? AI繪圖也可以為普通人提供一個(gè)新的娛樂方式和表達(dá)方式,讓他們能夠通過文字描述來創(chuàng)造出自己想要的圖像,享受到創(chuàng)作帶來的快樂和成就感。AI繪圖還可以用于教育、娛樂、社交、商業(yè)等多個(gè)領(lǐng)域,為人們提供更多樣化和個(gè)性化的服務(wù)和體驗(yàn)。
?????????? AI繪圖也可能帶來一些負(fù)面影響和挑戰(zhàn),比如對(duì)于版權(quán)、倫理、審美等方面的問題。AI繪圖可能會(huì)侵犯原創(chuàng)作者的版權(quán),或者被用于制造虛假或有害的信息。AI繪圖也可能會(huì)影響人們對(duì)于藝術(shù)和美學(xué)的認(rèn)識(shí)和評(píng)價(jià),或者導(dǎo)致人們對(duì)于真實(shí)和虛擬之間的界限模糊。
?????????? AI繪圖技術(shù)是當(dāng)今社會(huì)的一個(gè)重要趨勢(shì)和發(fā)展方向,不學(xué)習(xí)AI繪圖可能會(huì)導(dǎo)致一些不利的后果,比如:
??? - 落后于時(shí)代的步伐,失去與AI繪圖相關(guān)的機(jī)會(huì)和競(jìng)爭(zhēng)力,無法適應(yīng)和應(yīng)對(duì)AI繪圖帶來的變化和挑戰(zhàn)。
??? - 缺乏創(chuàng)新和創(chuàng)造力,無法充分發(fā)揮自己的潛能和價(jià)值,無法享受AI繪圖帶來的樂趣和成就感。
??? - 限制了自己的視野和思維,無法理解和欣賞AI繪圖的藝術(shù)和美學(xué),無法與AI繪圖的創(chuàng)作者和用戶進(jìn)行有效的溝通和交流。
?????????? 而學(xué)習(xí)AI繪圖可以帶來一些有利的結(jié)果,比如:
??? - 跟上時(shí)代的潮流,抓住與AI繪圖相關(guān)的機(jī)會(huì)和競(jìng)爭(zhēng)力,能夠適應(yīng)和應(yīng)對(duì)AI繪圖帶來的變化和挑戰(zhàn)。
??? - 增強(qiáng)創(chuàng)新和創(chuàng)造力,能夠充分發(fā)揮自己的潛能和價(jià)值,能夠享受AI繪圖帶來的樂趣和成就感。
??? - 擴(kuò)展了自己的視野和思維,能夠理解和欣賞AI繪圖的藝術(shù)和美學(xué),能夠與AI繪圖的創(chuàng)作者和用戶進(jìn)行有效的溝通和交流。
?????????? 總的來說,AI繪圖是一種利用人工智能技術(shù)生成圖像的方法,它有著悠久而又充滿變革的發(fā)展歷史,它對(duì)社會(huì)產(chǎn)生了深遠(yuǎn)而又復(fù)雜的影響,它有著廣闊而又充滿挑戰(zhàn)的前景,它在很多商業(yè)領(lǐng)域得到了應(yīng)用和利用,它需要我們?nèi)W(xué)習(xí)和掌握。
?????????? 本教程立足實(shí)用性,將從stablediffusion的本地部署、功能介紹、模塊介紹、插件介紹、商業(yè)實(shí)戰(zhàn)等角度帶領(lǐng)大家由淺入深的學(xué)習(xí)stablediffusion,最終達(dá)到學(xué)以致用,讓大家在新興領(lǐng)域分得自己的一杯羹。