AI作畫離線版V5.2,升級(jí)torch 2.0速度更快、清華ChatGLM2、看圖聊天、AI文字生成音樂

本月V5.2帶來了非常多的功能,主要是清華大學(xué)類chatGLM2、VisualGLM、AI文字生成音樂、SD動(dòng)畫等功能。
V5.2版本:2023-7-7
(V5.2版本僅支持win10、win11)
1、chatglm修改為chatglm2代;?
2、同步更新最新的facebook開源的文字生成音樂項(xiàng)目audiocraft,支持30s以上時(shí)長(zhǎng)不失真生成,支持批量選擇音頻和設(shè)置描述;?
3、圖片說話音頻驅(qū)動(dòng)功能與官方同步最新,效果更好;?
4、SD模型融合、局部修改模式bug修改完成;?
5、支持常見寬高比設(shè)置;?
6、支持導(dǎo)入webui圖片的參數(shù),導(dǎo)入配置文件里選擇圖片即可自動(dòng)填充到軟件參數(shù)設(shè)置框里;?
7、SD動(dòng)畫支持提前終止、保存與讀取配置、預(yù)覽等功能,修復(fù)3D模式斷網(wǎng)不能使用的bug;?
8、升級(jí)到pytorch2.0 CUDA11.8和xformers0.0.17,極高+xformers模式下,速度更快,顯存占用更少;?
9、清華ChatGLM更新到最新模型,模型包提供6G、8G、13G顯存模型包,按照自己顯存下載對(duì)應(yīng)模型包即可;?
10、SD動(dòng)畫支持到deforum stable diffusion 0.7版本,參數(shù)更為詳盡,動(dòng)畫模式記得描述如下格式:
10:::a?
20:::b?
40:::c?
a、b、c為三個(gè)子描述,回車換行,三引號(hào)前面的數(shù)字為描述開始幀,比如描述b是從20-39幀;?
11、修復(fù)視頻補(bǔ)幀某些用戶不可用bug;?
12、修復(fù)視頻轉(zhuǎn)文字大模型下,長(zhǎng)時(shí)間無說話人轉(zhuǎn)換慢的問題;?
13、修復(fù)40系列顯卡,伴奏分離和清華chatglm不能使用的bug;?
14、輸出目錄按鈕整合成一個(gè)菜單。
01
軟件概覽
軟件名字叫做:AI作畫離線版V5.2,基于GitHub上的開源項(xiàng)目Disco Diffusion與Stable Diffusion以及眾多開源項(xiàng)目。
如下,軟件主界面,還是以操作簡(jiǎn)單為主:
▼

02?軟件安裝
軟件非常大,因?yàn)橛泻芏嚯x線模型(模型按照功能劃分,可按需下載),下載完成后,按照網(wǎng)盤里的pdf教程即可進(jìn)行體驗(yàn)。
軟件界面如下所示:

03?軟件功能
介紹功能一:DD(Disco Diffusion)作畫
1、描述詞設(shè)定:如下默認(rèn)的描述,每段(回車換行算一段)都是同一描述的不同權(quán)重關(guān)鍵詞。

隊(duì)列模式下的描述詞設(shè)定:當(dāng)如下勾選了隊(duì)列模式后,通過固定的句式,可以生成大量的配置文件,也就可以實(shí)現(xiàn)生成多套參數(shù)的圖。

比如我的文字描述這樣描述:a beautiful girl by {400|1|藝術(shù)家},當(dāng)點(diǎn)擊保存設(shè)置后就會(huì)生成400個(gè)藝術(shù)家的不同配置文件。注意這個(gè)格式{400|1|藝術(shù)家}中的{}、|這些不能缺少,完全按照固定格式來,400代表生成400個(gè)配置文件,1代表by一個(gè)藝術(shù)家名字(如果設(shè)置成2就代表by兩個(gè)藝術(shù)家名字混搭),藝術(shù)家代表的是軟件目錄下【描述風(fēng)格庫(kù)】文件夾下的藝術(shù)家.csv文件,而藝術(shù)家.csv文件如下所示,兩列數(shù)據(jù):

軟件支持各位自建這種語料庫(kù),大家可以復(fù)制csv建立副本,然后在副本里修改,注意也是按照兩列格式來,第一列是描述,第二列是解釋。比如下面我建的顏色.csv文件,簡(jiǎn)單寫了一下,也是一定嚴(yán)格兩列來哈,且都放在軟件目錄下的【描述風(fēng)格庫(kù)】文件夾。

2、幫助相關(guān):對(duì)于大多數(shù)參數(shù),都加入了幫助按鈕,鼠標(biāo)劃到對(duì)應(yīng)幫助圖標(biāo),駐留即可顯示參數(shù)含義,如下所示,當(dāng)然大多數(shù)都是翻譯的官方文檔,加入自己的一點(diǎn)注解。

3、參考圖:參考圖也人性化了,直接點(diǎn)擊按鈕選擇圖片即可,注意看參數(shù)旁邊的問號(hào),一般加入?yún)⒖紙D時(shí),skip_steps這個(gè)參數(shù)需要設(shè)置大一些。

4、AI作畫模型選擇:參數(shù)設(shè)置里提供兩種繪圖Diffusion模型引擎選擇,原版DD、像素版DD以及其他自定義的PT格式模型,如下圖設(shè)置:

如下演示的是國(guó)畫模型:


5、AI圖片描述解析:如下按鈕點(diǎn)擊,選擇圖片,稍等片刻即可顯示出描述,當(dāng)然這個(gè)描述有所出入,但當(dāng)作描述來用畫出的圖也確實(shí)不錯(cuò)。

下面演示幾張圖,解析出來的描述:
a group of iron man standing next to each other in the ocean, a comic book panel by Paul Pelletier, featured on deviantart, antipodeans, marvel comics, reimagined by industrial light and magic, imax

a painting of a landscape with mountains and trees, a detailed matte painting by Katsukawa Shunsen, pixiv, shin hanga, ukiyo-e, matte painting, detailed painting

功能二:SD(Stable Diffusion)作畫
SD作畫功能和DD功能基本一致,同樣支持隊(duì)列模式、參考圖等功能,SD作畫速度更快,且畫得更加具象,下面主要介紹SD的參數(shù)設(shè)置。同樣SD也是具有文字描述和參考圖功能,還有一些其他參數(shù),大家可以鼠標(biāo)懸停到參數(shù)旁邊的問號(hào)就會(huì)有說明。
1、描述詞設(shè)定:描述詞句式基本和DD一樣,但SD作畫多了個(gè)負(fù)描述,負(fù)描述默認(rèn)可以不寫,負(fù)描述如果寫,就代表不想讓繪畫結(jié)果出現(xiàn)的元素。

支持寫個(gè)開頭,然后如下點(diǎn)擊AI生成描述進(jìn)行續(xù)寫描述,目前有兩種自動(dòng)寫描述引擎了:

2、繪圖參數(shù):圖片尺寸和DD一樣,需要64的倍數(shù),當(dāng)然隨便填寫尺寸也行,軟件會(huì)自動(dòng)轉(zhuǎn)換;繪圖步數(shù)和DD類似,不過SD步數(shù)20就夠了;繪制圖片輪數(shù)代表每次畫幾張圖;描述相關(guān)度默認(rèn)數(shù)值就可以,當(dāng)然可以嘗試10以上數(shù)值;隨機(jī)種子默認(rèn)0,代表每次種子隨機(jī),設(shè)置大于零的固定值,如果其他參數(shù)一樣,則SD出圖完全一樣,這點(diǎn)和DD不一樣哈。

3、顯存占用模式選擇:軟件提供不同顯存占用模式:超級(jí)低、非常低、高、極高,以及帶著xformers加速模塊模式,加速模塊效果拔群,速度很快,顯存占用也低了很多。

4、16代黑圖問題:針對(duì)GTX 16系列,諸如1660等顯卡,SD作畫會(huì)黑圖,需要勾選如下選項(xiàng),可以正常出畫。

5、參考圖:和DD一樣,SD也支持參考圖,不過參數(shù)比較簡(jiǎn)單,基本上就是導(dǎo)入原圖,修改描述,設(shè)置圖片差異度參數(shù)即可,注意差異度參數(shù)范圍0-1,1代表與參考圖差異最大哈。另外,自適應(yīng)尺寸比較人性化,比如參考圖尺寸寬高為1024x512,繪圖參數(shù)尺寸設(shè)置512×512,默認(rèn)無,代表不自適應(yīng),最終出的圖尺寸為512×512,固定寬代表,以繪圖參數(shù)尺寸設(shè)置的寬512為準(zhǔn),參考圖寬高比2比1,高自動(dòng)修改為256,最終輸出512x256的圖。

如下,試試SD參考圖,實(shí)現(xiàn)真人二次元效果或者其他的一些效果:



6、動(dòng)畫:SD動(dòng)畫選擇2D,即可開啟動(dòng)畫模式,動(dòng)畫也可以設(shè)置參考圖,支持動(dòng)畫變化角度、縮放大小、xyz軸移位等。

文字描述需要如下格式,每一次換行都是一個(gè)過渡描述,每個(gè)過渡描述開頭數(shù)字,代表動(dòng)畫幀數(shù),比如第一行就是前10幀a描述。
10:::a?
20:::b?
40:::c?
7、SD、LORA、VAE模型選擇:支持選擇第三方ckpt、safetensors格式的SD模型、VAE模型以及LORA模型(還支持Lycoris類的LORA模型),如下所示:

8、局部修改:如下點(diǎn)擊局部修改按鈕,可以實(shí)現(xiàn)涂鴉部分區(qū)域?qū)崿F(xiàn)局部修改功能,此功能效果也比較有限,換臉什么的還可以,如下演示:


9、模型融合:點(diǎn)擊SD模型融合按鈕,如下支持不同ckpt或者safetensors格式的SD模型按照比例融合,融合后的模型兼具兩個(gè)模型的特點(diǎn)。

10、DeepDanbooru二次元TAG解析:如下點(diǎn)擊按鈕,支持二次元圖片的TAG解析,諸如NovelAI等模型比較有需求:

功能三:CN作畫
CN就是目前大名鼎鼎的ControlNet,目前軟件同步到CN 1.1版本,總體使用方式和SD差別不大。CN的精髓在于下圖,不同的這些模型:
這些模型的作用就是針對(duì)不同的參考圖進(jìn)行創(chuàng)作,諸如Lineart模型就是針對(duì)線稿參考圖,然后實(shí)現(xiàn)線稿上色或者二次創(chuàng)作的目的,如下演示,選擇Lineart_Anime這個(gè)二次元線稿的CN模型配上二次元SD模型和描述:

如下選擇openpose這個(gè)人體姿勢(shì)的CN模型,左圖為原圖,中間為識(shí)別原圖的骨骼圖,右圖為生成的圖。

如下SEG語義分割的CN模型效果:

如下MLSD這種識(shí)別建筑線稿的CN模型效果:

如下為超分辨率的Tile的CN模型,真的是模糊圖重繪神器:

功能四:T2I作畫
T2I作畫和ControlNet實(shí)現(xiàn)的結(jié)果基本相似,套路也是一樣,如下也是提供眾多模型:

在這里就不做重復(fù)演示了,如下官方的介紹圖:

功能五:圖片/視頻AI高清放大
設(shè)置不同的放大模型和圖片放大倍數(shù),高清放大圖片輸出目錄為軟件目錄\images_out\AI_ultra_HD,當(dāng)輸入的圖片尺寸很大時(shí),容易超顯存,這時(shí)我們修改拼圖大小這個(gè)參數(shù)即可,比如設(shè)置拼圖大小512時(shí),6G顯存選擇realesrgan_x4plus模型對(duì)1920*1080圖片進(jìn)行4倍放大測(cè)試不超顯存。支持2-10倍放大。

AI高清放大是一個(gè)獨(dú)立功能,軟件主界面圖片處理菜單選擇圖片/視頻高清放大選項(xiàng),選擇圖片或者視頻(支持批量),即可高清放大圖片或者視頻。如下,小圖經(jīng)過高清放大的對(duì)比效果,二次元和三次元都能勝任。


功能六:老照片修復(fù)
軟件主界面圖片處理菜單選擇老照片修復(fù)選項(xiàng),選擇圖片(支持批量),即可高清修復(fù)老照片,僅對(duì)人像進(jìn)行高清修復(fù)。如下,經(jīng)過高清人臉修復(fù)對(duì)比效果動(dòng)圖演示:



功能七:圖片/視頻上色
軟件主界面圖片處理菜單選擇圖片/視頻上色,選擇黑白視頻或者圖片即可實(shí)現(xiàn)上色,支持批量。如下參數(shù)設(shè)置里,可以選擇不同上色模型,二次元模型專注二次元線稿上色:

如下動(dòng)圖演示,上色前后的效果:



功能八:圖片說話
圖片說話功能,可以實(shí)現(xiàn)導(dǎo)入的圖轉(zhuǎn)換成說話人視頻的形式,支持音頻和視頻驅(qū)動(dòng),默認(rèn)音頻驅(qū)動(dòng)說話。

軟件主界面點(diǎn)擊圖片處理菜單選擇圖片說話,選擇圖片(支持批量),轉(zhuǎn)換圖片成如下的視頻形式。

功能九:AI圖片轉(zhuǎn)3D
AI圖片轉(zhuǎn)3D輸出視頻目錄:軟件目錄\video;AI圖片轉(zhuǎn)3D也是一個(gè)獨(dú)立免費(fèi)功能,如下參數(shù)設(shè)置可以設(shè)置生成視頻時(shí)長(zhǎng)和攝像頭位置(位置一般不改):

軟件主界面圖片處理菜單選擇圖片轉(zhuǎn)3D,選擇圖片(支持批量),轉(zhuǎn)換圖片成視頻形式,這個(gè)轉(zhuǎn)換速度較慢,5到30分鐘一張圖?;旧暇褪窃黜?xiàng)目介紹的這種效果,一張精圖轉(zhuǎn)換成3D的效果,不過相比原作我做了改進(jìn),支持原圖尺寸大小的視頻。

功能十:摳圖
軟件主界面圖片處理菜單選擇摳圖,選擇圖片(支持批量),即可進(jìn)行背景和人物分割,如下演示:

功能十一:二次元生成
軟件主界面圖片處理菜單選擇二次元生成,即可繪制上百?gòu)埗卧獔D片:

如下可在參數(shù)設(shè)置里,設(shè)置各種參數(shù)以生成不同類型的二次元小姐姐:

功能十二:三次元生成
軟件主界面圖片處理菜單選擇三次元生成,即可繪制上百?gòu)埲卧獔D片:

如下可在參數(shù)設(shè)置里,設(shè)置各種參數(shù)以生成不同類型的三次元圖片:

功能十三:AI寫小說
軟件主界面小說聊天菜單選擇AI寫小說|聊天界面,如下點(diǎn)擊AI寫小說按鈕,設(shè)置開頭,即可續(xù)寫不同輪數(shù)的文字:

點(diǎn)擊訓(xùn)練小說,如下可以選擇自己的小說語料txt,訓(xùn)練自己的模型:

還支持清華大學(xué)Chatglm,注意這個(gè)至少需要6G顯存,且加載模型較慢,請(qǐng)耐心等待,可以實(shí)現(xiàn)類似Chatgpt的形式:

還支持清華大學(xué)Visualglm,上傳圖片,用圖描述形式,如下演示:

功能十四:伴奏人聲分離
軟件主界面音視頻處理選擇伴奏人聲分離,選擇歌曲(支持批量),即可自動(dòng)分離人聲、伴奏、鼓點(diǎn)和低音,效果很厲害。若顯存4G及以下,可以如下參數(shù)設(shè)置勾選低顯存占用模式即可:

功能十五:音視頻轉(zhuǎn)文字
軟件主界面音視頻處理選擇音視頻轉(zhuǎn)文字,選擇音頻或者視頻,即可進(jìn)行語音識(shí)別,輸出字幕和文字版txt文件。音視頻轉(zhuǎn)文字功能,支持100多個(gè)國(guó)家語言,若選擇漢語,則不過什么語言的音視頻,最終都會(huì)自動(dòng)翻譯成中文字幕和txt文件,方便快捷,不過翻譯效果有限,最好還是選擇原視頻語言進(jìn)行識(shí)別。5.2版本大模型(int8)模式僅需要4-5G顯存,速度快4倍,效果也很好。

如下,選取的日文視頻演講識(shí)別字幕效果,紅框?yàn)檐浖R(shí)別自動(dòng)翻譯的字幕:

功能十六:視頻補(bǔ)幀
軟件支持視頻2-16倍補(bǔ)幀,這個(gè)效果也是很不錯(cuò)的,如下參數(shù)設(shè)置進(jìn)行設(shè)置參數(shù)即可:

點(diǎn)擊音視頻處理菜單的視頻補(bǔ)幀選項(xiàng),選擇要補(bǔ)幀的視頻即可,補(bǔ)幀效果就是如下這種效果,原理是AI計(jì)算相鄰兩幀,然后腦補(bǔ)出中間大量幀:

功能十七:AI文字生成音樂
AI作畫是文字生成圖畫,那么音樂也可以,如下參數(shù)設(shè)置支持文字生成音頻設(shè)置,支持批量輸入(換行),支持參考音頻,然后保存設(shè)置后,主界面音視頻處理菜單下的文字生成音樂即可生成音樂。

04?顯卡要求
需要至少2GB顯存,且必須是英偉達(dá)顯卡,AMD、intel等不支持。
05?小結(jié)
這個(gè)項(xiàng)目確實(shí)很有意思,需要英偉達(dá)2G及以上顯存,AMD等其他顯卡不支持,感興趣的可以體驗(yàn)一下5.2版本了,更詳細(xì)的作圖參數(shù)、教程多刷刷B站相關(guān)視頻即可。
06?本期內(nèi)容獲取
方式一:百度網(wǎng)盤https://pan.baidu.com/s/1B0g4MPFe_drP_hRjgEnKGg 提取碼:95kh
方式二:天翼網(wǎng)盤https://cloud.189.cn/t/ZZ7vuyZrMvmm (訪問碼:7dn8)??
方式三:123網(wǎng)盤(速度挺快)
https://www.123pan.com/s/H3GRVv-pjFLh.html 提取碼:JSsP