手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »數(shù)碼 » AI作畫離線版V5.2，升級(jí)torch 2.0速度更快、清華ChatGLM2、看圖聊天、AI文字生成音樂

AI作畫離線版V5.2，升級(jí)torch 2.0速度更快、清華ChatGLM2、看圖聊天、AI文字生成音樂

2023-07-12 20:34 作者:萬能君的軟件庫(kù) 0人讀過 | 我要投稿

本月V5.2帶來了非常多的功能，主要是清華大學(xué)類chatGLM2、VisualGLM、AI文字生成音樂、SD動(dòng)畫等功能。

V5.2版本：2023-7-7

（V5.2版本僅支持win10、win11）

1、chatglm修改為chatglm2代；?

2、同步更新最新的facebook開源的文字生成音樂項(xiàng)目audiocraft，支持30s以上時(shí)長(zhǎng)不失真生成，支持批量選擇音頻和設(shè)置描述；?

3、圖片說話音頻驅(qū)動(dòng)功能與官方同步最新，效果更好；?

4、SD模型融合、局部修改模式bug修改完成；?

5、支持常見寬高比設(shè)置；?

6、支持導(dǎo)入webui圖片的參數(shù)，導(dǎo)入配置文件里選擇圖片即可自動(dòng)填充到軟件參數(shù)設(shè)置框里；?

7、SD動(dòng)畫支持提前終止、保存與讀取配置、預(yù)覽等功能，修復(fù)3D模式斷網(wǎng)不能使用的bug；?

8、升級(jí)到pytorch2.0 CUDA11.8和xformers0.0.17，極高+xformers模式下，速度更快，顯存占用更少；?

9、清華ChatGLM更新到最新模型，模型包提供6G、8G、13G顯存模型包，按照自己顯存下載對(duì)應(yīng)模型包即可；?

10、SD動(dòng)畫支持到deforum stable diffusion 0.7版本，參數(shù)更為詳盡，動(dòng)畫模式記得描述如下格式：

10:::a?

20:::b?

40:::c?

a、b、c為三個(gè)子描述，回車換行，三引號(hào)前面的數(shù)字為描述開始幀，比如描述b是從20-39幀；?

11、修復(fù)視頻補(bǔ)幀某些用戶不可用bug；?

12、修復(fù)視頻轉(zhuǎn)文字大模型下，長(zhǎng)時(shí)間無說話人轉(zhuǎn)換慢的問題；?

13、修復(fù)40系列顯卡，伴奏分離和清華chatglm不能使用的bug；?

14、輸出目錄按鈕整合成一個(gè)菜單。

01

軟件概覽

軟件名字叫做：AI作畫離線版V5.2，基于GitHub上的開源項(xiàng)目Disco Diffusion與Stable Diffusion以及眾多開源項(xiàng)目。

如下，軟件主界面，還是以操作簡(jiǎn)單為主：

▼

02?軟件安裝

軟件非常大，因?yàn)橛泻芏嚯x線模型（模型按照功能劃分，可按需下載），下載完成后，按照網(wǎng)盤里的pdf教程即可進(jìn)行體驗(yàn)。

軟件界面如下所示：

03?軟件功能

介紹功能一：DD(Disco Diffusion)作畫

1、描述詞設(shè)定：如下默認(rèn)的描述，每段（回車換行算一段）都是同一描述的不同權(quán)重關(guān)鍵詞。

隊(duì)列模式下的描述詞設(shè)定：當(dāng)如下勾選了隊(duì)列模式后，通過固定的句式，可以生成大量的配置文件，也就可以實(shí)現(xiàn)生成多套參數(shù)的圖。

比如我的文字描述這樣描述：a beautiful girl by {400|1|藝術(shù)家}，當(dāng)點(diǎn)擊保存設(shè)置后就會(huì)生成400個(gè)藝術(shù)家的不同配置文件。注意這個(gè)格式{400|1|藝術(shù)家}中的{}、|這些不能缺少，完全按照固定格式來，400代表生成400個(gè)配置文件，1代表by一個(gè)藝術(shù)家名字（如果設(shè)置成2就代表by兩個(gè)藝術(shù)家名字混搭），藝術(shù)家代表的是軟件目錄下【描述風(fēng)格庫(kù)】文件夾下的藝術(shù)家.csv文件，而藝術(shù)家.csv文件如下所示，兩列數(shù)據(jù)：

軟件支持各位自建這種語料庫(kù)，大家可以復(fù)制csv建立副本，然后在副本里修改，注意也是按照兩列格式來，第一列是描述，第二列是解釋。比如下面我建的顏色.csv文件，簡(jiǎn)單寫了一下，也是一定嚴(yán)格兩列來哈，且都放在軟件目錄下的【描述風(fēng)格庫(kù)】文件夾。

2、幫助相關(guān)：對(duì)于大多數(shù)參數(shù)，都加入了幫助按鈕，鼠標(biāo)劃到對(duì)應(yīng)幫助圖標(biāo)，駐留即可顯示參數(shù)含義，如下所示，當(dāng)然大多數(shù)都是翻譯的官方文檔，加入自己的一點(diǎn)注解。

3、參考圖：參考圖也人性化了，直接點(diǎn)擊按鈕選擇圖片即可，注意看參數(shù)旁邊的問號(hào)，一般加入?yún)⒖紙D時(shí)，skip_steps這個(gè)參數(shù)需要設(shè)置大一些。

4、AI作畫模型選擇：參數(shù)設(shè)置里提供兩種繪圖Diffusion模型引擎選擇，原版DD、像素版DD以及其他自定義的PT格式模型，如下圖設(shè)置：

如下演示的是國(guó)畫模型：

5、AI圖片描述解析：如下按鈕點(diǎn)擊，選擇圖片，稍等片刻即可顯示出描述，當(dāng)然這個(gè)描述有所出入，但當(dāng)作描述來用畫出的圖也確實(shí)不錯(cuò)。

下面演示幾張圖，解析出來的描述：

a group of iron man standing next to each other in the ocean, a comic book panel by Paul Pelletier, featured on deviantart, antipodeans, marvel comics, reimagined by industrial light and magic, imax

a painting of a landscape with mountains and trees, a detailed matte painting by Katsukawa Shunsen, pixiv, shin hanga, ukiyo-e, matte painting, detailed painting

功能二：SD(Stable Diffusion)作畫

SD作畫功能和DD功能基本一致，同樣支持隊(duì)列模式、參考圖等功能，SD作畫速度更快，且畫得更加具象，下面主要介紹SD的參數(shù)設(shè)置。同樣SD也是具有文字描述和參考圖功能，還有一些其他參數(shù)，大家可以鼠標(biāo)懸停到參數(shù)旁邊的問號(hào)就會(huì)有說明。

1、描述詞設(shè)定：描述詞句式基本和DD一樣，但SD作畫多了個(gè)負(fù)描述，負(fù)描述默認(rèn)可以不寫，負(fù)描述如果寫，就代表不想讓繪畫結(jié)果出現(xiàn)的元素。

支持寫個(gè)開頭，然后如下點(diǎn)擊AI生成描述進(jìn)行續(xù)寫描述，目前有兩種自動(dòng)寫描述引擎了：

2、繪圖參數(shù)：圖片尺寸和DD一樣，需要64的倍數(shù)，當(dāng)然隨便填寫尺寸也行，軟件會(huì)自動(dòng)轉(zhuǎn)換；繪圖步數(shù)和DD類似，不過SD步數(shù)20就夠了；繪制圖片輪數(shù)代表每次畫幾張圖；描述相關(guān)度默認(rèn)數(shù)值就可以，當(dāng)然可以嘗試10以上數(shù)值；隨機(jī)種子默認(rèn)0，代表每次種子隨機(jī)，設(shè)置大于零的固定值，如果其他參數(shù)一樣，則SD出圖完全一樣，這點(diǎn)和DD不一樣哈。

3、顯存占用模式選擇：軟件提供不同顯存占用模式：超級(jí)低、非常低、高、極高，以及帶著xformers加速模塊模式，加速模塊效果拔群，速度很快，顯存占用也低了很多。

4、16代黑圖問題：針對(duì)GTX 16系列，諸如1660等顯卡，SD作畫會(huì)黑圖，需要勾選如下選項(xiàng)，可以正常出畫。

5、參考圖：和DD一樣，SD也支持參考圖，不過參數(shù)比較簡(jiǎn)單，基本上就是導(dǎo)入原圖，修改描述，設(shè)置圖片差異度參數(shù)即可，注意差異度參數(shù)范圍0-1，1代表與參考圖差異最大哈。另外，自適應(yīng)尺寸比較人性化，比如參考圖尺寸寬高為1024x512，繪圖參數(shù)尺寸設(shè)置512×512,默認(rèn)無，代表不自適應(yīng)，最終出的圖尺寸為512×512，固定寬代表，以繪圖參數(shù)尺寸設(shè)置的寬512為準(zhǔn)，參考圖寬高比2比1，高自動(dòng)修改為256，最終輸出512x256的圖。

如下，試試SD參考圖，實(shí)現(xiàn)真人二次元效果或者其他的一些效果：

6、動(dòng)畫：SD動(dòng)畫選擇2D，即可開啟動(dòng)畫模式，動(dòng)畫也可以設(shè)置參考圖，支持動(dòng)畫變化角度、縮放大小、xyz軸移位等。

文字描述需要如下格式，每一次換行都是一個(gè)過渡描述，每個(gè)過渡描述開頭數(shù)字，代表動(dòng)畫幀數(shù)，比如第一行就是前10幀a描述。

10:::a?

20:::b?

40:::c?

7、SD、LORA、VAE模型選擇：支持選擇第三方ckpt、safetensors格式的SD模型、VAE模型以及LORA模型（還支持Lycoris類的LORA模型），如下所示：

8、局部修改：如下點(diǎn)擊局部修改按鈕，可以實(shí)現(xiàn)涂鴉部分區(qū)域?qū)崿F(xiàn)局部修改功能，此功能效果也比較有限，換臉什么的還可以，如下演示：

9、模型融合：點(diǎn)擊SD模型融合按鈕，如下支持不同ckpt或者safetensors格式的SD模型按照比例融合，融合后的模型兼具兩個(gè)模型的特點(diǎn)。

10、DeepDanbooru二次元TAG解析：如下點(diǎn)擊按鈕，支持二次元圖片的TAG解析，諸如NovelAI等模型比較有需求：

功能三：CN作畫

CN就是目前大名鼎鼎的ControlNet，目前軟件同步到CN 1.1版本，總體使用方式和SD差別不大。CN的精髓在于下圖，不同的這些模型：

這些模型的作用就是針對(duì)不同的參考圖進(jìn)行創(chuàng)作，諸如Lineart模型就是針對(duì)線稿參考圖，然后實(shí)現(xiàn)線稿上色或者二次創(chuàng)作的目的，如下演示，選擇Lineart_Anime這個(gè)二次元線稿的CN模型配上二次元SD模型和描述：

如下選擇openpose這個(gè)人體姿勢(shì)的CN模型，左圖為原圖，中間為識(shí)別原圖的骨骼圖，右圖為生成的圖。

如下SEG語義分割的CN模型效果：

如下MLSD這種識(shí)別建筑線稿的CN模型效果：

如下為超分辨率的Tile的CN模型，真的是模糊圖重繪神器：

功能四：T2I作畫

T2I作畫和ControlNet實(shí)現(xiàn)的結(jié)果基本相似，套路也是一樣，如下也是提供眾多模型：

在這里就不做重復(fù)演示了，如下官方的介紹圖：

功能五：圖片/視頻AI高清放大

設(shè)置不同的放大模型和圖片放大倍數(shù)，高清放大圖片輸出目錄為軟件目錄\images_out\AI_ultra_HD，當(dāng)輸入的圖片尺寸很大時(shí)，容易超顯存，這時(shí)我們修改拼圖大小這個(gè)參數(shù)即可，比如設(shè)置拼圖大小512時(shí)，6G顯存選擇realesrgan_x4plus模型對(duì)1920*1080圖片進(jìn)行4倍放大測(cè)試不超顯存。支持2-10倍放大。

AI高清放大是一個(gè)獨(dú)立功能，軟件主界面圖片處理菜單選擇圖片/視頻高清放大選項(xiàng)，選擇圖片或者視頻（支持批量），即可高清放大圖片或者視頻。如下，小圖經(jīng)過高清放大的對(duì)比效果，二次元和三次元都能勝任。

功能六：老照片修復(fù)

軟件主界面圖片處理菜單選擇老照片修復(fù)選項(xiàng)，選擇圖片（支持批量），即可高清修復(fù)老照片，僅對(duì)人像進(jìn)行高清修復(fù)。如下，經(jīng)過高清人臉修復(fù)對(duì)比效果動(dòng)圖演示：

功能七：圖片/視頻上色

軟件主界面圖片處理菜單選擇圖片/視頻上色，選擇黑白視頻或者圖片即可實(shí)現(xiàn)上色，支持批量。如下參數(shù)設(shè)置里，可以選擇不同上色模型，二次元模型專注二次元線稿上色：

如下動(dòng)圖演示，上色前后的效果：

功能八：圖片說話

圖片說話功能，可以實(shí)現(xiàn)導(dǎo)入的圖轉(zhuǎn)換成說話人視頻的形式，支持音頻和視頻驅(qū)動(dòng)，默認(rèn)音頻驅(qū)動(dòng)說話。

軟件主界面點(diǎn)擊圖片處理菜單選擇圖片說話，選擇圖片（支持批量），轉(zhuǎn)換圖片成如下的視頻形式。

功能九：AI圖片轉(zhuǎn)3D

AI圖片轉(zhuǎn)3D輸出視頻目錄：軟件目錄\video；AI圖片轉(zhuǎn)3D也是一個(gè)獨(dú)立免費(fèi)功能，如下參數(shù)設(shè)置可以設(shè)置生成視頻時(shí)長(zhǎng)和攝像頭位置（位置一般不改）：

軟件主界面圖片處理菜單選擇圖片轉(zhuǎn)3D，選擇圖片（支持批量），轉(zhuǎn)換圖片成視頻形式，這個(gè)轉(zhuǎn)換速度較慢，5到30分鐘一張圖?；旧暇褪窃黜?xiàng)目介紹的這種效果，一張精圖轉(zhuǎn)換成3D的效果，不過相比原作我做了改進(jìn)，支持原圖尺寸大小的視頻。

功能十：摳圖

軟件主界面圖片處理菜單選擇摳圖，選擇圖片（支持批量），即可進(jìn)行背景和人物分割，如下演示：

功能十一：二次元生成

軟件主界面圖片處理菜單選擇二次元生成，即可繪制上百?gòu)埗卧獔D片：

如下可在參數(shù)設(shè)置里，設(shè)置各種參數(shù)以生成不同類型的二次元小姐姐：

功能十二：三次元生成

軟件主界面圖片處理菜單選擇三次元生成，即可繪制上百?gòu)埲卧獔D片：

如下可在參數(shù)設(shè)置里，設(shè)置各種參數(shù)以生成不同類型的三次元圖片：

功能十三：AI寫小說

軟件主界面小說聊天菜單選擇AI寫小說|聊天界面，如下點(diǎn)擊AI寫小說按鈕，設(shè)置開頭，即可續(xù)寫不同輪數(shù)的文字：

點(diǎn)擊訓(xùn)練小說，如下可以選擇自己的小說語料txt，訓(xùn)練自己的模型：

還支持清華大學(xué)Chatglm，注意這個(gè)至少需要6G顯存，且加載模型較慢，請(qǐng)耐心等待，可以實(shí)現(xiàn)類似Chatgpt的形式：

還支持清華大學(xué)Visualglm，上傳圖片，用圖描述形式，如下演示：

功能十四：伴奏人聲分離

軟件主界面音視頻處理選擇伴奏人聲分離，選擇歌曲（支持批量），即可自動(dòng)分離人聲、伴奏、鼓點(diǎn)和低音，效果很厲害。若顯存4G及以下，可以如下參數(shù)設(shè)置勾選低顯存占用模式即可：

功能十五：音視頻轉(zhuǎn)文字

軟件主界面音視頻處理選擇音視頻轉(zhuǎn)文字，選擇音頻或者視頻，即可進(jìn)行語音識(shí)別，輸出字幕和文字版txt文件。音視頻轉(zhuǎn)文字功能，支持100多個(gè)國(guó)家語言，若選擇漢語，則不過什么語言的音視頻，最終都會(huì)自動(dòng)翻譯成中文字幕和txt文件，方便快捷，不過翻譯效果有限，最好還是選擇原視頻語言進(jìn)行識(shí)別。5.2版本大模型(int8)模式僅需要4-5G顯存，速度快4倍，效果也很好。

如下，選取的日文視頻演講識(shí)別字幕效果，紅框?yàn)檐浖R(shí)別自動(dòng)翻譯的字幕：

功能十六：視頻補(bǔ)幀

軟件支持視頻2-16倍補(bǔ)幀，這個(gè)效果也是很不錯(cuò)的，如下參數(shù)設(shè)置進(jìn)行設(shè)置參數(shù)即可：

點(diǎn)擊音視頻處理菜單的視頻補(bǔ)幀選項(xiàng)，選擇要補(bǔ)幀的視頻即可，補(bǔ)幀效果就是如下這種效果，原理是AI計(jì)算相鄰兩幀，然后腦補(bǔ)出中間大量幀：

功能十七：AI文字生成音樂

AI作畫是文字生成圖畫，那么音樂也可以，如下參數(shù)設(shè)置支持文字生成音頻設(shè)置，支持批量輸入（換行），支持參考音頻，然后保存設(shè)置后，主界面音視頻處理菜單下的文字生成音樂即可生成音樂。

04?顯卡要求

需要至少2GB顯存，且必須是英偉達(dá)顯卡，AMD、intel等不支持。

05?小結(jié)

這個(gè)項(xiàng)目確實(shí)很有意思，需要英偉達(dá)2G及以上顯存，AMD等其他顯卡不支持，感興趣的可以體驗(yàn)一下5.2版本了，更詳細(xì)的作圖參數(shù)、教程多刷刷B站相關(guān)視頻即可。

06?本期內(nèi)容獲取

方式一：百度網(wǎng)盤https://pan.baidu.com/s/1B0g4MPFe_drP_hRjgEnKGg 提取碼：95kh

方式二：天翼網(wǎng)盤https://cloud.189.cn/t/ZZ7vuyZrMvmm (訪問碼:7dn8)??

方式三：123網(wǎng)盤（速度挺快）

https://www.123pan.com/s/H3GRVv-pjFLh.html 提取碼:JSsP

標(biāo)簽：AI軟件 AI作畫音樂生成 stable diffusion 人工智能 AI 軟件推薦 lora