最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

GhostMix作者:關(guān)于StableDiffusion模型的發(fā)展方向和現(xiàn)有checkpoint模型亂象的觀(guān)點(diǎn)與

2023-07-05 22:08 作者:_GhostInShell_  | 我要投稿

(省流版本:筆者認(rèn)為由于LoRA和controlnet的加入,SDXL的參數(shù)量的擴(kuò)大,SD模型ckpt的發(fā)展方向是往兼容性的大模型方向發(fā)展才是正確的道路,更好發(fā)揮現(xiàn)有8.59億參數(shù)量(未來(lái)SDXL:35億參數(shù))的優(yōu)勢(shì)。而現(xiàn)在越來(lái)越多隨意將LoRA和ckpt融合,越來(lái)越固定的畫(huà)面風(fēng)格,兼容性越來(lái)越差的模型,容易導(dǎo)致劣幣驅(qū)逐良幣,導(dǎo)致ckpt的發(fā)展方向偏移。)

? ? ?大家好,我是StableDiffusion模型GhostMix的制作者_(dá)GhostInShell_。寫(xiě)這篇文章主要是我覺(jué)得現(xiàn)在有些國(guó)內(nèi)StableDiffusion(為書(shū)寫(xiě)方便,后面簡(jiǎn)稱(chēng)為SD)社區(qū)的發(fā)展方向是錯(cuò)誤的,且因?yàn)樽罱芏郤D社區(qū)都在搞活動(dòng),所以很多的“模型創(chuàng)作者”一哄而上,制作垃圾模型來(lái)薅羊毛?!督?jīng)濟(jì)學(xué)原理》第一條:人會(huì)對(duì)激勵(lì)做出反應(yīng),不可否認(rèn),錢(qián)是可以激勵(lì)創(chuàng)作者做出更好的模型,但現(xiàn)實(shí)情況是很多人眼里面只有錢(qián),為了錢(qián)制作各種垃圾模型。所以我覺(jué)得作為知名模型制作者,非常有必要去表達(dá)自己的觀(guān)點(diǎn),盡可能的糾正現(xiàn)在ckpt的發(fā)展方向,為真正推動(dòng)SD社區(qū)發(fā)展做出貢獻(xiàn)。(疊甲:下文純屬個(gè)人觀(guān)點(diǎn),每個(gè)人都有自己的理解,本文攻擊性有點(diǎn)高,如果觀(guān)點(diǎn)方面有不同意的地方,那你就當(dāng)我是傻子,右上角叉掉就行了。沒(méi)必要爭(zhēng)論,Let the Model Speak,謝謝。)

? ? ?首先,我憑什么有資格去討論其他Checkpoint(為書(shū)寫(xiě)方便,后面簡(jiǎn)稱(chēng)為ckpt)。GhostMix是我做的第一個(gè)ckpt,從4月11日第一個(gè)版本發(fā)布,在非真人模型,不做任何擦邊色情內(nèi)容的前提下,純靠模型的畫(huà)面質(zhì)量和極高的兼容性,僅用了不到3個(gè)月的時(shí)間,在全球模型網(wǎng)站Civitai上做到了歷史全模型最高評(píng)價(jià)榜(All Time Highest Rated Rank)的第11名。截止7月4日,GhostMixV2.0在一共評(píng)分次數(shù)327次,平均分為4.98分(滿(mǎn)分為5分),雖然評(píng)分次數(shù)不能跟Deliberate,ReV等“遠(yuǎn)古大神”級(jí)模型相比,但是均分也是跟DreamShaper一樣處于最高的一檔。而作者我現(xiàn)在也是基礎(chǔ)模型作者榜(Base Model Creator)第七名(最高時(shí)第三名),也是唯一一個(gè)只發(fā)了一個(gè)ckpt模型就進(jìn)入前十名的制作者。綜上,我覺(jué)得作為Civitai上頂級(jí)的ckpt制作者,我完全有資格去告訴所有人什么才是一個(gè)好的模型以及ckpt未來(lái)正確的發(fā)展方向在哪里。

Base Model Creator最高第三名

????????在具體說(shuō)問(wèn)題之前,我們先要對(duì)ckpt和LoRA有基礎(chǔ)的了解。(本人為金融專(zhuān)業(yè)研究生,所有關(guān)于deep learning的東西都是自學(xué)的,雖然參考了很多文章,但是依然非常不專(zhuān)業(yè),如果錯(cuò)誤的地方,歡迎提出來(lái)。)首先什么是ckpt?一個(gè)完整的ckpt包含Text Encoder, Image Auto Encoder&Decoder和U-Net三個(gè)結(jié)構(gòu)。其中U-Net是SD的主要架構(gòu),U-Net結(jié)構(gòu)見(jiàn)下圖,U-Net中有12個(gè)輸入層,1個(gè)中間層和12個(gè)輸出層。根據(jù)Github用戶(hù)ThanatosShinji的測(cè)算,U-Net總參數(shù)量約為8.59億(859M)。這里多說(shuō)一句,由于進(jìn)行U-Net之前圖片需經(jīng)過(guò)AutoEncoder轉(zhuǎn)化成隱空間向量,所以U-Net具體對(duì)圖片生成的影響本身就是一個(gè)黑盒,這也是為什么我不去相信網(wǎng)絡(luò)上所謂ckpt的每層對(duì)圖片影響總結(jié)的原因。因?yàn)檫BCNN都沒(méi)能具體知道哪一層是影響什么東西的,何況帶attention機(jī)制的U-Net?那些所謂的總結(jié),都是基于個(gè)人經(jīng)驗(yàn)的揣測(cè)。所以最好的辦法依然是自己一層一層去試,然后一個(gè)模型一個(gè)模型做測(cè)試,也就是我之前改進(jìn)ckpt那篇文章介紹的。

關(guān)于U-Net的詳細(xì)架構(gòu)介紹,原引自文章: https://zhuanlan.zhihu.com/p/582266032

????????然后什么是LoRA?LoRA是Low-Rank Adaptation的縮寫(xiě),Low-Rank是重點(diǎn),即本質(zhì)上LoRA是通過(guò)訓(xùn)練比原來(lái)模型小很多的低秩矩陣來(lái)達(dá)到學(xué)習(xí)特定畫(huà)風(fēng)和人物的目的。然后在推斷(inference)過(guò)程中,將LoRA部分的權(quán)重與原權(quán)重相加,達(dá)到生成特定畫(huà)風(fēng)和人物的效果,即下圖的右側(cè)橙色的部分。LoRA的一大特點(diǎn)在于易于訓(xùn)練,如果訓(xùn)練原模型是訓(xùn)練維度是d*d的W矩陣,那么LoRA則是訓(xùn)練一個(gè)(d, r)的矩陣A和(r,d)的矩陣B。因?yàn)閞是遠(yuǎn)小于d的,所以訓(xùn)練LoRA參數(shù)量更少,文件的大?。?28dim的LoRA147M)也比最小的ckpt(1.99G)小了10多倍。

引自論文《LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS》

????????這里其實(shí)就引申出一個(gè)的問(wèn)題,LoRA是特定的風(fēng)格和人物信息的小模型,大小僅為147M。而作為有8.59億參數(shù),1.99G的ckpt,是不是應(yīng)該有更多的內(nèi)容?所以我認(rèn)為ckpt的價(jià)值應(yīng)該恰恰反應(yīng)在大模型里面的“大”一字里面,即模型的兼容性。

????????我個(gè)人認(rèn)為模型的兼容性,主要分為兩部分:1.Prompts的兼容性2.畫(huà)風(fēng)及LoRA兼容性。Prompts兼容性主要說(shuō)的是指定Prompts的情況下,模型是否能正確遵循Prompts做出相對(duì)應(yīng)的圖片。這里我之前模型評(píng)價(jià)體系的文章中有我自己的測(cè)試方式,可以看我上一篇文章。同時(shí)也推薦Anything模型系列的作者Yuno779的《模型理論科普》一文介紹的微笑測(cè)試。

Yuno779的《模型理論科普》:docs.qq.com/doc/DQ1Vzd3VCTllFaXBv

? ? ? 然后重點(diǎn)說(shuō)一下畫(huà)風(fēng)和LoRA兼容性。在SD發(fā)展早期Novelai時(shí),因?yàn)長(zhǎng)oRA還沒(méi)有應(yīng)用,都是ckpt直出,所以我們需要通過(guò)ckpt本身來(lái)確定畫(huà)面的風(fēng)格。但是隨著LoRA的應(yīng)用,ckpt本身其實(shí)已經(jīng)不需要做這件事。原本ckpt是要一步解決做的對(duì)的問(wèn)題,現(xiàn)在是ckpt+LoRA+controlnet一起完成,ckpt本身的定位也發(fā)生了變化。所以我經(jīng)常強(qiáng)調(diào)的觀(guān)點(diǎn)是:現(xiàn)在ckpt應(yīng)該是解決做的到的問(wèn)題,然后LoRA,controlnet等是解決做的對(duì)的問(wèn)題??赡艽蠹也焕斫馐裁匆馑?,打個(gè)不恰當(dāng)?shù)谋确?,比如去?huà)畫(huà),ckpt是畫(huà)板,LoRA是畫(huà)筆;去攝影,ckpt是相機(jī),LoRA是膠卷,你畫(huà)畫(huà)帶相機(jī)去是做不到的,同理攝影帶畫(huà)板也是不行的。而8.59億參數(shù)帶來(lái)的價(jià)值在于,優(yōu)秀的ckpt既可以是畫(huà)板也是相機(jī),配合不同的LoRA就可以生成畫(huà)或者照片。而且事實(shí)證明,這是SD1.5架構(gòu)下是完全可以做得到的,你看Civitai上歷史最高評(píng)價(jià)前十的非色情模型Deliberate,ReV,DreamShaper,GhostMix都屬于這一類(lèi)的模型。

????????而現(xiàn)在的ckpt的亂象表現(xiàn)在于(特別是國(guó)內(nèi)),因?yàn)閏kpt融合很簡(jiǎn)單,門(mén)檻比煉LoRA還低,很多“模型制作者”把ckpt和好看的LoRA瞎融合一下,畫(huà)風(fēng)被各種LoRA固定死,畫(huà)風(fēng)兼容性為0,CLIP偏移不管,Prompts兼容性差,出1,2張好圖就上傳模型網(wǎng)站薅羊毛,然后打上什么“首發(fā)”,“獨(dú)家”的標(biāo)簽。這些看上去很美,一測(cè)明顯過(guò)擬合的垃圾,名為ckpt實(shí)為L(zhǎng)oRA的垃圾模型比比皆是。而且劣幣驅(qū)逐良幣,還有一幫被強(qiáng)行喂答辯的新人們覺(jué)得這些垃圾模型才是好模型,是多么的滑稽。不信的話(huà),你們看看除C站之外,國(guó)內(nèi)的模型網(wǎng)站ReV,DreamShaper這些比GhostMix還厲害的模型有多少人在用,排名在哪里了?

????????有人可能覺(jué)得,只要出圖漂亮就沒(méi)什么。首先你看看自己硬盤(pán)里面有多少個(gè)G的模型吧,我這里是隨隨便便都600G的checkpoint,SDXL之后可能2個(gè)T都不夠裝。然后SDXL 7月份就馬上就要發(fā)布了,據(jù)stability.ai的官方介紹,SDXL 0.9的base model參數(shù)量是35億,ensemble pipeline的參數(shù)量是66億(3.5B和6.6B),3.5B是什么概念,要知道清華的LLM—ChatGLM也才6B。莫非到3.5B了還要將模型做成固定成風(fēng)格,各種兼容性泛化性差的垃圾模型嗎?所以我覺(jué)得這個(gè)問(wèn)題是一定要正視的問(wèn)題?,F(xiàn)在頂尖模型創(chuàng)作者基本都不懂深度學(xué)習(xí),連驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的概念都沒(méi)有,連我這個(gè)自學(xué)了點(diǎn)深度學(xué)習(xí)的垃圾都被認(rèn)為是“專(zhuān)業(yè)的大佬”,是真的需要反省反省了。最近我一直試SDXL,我真的覺(jué)得如果SDXL社區(qū)發(fā)展方向?qū)Γ菓?yīng)該能出一個(gè)質(zhì)量比肩Mid Journey的真人,2.5D,動(dòng)漫完全統(tǒng)一的大一統(tǒng)模型。但如果大家還在追求那一兩張美圖,把一堆LoRA融進(jìn)模型,固定畫(huà)風(fēng)人臉,那我覺(jué)得何止SDXL做不出來(lái),可能臉SDXXXXXL都不夠用。所以在SDXL發(fā)布之前,一定要把這個(gè)問(wèn)題提出來(lái),忠言是逆耳的,如果提出來(lái)這個(gè)問(wèn)題能夠讓所有模型開(kāi)發(fā)者重視,我覺(jué)得就很高興了。還是希望SD開(kāi)源社區(qū)能夠少點(diǎn)金錢(qián)的浮躁,多點(diǎn)沉下心來(lái)認(rèn)認(rèn)真真做模型,好好把模型給做好測(cè)好再發(fā)出來(lái)。其實(shí)GhostMixV2.0的改進(jìn)版本也做了7,8個(gè)了,因?yàn)闆](méi)一個(gè)更好的,所以就一直沒(méi)發(fā)新的版本,流量排名不斷往下掉,但是我覺(jué)得與其發(fā)垃圾的更新版本,還真不如不發(fā)。

????????也不能光說(shuō)問(wèn)題,不給解決方法,所以關(guān)于如何解決模型兼容性的問(wèn)題,我個(gè)人的建議是:1.能自己訓(xùn)練,最好自己訓(xùn)練,保持模型的“干凈”。2.融合模型的話(huà),融時(shí)少融一點(diǎn)LoRA,原ckpt模型都一堆LoRA了,還怎么有很好的LoRA的兼容性?如果擔(dān)心現(xiàn)在模型中太多LoRA那么就用舊模型,我GhostMixV2.0全是用舊版本模型做的,很多模型為了更新,越搞越差……3.多測(cè)、多測(cè)、還是多測(cè)。做完模型之后,還要用不同的,畫(huà)風(fēng)各異的Prompts去測(cè),既要簡(jiǎn)單的Prompts不亂加細(xì)節(jié),也要復(fù)雜的Prompts正確表達(dá)細(xì)節(jié)。(詳細(xì)的還是可以看我之前的文章)

????????最后,真的感謝大家的支持,特別是整個(gè)開(kāi)源社區(qū)的大佬們對(duì)我的支持。我的所有python和深度學(xué)習(xí)知識(shí)都是來(lái)自開(kāi)源社區(qū),沒(méi)有Eric Grimson,吳恩達(dá),李沐老師的免費(fèi)教學(xué),我也不可能制作出GhostMix。還要特別感謝蘑菇街WeShop的吳海波大佬的支持和幫助,愿意在沒(méi)有任何商業(yè)要求的情況下,提供給我更好的設(shè)備進(jìn)行SD模型的制作,推動(dòng)社區(qū)的發(fā)展,在此表達(dá)我最真誠(chéng)的感謝,非常感謝謝謝。因?yàn)樗麄兊闹С郑乙材軌蛄λ芰Φ臑镾D社區(qū)做點(diǎn)微小的貢獻(xiàn)。我將我原本使用的3060ti無(wú)償送了一位正在用1060制作LoRA的優(yōu)秀制作者:月月AI,希望他能夠?yàn)樯鐓^(qū)做更多更好的作品。后續(xù)我也會(huì)將GhostMix模型獲得的絕大多數(shù)收益用于獎(jiǎng)勵(lì)可以為SD社區(qū)解決現(xiàn)有模型缺陷的人。也歡迎所有真正希望推動(dòng)StableDiffusion的社區(qū)找我合作,不求報(bào)酬,只為開(kāi)源社區(qū)更健康的發(fā)展。


GhostMix作者:關(guān)于StableDiffusion模型的發(fā)展方向和現(xiàn)有checkpoint模型亂象的觀(guān)點(diǎn)與的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
岱山县| 清原| 治多县| 靖宇县| 罗源县| 安吉县| 灯塔市| 阿荣旗| 阜新| 诏安县| 绥芬河市| 无棣县| 鲁山县| 慈溪市| 三河市| 绥江县| 崇阳县| 青浦区| 顺昌县| 河东区| 万州区| 芜湖县| 托克逊县| 泸溪县| 如东县| 普定县| 曲阜市| 杨浦区| 鄂伦春自治旗| 威宁| 彭泽县| 元阳县| 柳林县| 嘉禾县| 石楼县| 临漳县| 定陶县| 苍山县| 勃利县| 许昌县| 盐源县|