最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

元素同典:確實不完全科學(xué)的魔導(dǎo)書

2022-11-03 16:33 作者:元素法典制作委員會  | 我要投稿

從零開始的魔法書——Novel AI入門導(dǎo)論


Presents by

Chinese CoQ Production Committee




元素同典:

確實不完全科學(xué)的魔導(dǎo)書

CoQ: A Synsemantic Grimoire

of (Non)Science



又名:

《原速發(fā)癲:先瘋》

《元素同典:大概不會爆炸的魔導(dǎo)指引》

《我們把我們能想到的都放在里面了,這姑且是一本魔導(dǎo)書》

《嘮嘮叨叨魔導(dǎo)書》

《你快別寫書了(悲)》

《聲 音 很 大 的魔法書(哼 哼 啊啊?。?/span>

《大家都愛xkcd》

《從入門到入典之樓上夾帶私活,舉辦了》

《元素魔法:從入門到蚌埠》


Ver. 20221102

【騰訊文檔】元素同典:確實不完全科學(xué)的魔導(dǎo)書?
https://docs.qq.com/doc/DWFdSTHJtQWRzYk9k

前言

????????“在接觸 Novel AI 之前,筆者曾使用過 SD(Stable Diffussion)1.3 及 1.4 版本生成了許多場景圖。但苦于無論是 SD 還是 Waifu Diffusion 都難以輕易達(dá)到要求,只能通過反復(fù)調(diào)參去追求心目中最好的質(zhì)量,直到 Novel AI 的推出.”



????????這是一篇指南,旨在為剛剛接觸 Novel AI 的萌新快速上手 AI 作畫。

????????筆者(在本處與下文代指本文的所有筆者)將簡單分析 Novel AI 亂七八糟的基礎(chǔ)邏輯和應(yīng)用,但礙于筆者的個人經(jīng)驗不足,如有錯誤或疏漏之處,也請多多包涵,或者直接對元素法典策劃組進(jìn)行發(fā)癲也行。歡迎各位在批注中留下對于本文的建議/意見。 因為批注會崩排版,所以...已經(jīng)沒有批注了(

????????本文基于無數(shù)高階魔法師的經(jīng)驗與對 WEB-UI 代碼進(jìn)行挖掘所得成果總結(jié)而成,且包含許多個人理解和主觀觀點。非常歡迎各位前往元素法典交流群討論。

????????由于本魔導(dǎo)書內(nèi)容較多且篇幅較長,請妥善利用目錄功能及文檔內(nèi)搜索功能尋找需要的資料。



本文中所有資料均可被自由引用。

最終解釋權(quán)歸 元素法典策劃組 所有。

精神支柱:一位不愿意透露姓名的路過飛機場JK

進(jìn)階技術(shù)支持 / 審校:一只呼嚕嚕的湊數(shù)貓咪和她的小迷妹JK

感謝所有參與編輯和提出建議的參與者們。



準(zhǔn)備工作:神奇 NAI 在哪里?

Novel AI(簡稱 NAI)是一個線上的深度學(xué)習(xí)小說續(xù)寫平臺,而 NAI Diffusion 是 NAI 在 2022 年 10 月 3 日推出的基于 Stable Diffusion 算法的自動生成二次元圖片的服務(wù)。


不同版本的比較

????????有兩種辦法可以讓你體驗到這個全新的次世代魔法棒:在線版(官方/鏡像)與離線版(NAIFU / WEB-UI)。

????????由于網(wǎng)上的離線版安裝教程/鏡像站鏈接五花八門種類豐富且數(shù)量極多,筆者就不在此贅述過多關(guān)于如何安裝/打開網(wǎng)站的事宜,僅提供官方鏈接和離線版的具體設(shè)定。安裝問題如有疑問請自行詢問度娘或前往元素法典 QQ 群討論。


在線版

Novel AI 的官網(wǎng)網(wǎng)址:https://novelai.net/

????????注冊后需要付費訂閱使用。官方版擁有良好的生成質(zhì)量與生成速度,但昂貴的價格和諸多限制讓用戶容易顯得有些力不從心。


離線版

離線板需要自行下載支持模型的框架,然后再在框架中放入模型。

兩種主流框架分別為與官方前端十分相似的 NAIFU與 AUTO1111 的 WEB-UI。

????????由于諸多社區(qū)大佬的優(yōu)化和努力,離線版框架的部署已經(jīng)趨向于便捷、快速,在調(diào)整完設(shè)置后也可以在雙盲實驗中達(dá)到近似于官方版本的效果。

????????但是,NAIFU 與 WEB-UI 對于參數(shù)的處理方法不同決定了它們之間終究還是存在難以逾越的天塹,同模型、同參數(shù)、同咒語在 NAIFU 和在 WEB-UI 中的運行效果很可能大相徑庭。

????????本魔導(dǎo)書基于 WEB-UI 進(jìn)行編纂,NAIFU 用戶請對本魔導(dǎo)書的內(nèi)容靈活思考,勿生搬硬套。


????????關(guān)于離線版框架的安裝教程與模型的使用教程,有著諸多方式方法??紤]到種種因素,筆者在此不提供任何模型本身的下載,僅提供框架的原始英文安裝教程網(wǎng)址及 WEB-UI 的 Github 鏈接:

原始英文教程:

https://rentry.org/voldy

AUTO1111 的 stable diffusion webui (Github):

https://github.com/AUTOMATIC1111/stable-diffusion-webui


????????此外,官方貼吧群內(nèi)也有打包好的 WEB-UI+模型 文件。

????????出于全方面考慮(包括部署難度、國內(nèi)網(wǎng)速等因素),筆者更推薦 AUTO1111 的 stable diffusion web-ui,這是一個可以便捷部署、用于加載模型的框架,與其它版本相較而言最大的優(yōu)勢在于只需要基礎(chǔ)(配合百度翻譯即可解決的程度)英語水平即可按照明確的說明書進(jìn)行部署,且部署完畢后同樣可一鍵啟動。

????????若讀者選擇安裝 stable diffusion web-ui ,則需要在安裝完畢后,根據(jù)下文說明放置/加載模型文件(包括 ckpt、vae 和 pt)。



離線版 (WEB-UI) 的基本安裝與排障

WEB-UI 并不需要繁多的安裝步驟。

首先,無論是哪個版本,讀者都需要安裝 Python 和 git 作為運行環(huán)境。


下載并安裝 git

https://git-scm.com/download/


下載并安裝 python

請注意 Python 的版本至少為 3.10.6。

若是第一次安裝,則請務(wù)必勾選"Add Python 3.10 to PATH"

https://www.python.org/ftp/python/3.10.6/python-3.10.6-amd64.exe

添加模型

????????在安裝完畢后,將下載的模型(以 ckpt 為后綴名的一個文件)置于 WEB-UI 根目錄下方的 models 文件夾中的 Stable-diffusion 文件夾中。

????????可選:更改你的模型 model 文件名以添加更多模型。

????????可選:將 VAE 文件(文件名出現(xiàn)了形如 vae.pt 的部分)置于模型文件旁邊,同一個文件夾內(nèi),并按照如下的正確格式更改 VAE 文件名。

例:若模型文件名為 model.ckpt,則改為 model.vae.pt


運行 WEB-UI

????????開啟 webui-user.bat,接下來 WEB-UI 就會自動安裝所有運行庫與環(huán)境。在安裝完畢后,如果出現(xiàn) "Launching WEB UI with arguments:" 并在一段時間后出現(xiàn) "To create a public link, set 'share=True' in 'Launch'",則證明 WEB-UI 已經(jīng)開始運行了。如果遇到包含 error 的消息,則是出現(xiàn)了問題,請按照下文的故障排除進(jìn)行排障。


常見問題

在執(zhí)行以下所有步驟之前,先確認(rèn)重啟 WEB-UI 是否有效。

檢查是否存在以下問題:

1.文件名路徑太長,或包含空格/中文。

2.顯卡是否支持 CUDA 核心加速(Nvidia 顯卡),若不支持則需關(guān)閉 CUDA 加速功能

3.git 是否能夠連接

4.Python 版本是否過老

如果依舊存在問題,請前往貼吧官方 QQ 答疑群詢問。



離線版如何達(dá)到官方版本的效果

????????通常來講,NAIFU 并不需要額外設(shè)定以達(dá)到官網(wǎng)質(zhì)量,而 WEB-UI 則需要額外設(shè)定。如果缺少選項請檢查 WEB-UI 是否為最新版。此為 WEB-UI 的設(shè)定:

??確保正確安裝 VAE 文件與 PT 文件。

??VAE 文件位于 model 文件夾中,需要與模型文件(名字).ckpt 改為同名并置于同一文件目錄下方。

??PT 文件位于 modules 文件夾中,需要置于 model 文件夾中的 hypernetworks 文件夾內(nèi)。

??以下在網(wǎng)頁的 settings 中:

??將選單 Stable Diffusion 下方的 Stop At last layers of CLIP model 改為 2

??將選單 Sampler parameters 下方的 eta(noise multiplier) for ancestral samplers 改為 0.68

??選單 Sampler parameters下方的 Eta noise seed delta 設(shè)為 31337

??完成這些設(shè)定后,點擊頁面最上方的 Apply settings 保存。



書寫你的第一段咒語

????????當(dāng)代賽博法師使用電子魔杖、虛擬魔導(dǎo)書來無中生有創(chuàng)造出美麗的圖案,盡管更多人可能認(rèn)為我們在成為弗蘭肯斯坦。


咒語是什么?

????????在深度學(xué)習(xí)中,我們使用一段 prompt 來引導(dǎo) AI 使用“噪點圖”疊放然后超量召喚出我們最后的圖像。


Novel AI 是一個基于 Stable Diffusion 的模型,因此它的工作原理與 Stable Diffusion 并無兩樣,依賴關(guān)鍵詞(prompt)來幫助 AI 篩選、融合圖片。


????????Prompt (提示詞,又譯為關(guān)鍵詞)通常由英文構(gòu)成,主要內(nèi)容為以逗號隔開的單詞/詞組/短句。prompt 也可以包括其它語言的文字,但效果往往不佳。prompt 還可以識別一些特殊符號。

????????AI 會通過尋找符合關(guān)鍵詞描述的噪點圖進(jìn)行有明確指向的去噪點(diffuse)。同樣,如果包含 Negative Prompt(負(fù)面關(guān)鍵詞),AI 就會盡可能避免含有負(fù)面相關(guān)要素的去噪點方式。換句話說,prompt 就像是哈利波特里面的咒語,它直接決定了最終我們會得到什么。

????????AI 對于關(guān)鍵詞的辨識以從前到后為順序,以逗號為分割。對于基本操作,可以以大括號、小括號、中括號調(diào)整權(quán)重。在WEB-UI中,小括號增加為 1.1 倍權(quán)重,中括號減弱為 0.91 倍權(quán)重(相當(dāng)于除 1.1),多次嵌套括號效果相乘。但大括號在 WEB-UI 中并沒有用,在官方網(wǎng)站上則會增加為 1.05 倍權(quán)重。


() adds emphasis to a term, [] decreases emphasis, both by a factor of 1.1. You can either stack ()/[] for increasing/decreasing emphasis or use the new syntax which takes a number directly - it looks like this:

(word:1.1) == (word)

(word:1.21) == ((word))

(word:0.91) == [word]

To use literal ()/[] in your prompt, escape them with \

See?https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features?for full details and additional features.

{word} is for NovelAI's official service only. It is similar to (word) but the emphasis is only increased by a factor of 1.05. If you are using the leaked models in the webui you shouldn't be using this syntax.


????????因此,一針見血的關(guān)鍵詞才是我們所需要的,不建議詠唱不必要的咒語音節(jié)。



擦亮你的法杖

工欲善其事,必先利其器。

伏地魔都會追隨老魔杖,那賽博法師又怎能不入鄉(xiāng)隨俗?


????????在 Novel AI 中,如果說 prompt 是咒語,那旁邊的參數(shù)面板就是法杖。

????????這一些參數(shù)就是你的杖芯、杖柄,或許還有其他世界穿越來的附魔也說不定?


選擇你的采樣方法:Sampling Method

????????開始調(diào)整所有參數(shù)之前,請選擇你的采樣方法。“請選擇你的捍衛(wèi)者”。 NAI 和 WEB-UI 都內(nèi)置了許多采樣方法,包括且不僅包括最常用的 Euler AEuler, 以及原生默認(rèn)的 LDM 和許多人都很喜歡的 DPM2 A / DDIM 。

????????采樣方法組成了圖片生成的第一大要素,它決定同樣的 prompt 下 AI 會選擇以何種方式去噪點化以得到最終圖片。同時,它還會決定運算速度。


????????通常來講,Euler A 是兼顧速度和質(zhì)量的最優(yōu)之選。

????????DPM2 A 在核理分配步數(shù)的情況下也能產(chǎn)生高質(zhì)量作品。

????????而 DDIMEuler 則在運氣較好的情況下尤其以細(xì)膩的畫風(fēng)見長。

????????當(dāng)你審美疲勞時,嘗試更換方法也許可以帶來新的風(fēng)格。但在眾多方法中,筆者極不推薦 LMS、DPM fast、LMS Karras 和 PLMS 這四個,它們的生成質(zhì)量在大多數(shù)情況下相較于其它算法而言不佳。


迭代數(shù)量/采樣次數(shù):Sampling Steps

????????首先,在介紹關(guān)于迭代的理論之前,迭代并不總是越多越好。


對于不同的模型也有不同的理論:

????????例如DPM AEuler A 都是所謂的 非線性 迭代方法,它們的結(jié)果并不會因為迭代增加而無休止地變得更加優(yōu)秀,在大于一定的迭代值之后反而質(zhì)量會快速下滑。

????????而 DDIM / Euler 線性 迭代方法則恰恰相反,質(zhì)量往往依托于迭代的次數(shù)。但也存在邊際效應(yīng)的問題,當(dāng)?shù)笥谝欢ǔ潭葧r,再增加迭代次數(shù)也不會讓畫面產(chǎn)生顯著變化。

????????因此,實際使用時往往需要根據(jù)畫布大小和目標(biāo)是否復(fù)雜來綜合考慮。對于512 * 512 那樣的標(biāo)準(zhǔn)畫布與無強烈細(xì)化要求的簡單場景,使用 Euler A 時的迭代次數(shù)通常推薦 30 或以上,40 或以下。而使用 DDIM 則通常推薦 25 或以上,35 或以下。許多教程認(rèn)為 25/20 步對于 Euler A/DDIM 即足夠,但實際上要稍高一些。


然而,最新的研究表明:也許高步數(shù)對手的生成有巨大幫助?

對于更大畫布、更復(fù)雜的場景或更特殊的需求,詳見下文。



我的魔導(dǎo)書在哪里?

????????咒語的基礎(chǔ)理論已經(jīng)了解了,但此時此刻我們對于魔法的釋放還是一頭霧水:哪里去獲得 prompt?又有哪些 prompt 是我們真的需要的?

????????在最理想的情況下,一位賽博魔法師首先應(yīng)當(dāng)試著去理解 danbooru.donmai.us,這是 NAI 的重要訓(xùn)練來源,也是絕大多數(shù)關(guān)鍵詞的出處(至少覆蓋 80%+),所以在里面找到的引用數(shù)大于 2000 的 tag 直接當(dāng)作 prompt 使用往往都能出效果,你甚至還能發(fā)現(xiàn)諸如顏文字當(dāng)做 prompt 的驚人用法——而這都是可行的。但 danbooru 的訪問需要跨域屏障,較為不便。

????????而除此之外還應(yīng)該自己去收集可以用做 prompt 的材料,但是一個人上路太孤獨了,拿著這把全村最好的法杖吧!

NAI信息并聯(lián)計劃:https://kdocs.cn/l/cre0TwbMkdx3

????????去尋找各種各樣的帖子或者指南。抽絲剝繭地借鑒前人經(jīng)驗,批判思考地獲取其中的精華(前人可能會因錯誤習(xí)慣而被干擾),也能得到不少效果很棒的 prompt。

????????但真正的高階魔法師將直接應(yīng)用現(xiàn)實生活的知識。能注意到各類 tag 的自然語言邏輯都是以現(xiàn)實生活中存在的單詞,這是為了節(jié)省自然語言處理方面的開銷并符合日常使用習(xí)慣。因此,一個英語水準(zhǔn)較好、能運用各類生動表達(dá)、甚至理解一些場景專業(yè)術(shù)語與服裝術(shù)語的魔法師可以直接應(yīng)用合規(guī)的英文單詞進(jìn)行大段敘述描寫,結(jié)果往往都將令人滿意。


????????一位合格的賽博法師應(yīng)該擁有自己的魔導(dǎo)書。將上述各種各樣方式收集到的 prompt 與技巧整理、記錄到文檔或隨便什么順手的地方,都將很有幫助。

????????但也許真正的魔導(dǎo)書...并不是以賽博魔法師們想象中的那種形式存在也說不定?



閉目凝神,詠唱咒語

????????總而言之,你查閱資料或突發(fā)奇想,得到了一些咒語。將它填入第一欄,然后再在第二欄填入隨處可見的通用反咒(Negative Prompt),點擊 Generate,你的第一段咒語就完成了(筆者在此演示最簡單的 沖 國 特 攻 召喚術(shù)):

masterpiece, 1 girl, cute face, white hair, red eyes


masterpiece, 1 girl, cute face, white hair, red eyes


????????以防有人沒查到——通用反咒是:


lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, bad feet


????????如果充分理解了前文內(nèi)容,并且詠唱地不那么夸張,那么第一次施法往往將無驚無險地獲得成功。現(xiàn)在你已經(jīng)脫離麻瓜范疇,擁有成為魔法學(xué)徒的潛質(zhì)了,向著魔法的大門前進(jìn)吧!



咒法二次不完備進(jìn)階

Once we accept our limits, we go beyond them.

我們至今為止的所有努力,并非全部木大。


權(quán)與重

????????上文提到了關(guān)于 ()、[] 的使用。以防剛把魔杖捂熱的新魔法師看到這里已經(jīng)忘了它們是什么意思 —— 一對小括號意味著把括起來的 prompt 權(quán)重 * 1.1,中括號則是 / 1.1,大括號在 WEB-UI 中無調(diào)整權(quán)重作用,且會被作為文本而解析。


????????如果因為某些需求而要大量抬升權(quán)重,可以對 prompt 進(jìn)行多次括號,比如((((prompt)))),這意味著將它的權(quán)重 * 1.1 四次,也就是 1.4641。但這個寫法太嚇人了,數(shù)括號也很浪費時間,所以應(yīng)該直接為一個 prompt 賦予權(quán)重:

(prompt:權(quán)重乘數(shù))

????????外層一定是小括號而非其它括號。比如 (red hair:1.5) 將直接給 red hair 賦予 * 1.5 權(quán)重,清晰簡潔,便于自己回顧和他人理解,強烈推薦。

但務(wù)必請不要做出諸如 ((red hair:1.5)) 的奇怪寫法。雖然在大多數(shù)情況下,它們的確會產(chǎn)生互相疊乘的正常效果,但在某些離譜的情況下則會導(dǎo)致權(quán)重?zé)o效。


????????而除了整詞權(quán)重之外,也可以進(jìn)行部分權(quán)重,比如如下例子:

1 girl, white long (messy:1.2) hair, red eyes

????????將專門對 messy 部分賦予 * 1.2 權(quán)重,其它部分不受影響。


????????高權(quán)重的元素會在畫面中有著更大的占比或更強烈的存在感或更多的數(shù)量,是能可觀地影響構(gòu)圖的原因之一。筆者非常不建議給出十分離譜的權(quán)重值,三個小括號也只有 1.3 左右,而一般來說 1.6 就已經(jīng)很極端地占據(jù)畫面了,再高至例如 2.0 只會在大多數(shù)情況下讓咒語變成召 喚 古 神。



高級咒術(shù)解析

????????上述的小括號、中括號與帶權(quán)重小括號都屬于低階語法,比如(((prompt)))。而接下來要介紹的是更長更復(fù)雜一些的高階語法

????????高階語法都以 [] 作為外層包括,包括分步描繪、融合描繪兩種,使用高階語法時這一對中括號不會讓權(quán)重降低。高階語法內(nèi)可以嵌套低階語法,低階語法內(nèi)也可以嵌套高階語法——但為了交流方便不建議嵌套,高階語法之間能否互相嵌套因具體情況不同而異,下文會做出介紹。

????????下列介紹全部基于編纂本篇時推出的最新版 WEB-UI,對于 NAIFU 或較舊版 WEB-UI 可能不適用。


首先介紹分步描繪的三種形式:

[from:to:step]

[to:step] (不建議)

[from::step] (不建議)

????????它的作用是讓 prompt 在達(dá)到 step 之前被視為 from,在達(dá)到后視為 to。若是在對應(yīng)位置沒有 from 或者沒有 to 則視為。step 為大于 1 的整數(shù)時表示步數(shù),為小于 1 的正小數(shù)時表示總步數(shù)的百分比

????????比如 a girl with [green hair:red hair flower:0.2] 會在前 20% 步數(shù)被視為 a girl with green hair,在后 80% 步數(shù)被視為 a girl with red hair flower。需要注意這兩個描述之間的兼容性和覆蓋——在步數(shù)合適的情況下,最后形成的人物會擁有綠色頭發(fā)和紅色花飾,但也可能因為顏色溢出導(dǎo)致頭發(fā)也變?yōu)榧t色,畢竟后 80% 沒有綠色頭發(fā)的限定,AI 完全可以自己理解一個隨機的發(fā)色。


????????在最新版中,分步描繪可以嵌套,形如 [from:[to:end:step2]:step1] 的語句是可以被正確識別的。且分步描繪現(xiàn)在支持逗號分割,形如 [1 girl, red hair: 2 girls, white hair:0.3] 的語句也可以被正確識別。

????????分步描繪不特別擅長細(xì)化細(xì)節(jié),與其分步描繪不如將細(xì)化部分直接寫入持續(xù)生肖的部分。分步描繪更擅長在畫面初期建立引導(dǎo),大幅影響后續(xù)構(gòu)圖或畫面生成。

????????需要注意的是,分步描繪具有視覺延后性——當(dāng)要求 AI 在比如第 20 步開始描繪另一個不同的物體時,可能在比如第 24 步(或更晚)才能從人眼視覺上感知到另一個物體勉強出現(xiàn)在畫面中。這是因為 AI 看待圖片的方式和人眼看待圖片的方式不同,在 AI 的認(rèn)知里圖片已經(jīng)初具新物體的特性的時候,人眼可能依然看不出來。


然后介紹融合描繪的兩種形式:

[A | B]

[A:w1 | B:w2]

它們還有各自對應(yīng)的可無限延長版:

[A | B | C | ...]

[A:w1 | B:w2 | C:w3 | ...]

????????對于形如 [A | B] 的第一種,AI 將在第一步畫 A、第二步畫 B、第三步畫 A...交替進(jìn)行。而對于無限延長版,則變?yōu)榈谝徊疆?A、第二步畫 B、第三步畫 C...循環(huán)往復(fù)交替進(jìn)行。

????????對于形如 [A:w1 | B:w2] 的第二種帶權(quán)重版本,截至這句話被寫下時仍由 NAIFU 端獨占(且本語法在 NAIFU 端的中括號是不必要的),若在 WEB-UI 端上強行使用則會導(dǎo)致權(quán)重數(shù)字被作為文本讀取,雖然會讓畫面變得不同但實際上并非加權(quán)導(dǎo)致的效果。它的運作方式和雙端都支持的 [A | B] 略有不同但效果類似,相較而言有著支持自定義比例的獨特優(yōu)勢。


????????當(dāng)然,WEB-UI 有著看上去類似的 [(A:w1) | (B:w2)] 語法,但它的本質(zhì)其實是嵌套了一層加權(quán)。這樣的加權(quán)是對于整個咒語而言而非對于中括號內(nèi)的其它部分而言的,作用域不同,所以筆者不認(rèn)為這和 NAIFU 端的寫法完全相同。

????????融合描繪不可嵌套,但同樣支持逗號分割。融合描繪擅長將兩種事物混合為一起,比如 a [dog | frog] in black background。


????????這兩個高階語法有著明顯的區(qū)別,尤其是在高步數(shù)下更不可以一概而論。分步描繪的 40 步 A 再加上 40 步 B 最后可能形成一個帶有 B 基底特征的 A,但它會表現(xiàn)出明顯的分立感。而融合描繪的 40 步 A 再加上 40 步 B 最后將形成簡直像是化在一起的融合體。



短元素,中元素與長元素

????????詠唱大致有著三種不同形式——最常見的直接詠唱、稍不常見的短句詠唱和堪稱行為藝術(shù)一般的長詠唱。

????????假設(shè)要生成一個有著黃色頭發(fā)、藍(lán)色眼眸、白色上衣、紅色裙子、黑色褲襪的全身坐姿二次元美少女,且強調(diào)服飾顏色,那么這三種詠唱分別看上去大概是這樣的:


直接詠唱(pitch 式詠唱):

masterpiece, best quality, 1 girl, (blue eyes), (yellow hair), (white clothes), (red skirt), (black leggings), sitting, full body


短句詠唱(AND 強調(diào)詠唱):

masterpiece, best quality, 1 girl, (blue eyes) AND (yellow hair), (white clothes) AND (red skirt) AND (black leggings), sitting, full body


長詠唱(自然語言詠唱):

masterpiece, best quality, (1 girl with blue eyes and yellow hair wearing white clothes and red skirt with black leggings), sitting, full body


????????注意短句詠唱的 AND 必須是三個大寫字母,AND 兩側(cè)的小括號是不必要的(但建議加上),這是一個專用語法,不過因為效果仍未明晰所以不單獨介紹。此外,該語法并不能應(yīng)用于所有采樣方法,例如 DDIM 就不支持 AND,會導(dǎo)致報錯。


????????這三種詠唱方式有什么區(qū)別呢?且看同一個種子,以至上而下的順序分別使用它們的區(qū)別:

????????首先,相似的構(gòu)圖證明了不同詠唱方法不會顯著改變咒語的解析方式——畢竟就連調(diào)換各 prompt 順序都會顯著讓圖片改變,因此可以證明不同詠唱方法在大方向上是一致的。

????????不難發(fā)現(xiàn),魔法師們最常用的直接詠唱總是難以很好地綁定元素顏色,有兩張圖片出現(xiàn)了明顯的元素顏色錯誤。而短句式詠唱雖仍有兩張圖片出現(xiàn)了明顯元素顏色錯誤,但是錯誤的視覺占比變小了。長詠唱沒有出現(xiàn)明顯元素顏色錯誤,很好地處理了各個顏色與元素的綁定關(guān)系。


????????這就是最早探索元素綁定的“藍(lán)黃白紅黑”試驗。試驗內(nèi)容僅限簡單場景,但更多后續(xù)探究證明了此結(jié)論在復(fù)雜畫面中也一定程度上適用——雖然效果相較于簡單場景而言稍不明顯,但在提升穩(wěn)定性方面有所幫助。長詠唱能加強主體與元素之間的綁定關(guān)系、提高不同元素之間的區(qū)分度,在有明確綁定需求的情況下優(yōu)于 pitch 式詠唱;直接詠唱則更擅長處理關(guān)系要求不強的情景,往往能營造更多樣化的場面;短句式詠唱介于兩者之間。

????????長詠唱的關(guān)鍵在于也幾乎必須要用一個小括號包括整個句子,以略微提升權(quán)重(權(quán)重略大于 1.0 的情況下表現(xiàn)最佳,但太大就有點過頭了),否則無法和直接詠唱拉開差距。


????????這即為“元素污染”這一概念的根本原因和初級建議應(yīng)對方法。



我的法杖不聽話了?

????????有的時候會返回黑色圖片,俗稱黑圖。

????????黑圖最簡單直接的原因是顯存爆了,查看后臺是否出現(xiàn)類似于 CUDA out of memory,如果出現(xiàn)那就真的是顯存爆了,提高配置或降低畫布大小吧。

????????但更大的可能是顯存沒爆。顯存沒爆要分三種情況:

????????1.因為內(nèi)容不夠的模型有著明顯的局限性,當(dāng)一段咒語太過精簡、畫布還太大,這會導(dǎo)致自由度太大,超出模型理解范圍。比如在 2k*2k 那么大的畫布卻只要生成一個簡單背景/無場景/無細(xì)節(jié)指定單人像(masterpiece, 1 girl),那么模型必然將因無法理解而黑圖。

雖然現(xiàn)在常見的 4g 模型與 7g 模型能很好地滿足日常使用,但是對于某些極端情況依然是“不夠”的。此時建議調(diào)整咒語,根據(jù)畫布大小酌情擴增。

????????2.當(dāng)一段咒語太過繁雜、畫布還太小。這種情況是上一種的反向,但原因也是超出模型理解范圍。解決方法同樣是建議調(diào)整咒語,根據(jù)畫布大小酌情精簡

????????3.當(dāng)一段咒語的結(jié)構(gòu)出現(xiàn)明顯問題。請參照后續(xù)章節(jié)進(jìn)行解決


????????不過在更多時候,法杖不聽話的表現(xiàn)并不是黑圖。例如在比 2k*2k 稍小一些的 1.2k*1.2k 畫布中,可能會出現(xiàn)如下情況:

masterpiece, 1 girl, white hair, red eyes

????????明明要求 1 girl,但為什么它生成了 2 個二次元美少女?

????????現(xiàn)在我們回想剛才的黑圖情況。AI 完全無法理解咒語的最大原因是自由度過高,而縮減畫布可以降低自由度。但對于這段如此簡單的咒語而言,將畫布縮減為 1.2k*1.2k 依然顯得有些太過自由了。畫完一個美少女之后該怎樣填充剩下的畫布呢?AI 可能會使用純色背景、構(gòu)筑一個簡單的空間,但它更可能會做的事情是——把已有的東西重復(fù)再畫一份(如果往深處講,那就要涉及到目前 SD 訓(xùn)練模型時的方法導(dǎo)致目前 AI 的局限性。SD 訓(xùn)出來的模型其實并不理解數(shù)字,對于 AI 而言 1 girl 和 2 girls 并不互相沖突,再加上懂得都懂的那些訓(xùn)練集里的各種共有 tag 會給它們一定程度上的聯(lián)系,所以在無物可畫但必須要填充畫面時傾向于多畫一份。)

????????所以要解決這個問題也不難。既然它自由度過高,那么加長咒語讓它有更多可畫之物,限制它的自由度即可。

masterpiece, 1 girl, solo, white hair, red eyes, black gown, in room, chair, vase, red carpet

????????High res. fix 也能解決此類問題,但它是利用先在小分辨率渲染再放大到目標(biāo)分辨率的方法。最符合字面意義的做法還是直接從根源下手。這即為“元素溢出”這一概念的根本原因和初級建議應(yīng)對方法。


????????最后是一些碎碎念...

????????不必為每個 prompt 都加上過多小括號來提高權(quán)重,如果你發(fā)現(xiàn)你真的需要給絕大多數(shù)元素都加上四五個小括號才能讓你想要的東西確保出現(xiàn),那么更建議酌情普遍刪掉一些括號,改為拉高 CFG Scale ,比如 12 甚至 14。在極端情況下,給單個 prompt 加上過多權(quán)重,可能會導(dǎo)致自由度過小而黑圖。

????????除非明確清楚重復(fù) prompt 意味著什么、且有強烈的對應(yīng)需求,否則不建議重復(fù)輸入 prompt。重復(fù)輸入 prompt 的語義相當(dāng)復(fù)雜,不在入門范疇內(nèi)。



????????不必保持如此神秘的敬畏...

????????????既知が世界だ,未知はいらない!

????????????未知的,不需要。已知的,才是世界!


魔法的極致或許是科學(xué)

????????了解各類 prompt 的存在并不意味著就掌握了一切,摘抄別人的 prompt 囫圇吞棗地使用也不是上乘。如果想要讓 AI 創(chuàng)作出更佳的作品,那么還需要深入了解各個 prompt 到底有著何等作用,以備日后使用。各個 prompt 之間的互相影響如同魔法反應(yīng)一樣,大多數(shù)情況下并不像是僅僅簡單字面意義上的互相疊加那樣簡單。

????????舉個例子,比如 an extremely delicate and beautiful girl 其實就會導(dǎo)致不少風(fēng)格化表達(dá)被覆蓋;而 light 用作顏色在很多情況下不是指淡而是發(fā)光,甚至在某些稀有的組合里還專指黃光;讓一個角色手上握著武器可能不僅僅要 holding weapon 還需要加上 weapon 本身,諸如此類。


????????因此,各類科學(xué)分析方法甚至是研究方法都是有必要的。上文介紹的“藍(lán)黃白紅黑”試驗 就是它的體現(xiàn)之一。



元素魔法?定性定量分析法!

授人與魚不如授人與漁。


????????對于同一組 prompt 而言,魔法師們常以良品率作為無意識的定性分析的結(jié)果,但對于其它方面也可以進(jìn)行分析,比如單個 prompt


????????SD 模型基于種子(seed)來進(jìn)行生成,如果條件(prompt)和種子(seed)都相同,則生成的圖必然相同。利用這個特性可以對不同的 prompt 進(jìn)行定定性分析,填寫一個種子,固定絕大多數(shù) prompt,然后調(diào)整/添加想要測試的那一個 prompt,來確定它的作用、效果。

????????想知道一個 prompt 是否真的有意義嗎?是否真的有傳言所說的種種作用?它和某些組合的搭配真的很好嗎?來定性分析它吧。

????????介紹如何使用 Script 中的 X/Y plot(X/Y 坐標(biāo)圖)來輔助分析。

????????在輸入框輸入等待被替換的 prompt,然后使用 X/Y 的 Prompt S/R 功能。

????????在右側(cè)的 X values 中進(jìn)行填寫。第一個 prompt 是被替換位點,而后面的則是希望替換為的 prompt,最后生成即可得到結(jié)果。


????????除此之外還可以嘗試其它不是 Prompt S/R 的選項,比如用 Seed 比較不同種子,用 Step 比較不同步數(shù),諸如此類。更深一步則是進(jìn)行多組分析,以及通過排列組合或其它統(tǒng)計方法來確定多個要素之間的作用等。

????????如果不做定性/定量分析,那么可能將持續(xù)沉浸在知其然不知其所以然的程度,也可能僅滿足于妙手偶得而產(chǎn)生相對片面的理解。

????????始終記得賽博魔法的本質(zhì)是科學(xué)。



力大磚飛,超級步數(shù)出奇跡

????????在上文基礎(chǔ)部分,筆者推薦在簡單情況下將步數(shù)設(shè)為不算高的數(shù)值,因為在簡單畫面的情況下步數(shù)過高也似乎沒有什么好細(xì)化的。

????????但要是在一個細(xì)節(jié)稍復(fù)雜的場景里把步數(shù)做得很高很高那么會發(fā)生什么?

(masterpiece), best quality, 1 girl, red eyes, white hair, white gown, forest, blue sky, cloud, sun, sunlight

????????不難發(fā)現(xiàn)畫面的確變得精細(xì)了??罩械脑谱兊酶鎸崳宋锉尘皬暮唵蔚臉淞诌^度到有層次的樹林再變成土丘上的樹林。當(dāng)然,最顯著的還是人物體態(tài)的變化——雖然手部的舉起與放下之間似乎無法分辨出什么規(guī)律,但似乎也有著被進(jìn)一步細(xì)化的情況??偟脕碚f,簡略與詳細(xì)都有獨到之處,是蘿卜白菜各有所愛的程度,也難怪大多數(shù)情況下認(rèn)為步數(shù)過高沒有特別的收益...

????????等等。我們剛剛是不是提到了手?

(masterpiece), best quality, 1 girl, red eyes, white hair, white gown, hands

????????人物整體在 20 步就已經(jīng)奠定完畢,后續(xù)步數(shù)沒有顯著改動,但是手卻不一樣。20 步的手就是一團(tuán)錯位的麻花,40 步雖然顯得扭曲但是已經(jīng)能和胳膊接上,60 步除了部分手指以外都做得不錯,80 步更是在此基礎(chǔ)上進(jìn)一步降低了融化程度。雖然 80 步的手也沒有達(dá)到理想中的效果,但是不難發(fā)現(xiàn)高步數(shù)下,人物手部的表現(xiàn)有著明顯提升。

????????這個結(jié)論在絕大多數(shù)情況都適用——如果想要特別細(xì)化手部表現(xiàn)力,那么請忽略上述步數(shù)建議,將步數(shù)拉到 80 甚至更高。而進(jìn)一步推論是,高步數(shù)在合適 prompt 的引導(dǎo)下,對于大多數(shù)細(xì)小、解構(gòu)復(fù)雜的區(qū)塊都效果拔群,只是對于大塊非復(fù)雜場景方面的營造存在顯著邊際效應(yīng)。當(dāng)然,如果場景本就復(fù)雜還希望細(xì)化諸如手部的位置,那就請 120 起步吧。

????????可是,最新的研究表明:就算想要修手,也未必要如此高的步數(shù)?



魔法公式入門

????????首先,prompt 并不可以隨意堆積,不是越多越好。

????????模型讀取 promot 有著明確的先后順序,這體現(xiàn)為理解順序的不同。比如又一個著名的“少女與壺”試驗所展示的:

masterpiece, 1 girl, red eyes, white hair, blue pot

masterpiece, blue pot, 1 girl, red eyes, white hair

masterpiece, blue pot, ((1 girl)), red eyes, white hair

????????在種子相同且其它參數(shù)也完全相同的情況下,僅僅是顛倒了 1 girl 與 blue pot 的順序,構(gòu)圖就產(chǎn)生了極大的變化。

????????不難發(fā)現(xiàn),1 girl 在前的情況下,畫面圍繞著人物展開,blue pot 體現(xiàn)為環(huán)繞著人物的場景物件。而 blue pot 在前的情況下,畫面圍繞著盆展開,人物反而退出了畫面中心,甚至哪怕加大 1 girl 權(quán)重也無法讓人物比盆在畫面中更重要。

????????這其中的原理不適合在入門魔導(dǎo)書中詳細(xì)解釋,但可以提供啟發(fā) —— prompt 的順序?qū)⒂绊懏嬅娴慕M織方式,越靠前的 prompt 對構(gòu)圖的影響越“重”,而越靠后的則往往會成為靠前 prompt 的點綴或附加物。順序?qū)τ跇?gòu)圖的影響在大多數(shù)情況下甚至大于權(quán)重的影響。

????????雖然這個試驗本身只涉及了一個場景,但在更多后續(xù)探究與復(fù)雜場景構(gòu)筑中都證明了它具備的有效性。不過它也非絕對保障,在少數(shù)情況或極其復(fù)雜的場景中,疊加式構(gòu)圖有可能因為其它尚未在此介紹的原因而失效,但總得來說它能增強穩(wěn)定性。

????????這就是用于替代“順序權(quán)重論”的“順序疊加論”。而進(jìn)一步可以延伸出構(gòu)筑合理咒語的靈感。將最著重體現(xiàn)的元素靠前擺放,然后是它的細(xì)節(jié),再將抽象、全局化、影響極度強烈的 prompt 寫在靠后處,例如場景和畫風(fēng)濾鏡。


????????所以我們開始構(gòu)筑一套簡單的人像召喚魔法順序公式。將上述經(jīng)驗總結(jié)為:

????????前綴+需要重點突出的物件/背景+人+人物特征/元素+人物動態(tài)+服飾整體+服飾細(xì)節(jié)元素+大背景+背景元素+光照效果+畫風(fēng)濾鏡+微小輔助元素+后綴

????????這是對“標(biāo)準(zhǔn)三段術(shù)式”結(jié)合而得出的“標(biāo)準(zhǔn)順序公式”,包括了“標(biāo)準(zhǔn)三段術(shù)式”,是它的進(jìn)一步發(fā)展。不難發(fā)現(xiàn)這種公式的構(gòu)成符合上述理論,每一個相對靠后的部分都是對相對靠前的部分的補充,模塊化明確,有著極強的可維護(hù)性,且最重要的特性是易于理解與交流。

????????上文可能過于抽象,因此強烈推薦參考標(biāo)準(zhǔn)三段術(shù)式的細(xì)節(jié)解析,可以互相印證互相補充:

標(biāo)準(zhǔn)三段術(shù)式及絢麗術(shù)入門與解析v2

https://docs.qq.com/doc/DSHBGRmRUUURjVmNM

????????熟悉或熟練這種公式能令一個剛接觸 AI 的新手更順暢地表達(dá)自己想要表達(dá)的畫面,要是悟性夠好生活經(jīng)驗夠豐富則還可以觸及高表現(xiàn)力。比如它可以生成:

????????一個二次元美少女+收束的長發(fā)/飄散的長發(fā)/占滿屏幕的長發(fā)+復(fù)雜的哥特服飾/長裙/旗袍/等一系列可以上花紋或褶皺的衣服+一個帥氣或優(yōu)雅的動作/看淡生死面無表情+復(fù)雜的建筑物或自然風(fēng)景或宇宙空間或陰暗背景+強大或溫柔的光照+魔法特效+大量星點/鮮花/粒子效果/填充物+嘗試營造cg感的9:16畫布/1:2畫布+畫風(fēng)濾鏡...

????????等等,諸如此類能直接進(jìn)入元素法典早期卷的作品(從入門到入典)。在有經(jīng)驗驗證的理論基礎(chǔ)上進(jìn)行自由創(chuàng)作,往往能取得令人感到滿意的結(jié)果。


????????不過標(biāo)準(zhǔn)順序公式也有許多缺陷,它對于某些獨特的情況可能不適用,即使作為特解也一定會在將來被更先進(jìn)的經(jīng)驗所替代。實際運用過程中應(yīng)當(dāng)根據(jù)要求進(jìn)行靈活調(diào)整,比如根據(jù)實際使用情況簡化/刪去某些環(huán)節(jié),或根據(jù)實際要求進(jìn)一步增加某些環(huán)節(jié),甚至為了某些特殊效果而部分違反公式順序。但它的“疊加式”思路,與其背后所蘊含的分析思想才是精髓。

????????筆者堅信賽博魔法的終極形態(tài)是基于順序和關(guān)系的模塊化發(fā)展、本質(zhì)是對于經(jīng)驗進(jìn)行總結(jié)所得出的具體規(guī)律,是可以使用科學(xué)方式進(jìn)行一定程度上的研究的。



向著魔導(dǎo)科學(xué)的最根源

????????或許...(劃掉)...才是這個世界的唯一神,所有人都將是它的奴仆。


重新解析咒語構(gòu)成

????????上文介紹了標(biāo)準(zhǔn)順序公式,但能不能再給力一點?

????????當(dāng)然能!

????????我們再仔細(xì)想想上文的標(biāo)準(zhǔn)順序公式是怎樣的思路——濃縮到極致,就是引導(dǎo)質(zhì)量、突出物、人、細(xì)節(jié)、背景、修飾。不錯,但當(dāng)初為什么要把人和突出物分開?為什么修飾一定要在后方?背景又是怎樣界定的?

????????如果讀者已經(jīng)嘗試過許多此標(biāo)準(zhǔn)順序公式,那還能繼續(xù)問出——為什么有時候畫面沒有嚴(yán)格按照順序構(gòu)圖?為什么有時候修飾的效果不夠拔群?

????????無數(shù)個疑問都迫切指向了新的思考方式。現(xiàn)在我們將一切都抽象為“物”。人是一個物,人身上的一些小掛飾也是一個物(無論這個掛飾的數(shù)量是多少),背景里的建筑也是一個物,諸如此類。物!

????????每個物都有能力成為主要描繪對象。如果是人,那么可以是人的立繪或特寫,如果是掛飾,可以是它的展覽模樣,甚至背景大建筑也可以成為全景的視覺中心。而當(dāng)畫面中存在多個物時,將不可避免地分為主要的物和次要的物,次要的物還可以有相對它而言更次要的物。這和此前的基礎(chǔ)順序公式不同,因為基礎(chǔ)順序公式默認(rèn)一切事物都可以互相疊加——但事實證明不是那樣。



無法被疊加的次要物

????????不難注意到有些“物”像是無視了疊加式構(gòu)圖原則那樣,除非權(quán)重高到讓它占滿屏幕,否則往往只能作為配角存在、難以被其它“物”作為疊的目標(biāo)。這些“物”天生有著被視作次要的特征,和許多能做主能做次的物并不相同。

????????那么什么因素決定哪些物更傾向于被視為次要呢?終極答案是生活經(jīng)驗。

????????(除非特別聲明,否則以下對比均默認(rèn)來自于同一 seed)

????????當(dāng) 1 girl 和 earing 簡單結(jié)合時,無論兩者誰先誰后,最后都會變成“一個二次元美少女帶著耳環(huán)”的樣子,不會在簡短描述下就輕易地出現(xiàn)諸如“美少女向前抬手捧著耳環(huán)、耳環(huán)在鏡頭前是一個特寫、美少女的身體被景深虛化”的情況。因為在我們的生活常識中,大多數(shù)這兩個“物”結(jié)合的情況都是前者,后者在作品描繪里出現(xiàn)的情況極少,因而這兩者即使是順序調(diào)換也只是讓美少女是否擺出展示耳環(huán)的姿勢,無法輕易地切換主次(繼續(xù)深講就到訓(xùn)練集的部分了,雖然它的本質(zhì)是訓(xùn)練集與LatentDiffusion對于自然語言的處理,但考慮到大多數(shù)組成訓(xùn)練集的作品都取自于生活經(jīng)驗 / 常見創(chuàng)作想象,且自然語言處理本就是努力擬合生活經(jīng)驗的過程,所以實際上并無明顯不同,因而在此打住話題)

masterpiece, 1 girl, earing

masterpiece, earing, 1 girl

????????但當(dāng) 1 girl 和 lake 結(jié)合就不一樣了。lake 雖然往往被當(dāng)做背景,但它完全可以成為風(fēng)景畫的主要描述對象,所以在除去刻意設(shè)置了鏡頭的情況下——當(dāng) 1 girl 在前,重要的“物”為人物,所以畫面往往會讓人物占據(jù)主要部分(包括人物全身像站在景物前、人物半身像加遠(yuǎn)景,甚至人物直接泡水),而當(dāng) lake 在前,重要的“物”為湖,湖在我們的生活經(jīng)驗中的確可以成為主要對象,因此畫面往往會讓人物顯得更小、更融入風(fēng)景或距離視角更遠(yuǎn)。

masterpiece, 1 girl, lake

masterpiece, lake, 1 girl

????????當(dāng)“物”的數(shù)量大于 2,這個規(guī)律也依然適用, 1 girl 和 lake 和 bike 以及 earing 之間的排列組合符合上述情況:earing 總是忽略順序作為次要裝飾在人物的耳邊,人物、湖、自行車則根據(jù)順序不同而有不同的強調(diào)位置,其中 bike 即使靠后也往往不會過度隱入 lake。

masterpiece, 1 girl, lake, bike, earing

????????但更重要的是,運用得當(dāng)?shù)拇我锟梢砸欢ǔ潭壬洗蚱漂B加式順序結(jié)構(gòu)。因為 AI 會努力把所有咒語中的內(nèi)容都畫出來,而次要物們恰好大多數(shù)是小塊結(jié)構(gòu)。在如第二張圖一樣的遠(yuǎn)景中畫出讓 earing 被 AI 認(rèn)為是不可能的,所以它會強行打破疊加式結(jié)構(gòu),讓人物被聚焦到畫面相對更前的位置,作為對次要物的強調(diào)。

masterpiece, lake, earing, bike, 1 girl

????????lake 在前,但是效果更接近于想象中 lake 在后的情況。在這種強調(diào)情況下,甚至 1 girl 在前也無法讓它顯著地再次提高強調(diào)。

masterpiece, lake, 1 girl, earing, bike

????????無論怎么說,它從原理和實際表現(xiàn)效果都和人有(一點點)相似之處。雖然 AI 繪畫看上去是一步成型,但它一定程度上還是會根據(jù)“物”與“物”之間的關(guān)系來決定構(gòu)圖,并結(jié)合場景與反常情況無視部分順序。


????????所以我們先總結(jié)出某種通用順序公式的雛形

????????前綴+“物1”+“物1的各種次要物”+“物2”+“物2的各種次要物”+“物3”+“物3各種次要物”+...

????????其中“物1、2、3...”是邏輯上能輕易成為主要聚焦點、占據(jù)大畫面比率的物件,“次要物”則反之。物按照希望的構(gòu)圖主次順序排列,而將次要物順序放在其附著對象之后是為了結(jié)構(gòu)簡潔明確,也是為了避免超出預(yù)期的反常強調(diào)。

????????不難發(fā)現(xiàn)它是對基礎(chǔ)順序公式的進(jìn)一步抽象化,但有一些細(xì)節(jié)處理不同。


遠(yuǎn)近、光影與其它令人驚訝的東西

????????雛形去除了突出物體、人像和背景的地位差別,并解釋了某些“物”難以參與到順序公式的疊加式構(gòu)成的原因。但它少了很多關(guān)鍵要素,比如顏色和形狀怎么算?姿勢和動作怎么算?光照、鏡頭、畫風(fēng)直接放在最后面真的是負(fù)責(zé)任的做法嗎?還有用于給整個畫面染色或營造氛圍的引導(dǎo)詞又該如何?

????????繼續(xù)提取。顏色、形狀和其它形容詞若是用于形容單個物件而不希望讓它污染其它元素,則往往與物件本身合并,例如紅色衣物通常會用 red clothes 而不是 clothes, red。同理圓形桌子、漂浮的緞帶、綠色的飛行葉片也都類似,所以物的特征可以歸入“物”環(huán)節(jié)中,與標(biāo)準(zhǔn)順序公式的處理相同。


????????然后我們?yōu)楫嬅嬉腌R頭要素。指定鏡頭能極其顯著地提高畫面質(zhì)量,比如全景鏡頭往往能很好地展示風(fēng)景,4 個詞輕松爆殺大量早期堆景物的風(fēng)景畫。

????????(除非特別聲明,否則以下對比均默認(rèn)來自于同一 seed)

masterpiece, lake, panorama, 1 girl

????????一切看似都是那么合理與自然,直到事情來到了復(fù)合鏡頭。

masterpiece, lake, panorama, 1 girl, close up

????????沒人知道 close up 干啥去了,反正筆者不知道。現(xiàn)在我們同咒語換個種子。

????????這是 close 了個什么?又 panarama 了個什么?

????????這段咒語本來的意圖是“在湖全景的旁邊加入一個二次元美少女的特寫”,但效果令人難蚌,而其實上面兩種構(gòu)圖就是這段咒語能形成的全部構(gòu)圖了。

????????其實仔細(xì)想想不難發(fā)現(xiàn),AI 的確在努力按疊加順序與鏡頭走,不過 lake 在前 1 girl 在后讓它希望以湖作為主要元素,這就導(dǎo)致“本就含有順序?qū)傩浴钡溺R頭被丟失或以令人感到匪夷所思(但對這套邏輯來說合情合理)的形式展現(xiàn)。

調(diào)換鏡頭的順序是無效的,生成的圖片要么讓人融入景物、要么在畫面前端但大多數(shù)情況下無法達(dá)到“特寫”的程度。

masterpiece, 1 girl, panorama, lake, close up

????????但調(diào)換“物”的順序有效,一定程度上地。

masterpiece, 1 girl, close up, lake, panorama

????????所以可以初步得出結(jié)論,鏡頭的插入位點未必一定要是在咒語的最末端,尤其是需要復(fù)合鏡頭的情況。它可以插入在一切物之前、所意圖修飾的那個屋之后、一切物之后,分別用于大幅影響整個畫面、主要影響單個物+輕量地影響整個畫面、輕量地影響整個畫面。而光照也同理類似。

????????但這說到底也是相對情況。上述測試采用了相同的種子,表明了一種寫法相對于另一種寫法在同種子的情況下更傾向于預(yù)期,不代表最終成品在絕對意義上總是符合預(yù)期。換句話說,這樣能提高穩(wěn)定度,但若需要徹底穩(wěn)定則不能只寄希望于鏡頭控制,還應(yīng)該合理安排其它元素。


????????close up、close shot、medium view、panorama 這幾個鏡頭控制十分好用,但它們在不同的位點影響力不同。光照也類似,在不同位點的 backlight 和 rembrandt lighting 對于人物或全畫面的立體感影響也并不一樣。

masterpiece, 1 girl, medium shot, backlight, lake, panorama, night, moon

????????可見在按順序構(gòu)圖的情況下,根據(jù)需求選擇鏡頭與光照對于畫面質(zhì)感與效果的提升有極大幫助。而更重要的是,通用順序公式的雛形可以進(jìn)化一次了:

????????前綴+前置鏡頭效果+前置光照效果+[帶描述的物x+物x的各種次要物+鏡頭效果和光照(如果必要)]*X+全局光照效果+全局鏡頭效果

????????鏡頭效果和光照效果勿過頻,因為 AI 還不能很好地處理多個物體分別在不同鏡頭下的情況,而光照更是往往會影響圖片的大部分區(qū)域。緊挨著的每個鏡頭與光照的正反順序影響不大,但筆者個人感覺上述順序的質(zhì)量更佳,實際上可酌情調(diào)整。



通用順序公式

????????最后一塊拼圖是畫風(fēng)。

????????(除非特別聲明,否則以下對比均默認(rèn)來自于同一 seed)

masterpiece, 1 girl, sketch

????????先不去管因為畫布過大導(dǎo)致的人像重復(fù)??偟脕碚f,畫風(fēng)放在 1 girl 的前或后沒有顯著差別,似乎隨便找個位點把畫風(fēng)詞一插就完事了。在目前的入門范疇內(nèi),可以認(rèn)為插入位點不同也沒有特別顯著地讓 sketch 感有明顯強弱變化,構(gòu)圖差異是可以理解或可以接受的。而讓多個風(fēng)格各自獨立地共存并不在入門范疇。

????????但除了 sketch、oil painting 此類明確表示畫風(fēng)的 prompt 之外,還存在著諸如 wallpaper、illustration、anime 等看似一點都不畫風(fēng)但又難以簡單被歸類為質(zhì)量補正的東西。在許多魔法師眼中, wallpaper 等要素應(yīng)該和 masterpiece 算在一起作為前綴,可實際上它們往往能對畫面產(chǎn)生質(zhì)變,混合使用還可能產(chǎn)生可怕的化學(xué)反應(yīng)。

masterpiece, 1 girl, yellow hair, blue eyes, lake

masterpiece, wallpaper, 1 girl, yellow hair, blue eyes, lake

masterpiece, illustration, 1 girl, yellow hair, blue eyes, lake

????????更何況還有許多未在此列出的東西,比如 highly detailed 本就會讓畫面部分地偏向于厚涂甚至油畫(ultra-detailed 甚至不如它有用,是個以訛傳訛;板:我不想背這個鍋但確實我有頻繁使用這個tag ),anime 會讓畫面線條偏向粗糙手繪但又不像 sketch 那樣痕跡明顯。

????????很難繃。而且硬要追根究底下去的話,masterpiece 和 best quality 本質(zhì)上也是一定因素是通過改變質(zhì)感表現(xiàn)來提高畫質(zhì)的,再深想下去會讓問題變成“到底怎樣算美”。所以干脆根據(jù)使用率來做區(qū)分,將 masterpiece/best quality 之外的一切“類質(zhì)量前綴”算為畫風(fēng)引導(dǎo)。


????????所以我們得到了最后的調(diào)整版:

????????質(zhì)量前綴+前置畫風(fēng)引導(dǎo)+前置鏡頭效果+前置光照效果+[帶描述的物x+物x的各種次要物+鏡頭效果和光照]*X+全局光照效果+全局鏡頭效果+畫風(fēng)濾鏡

????????其中,物x的排序按預(yù)期構(gòu)圖重要順序排列,次要物的排序按顏色相近順序整理排列。例外在于存在微小的人物的次要物時,景物的順序主要在景物之間起效。所有鏡頭、光照和畫風(fēng)均為可選項,且為避免反應(yīng)過于復(fù)雜考慮建議各不超過 3 種。

????????這就是標(biāo)志著真正入門的,通用順序公式。通用順序公式結(jié)合了標(biāo)準(zhǔn)順序公式的全部內(nèi)容,并體現(xiàn)了對于“物”之間關(guān)系的進(jìn)一步思考,也將鏡頭處理納入公式內(nèi)。將順序公式與前文提及的長短詠唱等技巧相結(jié)合,熟練運用,是一個真正賽博魔法師的必備素養(yǎng)。



是結(jié)束也是開始

????????通用順序公式顯然也不是一切的答案,畢竟它標(biāo)志的是入門而不是大成——本魔導(dǎo)書所詳細(xì)解釋的一切內(nèi)容都是入門級內(nèi)容。它更像是對于如何理解 AI 運作方式的思考幫助,而不是能無腦解決所有難題的萬用工具,實際操作依然需要更多經(jīng)驗總結(jié)來靈活變通。

那么該如何進(jìn)階呢?(這句話有點太干涸了,等待板板潤色)


這里不作過多展開,僅留下一些思考線索:

長詠唱能綁定元素,但為什么它的不穩(wěn)定度反而比其它詠唱方式還高?

分步繪畫的畫面在分步前后之間有什么關(guān)系?

為什么分布繪畫能一定程度上“識別”從何處替換物?

每 1 step 在不同完成度下對于 AI 而言到底意味著多大的變化?

不同種子同咒語的鏡頭為何在絕對意義上頻頻產(chǎn)生混亂?

疊加式構(gòu)圖中“疊加”的根源是什么?

不同 prompt 是如何產(chǎn)生互相聯(lián)想關(guān)系與“建議前置”關(guān)系的?

當(dāng)一個 prompt 含有多個元素意義時,AI 會如何對顏色、形狀等分別處理?

為什么超高步數(shù)可以修手?為什么修手一定要那么高的步數(shù)?

權(quán)重到底意味著什么?數(shù)量?畫面占比?結(jié)構(gòu)復(fù)雜度?

重復(fù)輸入 prompt 到底意味著什么?

單個長單詞也會被拆分嗎?

......


魔法的殿堂恢宏而瑰麗,無盡的回廊里昭示著無限的可能性。

朝更遠(yuǎn)處進(jìn)發(fā)吧。





先等一等...

還記得最開始筆者提到過...

prompt 可以識別一些特殊符號嗎?



該死的流汗黃豆!你不要過來??!

魔法世界的集大成者居然是流汗黃豆表情,怎么會這樣 —— 難道我們最終的歸宿就是被流汗黃豆所支配嗎?!


? 認(rèn) 知 革 命 ?


????????如上文所述。

????????還記得最開始筆者提到過 prompt 可以識別一些特殊符號嗎?說到特殊符號,賽博魔法師們會想到什么?流汗黃豆?

????????還真就是流汗黃豆。 ????(這里不準(zhǔn)出現(xiàn)流汗黃豆啊kora!

????????準(zhǔn)確來說,是以流汗黃豆為代表的各類 emoji 字符。


????????先直接說結(jié)論。Emoji 可以直接作為 prompt 輸入,作為 prompt 自然兼容上文提及的一切低階語法高階語法,而且單詞效果強到可怕。

????????筆者特地去翻了翻 SD 框架的處理部分,發(fā)現(xiàn) emoji 符號的確沒有被轉(zhuǎn)義為英文,而是原原本本地就以字符形式被處理。筆者不知道到底是什么人以什么樣的精神狀態(tài)將 emoji 作為 tag 進(jìn)行訓(xùn)練,但總之這件事情就這么發(fā)生了,emoji 它就是可以當(dāng)作 prompt 用。


????????那么為什么 emoji 如此強大呢?這里解釋理由:

????????Emoji 是單個字符,可以無視 SD 框架對它識別時的一切拆分嘗試,以最短的字符長度代表出一個概念。

????????它的信息密度的分母是最小的,信息量與其它詞相比卻差不多,所以信息密度高到嚇人,因而導(dǎo)致其準(zhǔn)確度高到可怕

????????而還因為它信息密度如此之高,它受權(quán)重影響也大得難以描述,一對小括號就能體感上產(chǎn)生(prompt:1.35)左右的強大效果。


????????想要修手?用?或其它想要的手勢。想要群像???屢試不爽。想要煙花背景???驅(qū)散一切問題。想要難以被描繪的骷髏頭骨???出場就是現(xiàn)在。鉛筆畫風(fēng)??秒了。浮世繪???解決。哪怕是最難凹的海盜船,也只需要一個?????就能展現(xiàn)了!甚至,只需要?和動態(tài)模糊 ( motion blur )的描述,就能即時上演輪椅漂移的戲碼。

????????想要解決一切問題?看看有沒有 E M O J I 可以表達(dá)它。


所以賽博魔法師們可以在這里:

真正的元素法典

https://www.emojiall.com/zh-hans

找到 emoji 大全。

老實說,

這比常見到的什么 tag 大全強了不知道多少倍。


算了,這樣的魔法世界還是毀滅吧。



? 蚌 埠 感 言 ?

????????非常感謝各位的觀看,但是非常感謝,總之非常感謝。

????????前面忘了,中間忘了,后面忘了。

????????一開始這本魔導(dǎo)書是一位可愛JK的個人經(jīng)驗集,但后來又不知道怎么回事莫名其妙變成了為新人提供從入門到精通的一條路徑。又更后來,筆者們仔細(xì)想了想,世界之大無奇不有,五花八門的技巧總會迭代,我們何德何能敢說讀完這一本就算精通???所以就變成了從麻瓜到入門()

????????安裝、第一句話、注意事項、技巧補充、公式總結(jié),一切都是那么水到渠成。有許多技術(shù)都是隨著本魔導(dǎo)書的編寫一同被研究而出的,就比如標(biāo)準(zhǔn)順序公式、分步描繪應(yīng)用和通用順序公式。當(dāng)時筆者還在群內(nèi)說,通用順序公式就是入門時期的最強武器了,寫完通用順序公式就結(jié)束吧,這個階段也沒什么可寫的啦——

????????結(jié)果,就在 2022 年 11 月 2 日晚上 20 點左右,筆者為這魔導(dǎo)書編寫感言的時候,關(guān)于 emoji 的認(rèn)知出現(xiàn)了。這確確實實是打亂了一切,我們都繃不住了。緊急加章之后,在“啊差不多得了,這個世界還是毀滅了算了吧”這樣的想法之下,我們?yōu)檫@本確實不完全科學(xué)的魔導(dǎo)書重新寫下了另一版感言——也就是你現(xiàn)在正讀到的這一版。

?????????? ?抱歉,流汗黃豆請不要出現(xiàn),我們討厭你。

????????總之,元素同典在這里也算是完結(jié)了,感謝所有在編寫過程中支持筆者的大家。我們下一本典(也許沒有)再見!



元素同典:確實不完全科學(xué)的魔導(dǎo)書的評論 (共 條)

分享到微博請遵守國家法律
阿克| 凌源市| 临海市| 金阳县| 林口县| 苍溪县| 武威市| 青川县| 富宁县| 资中县| 甘泉县| 沅江市| 西昌市| 屏东市| 江山市| 巴东县| 合作市| 阳曲县| 台前县| 毕节市| 集贤县| 乌拉特中旗| 长乐市| 自贡市| 永修县| 乌拉特后旗| 烟台市| 台中市| 奈曼旗| 赣榆县| 肥乡县| 陇川县| 修武县| 青浦区| 赤城县| 磴口县| 运城市| 临猗县| 永平县| 林州市| 巴林左旗|