【玩轉(zhuǎn)SD】再也不用寫提示詞了 SDXL最新技術(shù)Revision 用圖片代替提示詞

Hello大家好,我是探索Latent Space的程序員小志Jason。
今天來分享一下SDXL的最新技術(shù)Revision。
簡單來說,Revision就是把圖片轉(zhuǎn)變成模型能理解的概念,
比如:

這張圖,我們?nèi)庋勰茏x出來的信息有米老鼠,手套,白色背景,紅色褲子等等,
如果用反推提示詞也可以得到類似的提示詞,
但是revision不一樣的是,它可以把人類或者反推軟件忽略的元素也一并轉(zhuǎn)換成模型可以理解的概念,比如3D渲染等
信息的轉(zhuǎn)譯會導(dǎo)致信息流失,比如之前一直用的反推軟件,往往不能完整概括圖片里面所有的元素,而revision由于是圖片直接轉(zhuǎn)成embedding,跳過了圖->字->embedding中間文字的轉(zhuǎn)譯,所以可以攜帶更多的信息。
簡單介紹過后,先來說一下使用前的準(zhǔn)備工作,
更新comfyui,更新已經(jīng)安裝的custom_nodes,如果還沒有,請安裝comfyui manager,可以幫助你安裝缺失的custom_nodes
下載revision相關(guān)文件:
官方地址:
https://huggingface.co/stabilityai/control-lora/tree/main/revision
我的國內(nèi)備份,里面包含我加的一個負(fù)面圖工作流
夸克網(wǎng)盤:https://pan.quark.cn/s/a3b5fe126cc2
把下載好的clip_vision_g.safetensors
放到 ComfyUI\models\clip_vision 里面
Revision和之前controlnet的reference only很大的不同是,
revision甚至可以讀取到圖片里面的字,把字轉(zhuǎn)化成模型能理解的概念,
如下圖:
輸入了一張寫有cute dog的圖片,經(jīng)過clip vision encode->weight image轉(zhuǎn)化成condition,居然能輸出文字里面的概念,畫出了小狗,效果還是相當(dāng)驚艷的

除了讀取一張圖片以為,還可以讀取多張圖片,然后把condition連接起來,同時生效。
這里我們分別放入一張米老鼠的圖片和之前的小狗文字圖,經(jīng)過概念混合后,我們得到了4張同時具有兩張圖概念的圖片,其中左下角的那張?zhí)貏e明顯,分別具有米老鼠和小狗的特征

經(jīng)過上面兩個例子,應(yīng)該都能明白revision圖片轉(zhuǎn)condition的大概流程,那么我們是不是可以把一些我們不想要的圖,放到負(fù)面里面,達(dá)到類似于textual invertion的效果呢?當(dāng)然可以
下面這張是沒有應(yīng)用負(fù)面revision的圖

這張是應(yīng)用了負(fù)面revision的圖

我們可以看到,我們把不一樣的米老鼠作為負(fù)面revision輸入到neg condiction里面,能有效的把米老鼠這一個特征從原圖里面去掉。
同時也可以誕生出,把不好的圖放到負(fù)面revision里面,來避開不想要的概念,比如跑真人圖的時候放動漫圖,等等各種層出不窮的應(yīng)用。
歡迎各位分享轉(zhuǎn)發(fā),
這是我的群,我會在群里分享各種我留意到的技術(shù)
如果有什么技術(shù)方面的問題,我也會盡能力回答
歡迎進(jìn)來交流,謝謝各位的觀看,有緣再見。
