DreamBooth Hackathon FAQ 來(lái)啦
我們正在和和鯨社區(qū)共同舉辦 DreamBooth 微調(diào)活動(dòng)。詳細(xì)介紹請(qǐng)看以下鏈接。本文是我們總結(jié)討論群大家遇到的常見(jiàn)問(wèn)題作的 FAQ希望對(duì)大家有幫助

免費(fèi);零基礎(chǔ);提供算力;提供代碼;國(guó)內(nèi)服務(wù)器,無(wú)網(wǎng)絡(luò)要求;真的只要傳幾張照片就可生成你的文生圖模型了;快來(lái)玩吧;還有獎(jiǎng)品!歡迎轉(zhuǎn)發(fā):?歡迎參加 Hugging Face DreamBooth 微調(diào)編程馬拉松活動(dòng)!
開(kāi)始 Hackathon 之前我需要準(zhǔn)備什么?
HuggingFace 賬戶,用于上傳模型
HeyWhale 賬戶,用于獲取計(jì)算資源
幾張關(guān)于你想訓(xùn)練的概念的圖片(可以是照片,電腦繪圖或者 CG 生成的內(nèi)容等)
訓(xùn)練一個(gè)模型大概要多久?
快的話 30 分鐘就夠了。如果想多次嘗試,做到比較滿意的效果,有 2-3 個(gè)小時(shí)的話應(yīng)該就夠了。如果遇到無(wú)法解決的問(wèn)題,歡迎來(lái)群里討論。
我完全沒(méi)有編程基礎(chǔ),能參加嗎?
完全可以。這里還有一個(gè)保姆級(jí)的教程可以參考(感謝小帥同學(xué)):

圖片有什么要求嗎?
主體清晰。背景顏色可以稍微多元化一點(diǎn),但最好不要特別復(fù)雜,防止模型將背景的一部分內(nèi)容/特性/紋理誤認(rèn)為是訓(xùn)練概念的一部分。
建議使用 jpg 格式。png 格式暫不支持(小挑戰(zhàn): 如果你成功的修改了 notebook 并支持了 png 格式,請(qǐng)聯(lián)系我們~)
建議使用 https://www.birme.net/ 將圖片裁切成正方形
最少四張。notebook 里面有一段代碼寫(xiě)死了邏輯,
什么是 type_of_thing 和 name_of_concept?
簡(jiǎn)單來(lái)說(shuō) Dreambooth 就是通過(guò)一個(gè)官方模型已經(jīng)學(xué)會(huì)的概念來(lái)學(xué)習(xí)此概念的一個(gè)新的實(shí)例。
比如說(shuō)訓(xùn)練一個(gè)能生成的我家狗狗 caicai 的模型,那么 type_of_thing = “dog" name_of_concept = "caicai"
注意 type_of_thing 一定是一個(gè)模型已經(jīng)了解的概念。name_of_concept 一定是一個(gè)模型沒(méi)有學(xué)習(xí)過(guò)的詞匯??梢酝ㄟ^(guò)調(diào)用官方模型來(lái)了解模型是否了解這些概念。也可以查看 diffusers 模型的 tokenizer/vocab.json 來(lái)了解。這次 hackathon 我們默認(rèn)使用的是 SD1.4 的模型,可以參考以下文件 https://huggingface.co/CompVis/stable-diffusion-v1-4/raw/main/tokenizer/vocab.json 如果文件中沒(méi)有對(duì)應(yīng)詞匯則說(shuō)明模型不理解該概念。
我想訓(xùn)練一個(gè)風(fēng)格,可以嗎?
可以的。但是訓(xùn)練一個(gè)新的風(fēng)格比訓(xùn)練一個(gè)已經(jīng)學(xué)習(xí)過(guò)概念的實(shí)例要復(fù)雜一些。需要有更多的樣本和調(diào)整過(guò)的超參數(shù) (learning rate, steps 等等)。具體細(xì)節(jié)歡迎加微信群交流。
如何上傳我的數(shù)據(jù)集
可以參考 https://huggingface.co/datasets/xianbao/my-dreambooth 或者 https://huggingface.co/docs/datasets/image_dataset 教程
我的模型看起來(lái)不錯(cuò),但為什么上傳模型文件要那么久?
文生圖模型比較大,大概有 4-5G 并且有的時(shí)候會(huì)遇到網(wǎng)絡(luò)連接不穩(wěn)定的情況,所以有時(shí)候可能會(huì)比較久。如果失敗,請(qǐng)重試。
常見(jiàn)報(bào)錯(cuò)
RuntimeError: Given groups=1, weight of size [128, 3, 3, 3], expected input[1, 4, 512, 512] to have 3 channels, but got 4 channels instead
數(shù)據(jù)集含有 png 圖片,請(qǐng)轉(zhuǎn)換成 jpg 格式
請(qǐng)注意 work 目錄用量已超過(guò) 90%
work 目錄空間有限,請(qǐng)刪除一些無(wú)用文件。如果沒(méi)有,則可忽略此消息。
為什么我產(chǎn)生的圖片是黑的?
NSFW (Not safe for work) 檢測(cè)器生效了。有的時(shí)候他可能會(huì)過(guò)于緊張。請(qǐng)嘗試重新生成圖片。因?yàn)殡S機(jī)數(shù)的作用每次生成的圖片都會(huì)有所不同哦。
為什么我生成的圖片手指的數(shù)量不對(duì)。
這個(gè)是一個(gè)老大難問(wèn)題了。可以嘗試重新生成或者自己 PS 一下。使用基于 SD2 的官方模型可能會(huì)效果好一些(但新模型可能會(huì)有比較難 prompt 的問(wèn)題)。
為什么我生成的圖只有紋理,沒(méi)有形狀?
請(qǐng)確保 prompt 同時(shí)包括 type_of_thing 和 name_of_concept
CUDA out of memory 了怎么辦?
可能有些 cell 被重復(fù)執(zhí)行,但內(nèi)存沒(méi)有被釋放??梢詧?zhí)行 notebook 里面清空 CUDA cache 的命令來(lái)釋放內(nèi)存。類(lèi)似于以下代碼:
Webui 無(wú)法載入我的模型
Webui 的 ckpt 格式和我們這個(gè) noetbook 使用的 diffusers 格式略有不同,可以參考這個(gè)文檔來(lái)轉(zhuǎn)化(感謝 hhhxynh@):https://zhuanlan.zhihu.com/p/599017886
如何參加評(píng)獎(jiǎng)
請(qǐng)?jiān)?HeyWhale 社區(qū)上提交 repo 地址
可以在這里看到自己的當(dāng)前的全球排名 https://huggingface.co/spaces/dreambooth-hackathon/leaderboard
每個(gè)類(lèi)別的前三名可以獲得全球的獎(jiǎng)品
一般 HeyWhale 平臺(tái)創(chuàng)建的模型都會(huì)帶有 -heywhale 后綴,所以也可以看到自己在 HeyWhale 上的排名
如何獲得更多的點(diǎn)贊
建議將一些生成效果還不錯(cuò)的圖片和對(duì)應(yīng)的 prompt 加到 readme.md
HF 的 markdown editor 支持粘貼圖片自動(dòng)上傳
在你的朋友圈宣傳一下吧
再次特別感謝 HeyWhale 對(duì)本次活動(dòng)的資源支持。群友 hhhxynh@ 在群里的熱心答疑。感謝海辛老師對(duì)活動(dòng)宣傳的支持。
我們的 Hackathon 還有最后四天提交時(shí)間。大家加油~