散文網(wǎng) » 科技 »學(xué)習(xí) » DreamBooth Hackathon FAQ 來(lái)啦

DreamBooth Hackathon FAQ 來(lái)啦

2023-01-29 15:20 作者:HuggingFace 0人讀過(guò) | 我要投稿

我們正在和和鯨社區(qū)共同舉辦 DreamBooth 微調(diào)活動(dòng)。詳細(xì)介紹請(qǐng)看以下鏈接。本文是我們總結(jié)討論群大家遇到的常見(jiàn)問(wèn)題作的 FAQ希望對(duì)大家有幫助

免費(fèi)；零基礎(chǔ)；提供算力；提供代碼；國(guó)內(nèi)服務(wù)器，無(wú)網(wǎng)絡(luò)要求；真的只要傳幾張照片就可生成你的文生圖模型了；快來(lái)玩吧；還有獎(jiǎng)品！歡迎轉(zhuǎn)發(fā):?歡迎參加 Hugging Face DreamBooth 微調(diào)編程馬拉松活動(dòng)！

開(kāi)始 Hackathon 之前我需要準(zhǔn)備什么？

HuggingFace 賬戶，用于上傳模型
HeyWhale 賬戶，用于獲取計(jì)算資源
幾張關(guān)于你想訓(xùn)練的概念的圖片（可以是照片，電腦繪圖或者 CG 生成的內(nèi)容等）

訓(xùn)練一個(gè)模型大概要多久？

快的話 30 分鐘就夠了。如果想多次嘗試，做到比較滿意的效果，有 2-3 個(gè)小時(shí)的話應(yīng)該就夠了。如果遇到無(wú)法解決的問(wèn)題，歡迎來(lái)群里討論。

我完全沒(méi)有編程基礎(chǔ)，能參加嗎？

完全可以。這里還有一個(gè)保姆級(jí)的教程可以參考（感謝小帥同學(xué)）：

圖片有什么要求嗎？

主體清晰。背景顏色可以稍微多元化一點(diǎn)，但最好不要特別復(fù)雜，防止模型將背景的一部分內(nèi)容/特性/紋理誤認(rèn)為是訓(xùn)練概念的一部分。
建議使用 jpg 格式。png 格式暫不支持（小挑戰(zhàn): 如果你成功的修改了 notebook 并支持了 png 格式，請(qǐng)聯(lián)系我們～）
建議使用 https://www.birme.net/ 將圖片裁切成正方形
最少四張。notebook 里面有一段代碼寫(xiě)死了邏輯，

什么是 type_of_thing 和 name_of_concept?

簡(jiǎn)單來(lái)說(shuō) Dreambooth 就是通過(guò)一個(gè)官方模型已經(jīng)學(xué)會(huì)的概念來(lái)學(xué)習(xí)此概念的一個(gè)新的實(shí)例。

比如說(shuō)訓(xùn)練一個(gè)能生成的我家狗狗 caicai 的模型，那么 type_of_thing = “dog" name_of_concept = "caicai"

注意 type_of_thing 一定是一個(gè)模型已經(jīng)了解的概念。name_of_concept 一定是一個(gè)模型沒(méi)有學(xué)習(xí)過(guò)的詞匯?？梢酝ㄟ^(guò)調(diào)用官方模型來(lái)了解模型是否了解這些概念。也可以查看 diffusers 模型的 tokenizer/vocab.json 來(lái)了解。這次 hackathon 我們默認(rèn)使用的是 SD1.4 的模型，可以參考以下文件 https://huggingface.co/CompVis/stable-diffusion-v1-4/raw/main/tokenizer/vocab.json 如果文件中沒(méi)有對(duì)應(yīng)詞匯則說(shuō)明模型不理解該概念。

我想訓(xùn)練一個(gè)風(fēng)格，可以嗎？

可以的。但是訓(xùn)練一個(gè)新的風(fēng)格比訓(xùn)練一個(gè)已經(jīng)學(xué)習(xí)過(guò)概念的實(shí)例要復(fù)雜一些。需要有更多的樣本和調(diào)整過(guò)的超參數(shù) (learning rate, steps 等等)。具體細(xì)節(jié)歡迎加微信群交流。

如何上傳我的數(shù)據(jù)集

可以參考 https://huggingface.co/datasets/xianbao/my-dreambooth 或者 https://huggingface.co/docs/datasets/image_dataset 教程

我的模型看起來(lái)不錯(cuò)，但為什么上傳模型文件要那么久？

文生圖模型比較大，大概有 4-5G 并且有的時(shí)候會(huì)遇到網(wǎng)絡(luò)連接不穩(wěn)定的情況，所以有時(shí)候可能會(huì)比較久。如果失敗，請(qǐng)重試。

常見(jiàn)報(bào)錯(cuò)

RuntimeError: Given groups=1, weight of size [128, 3, 3, 3], expected input[1, 4, 512, 512] to have 3 channels, but got 4 channels instead

數(shù)據(jù)集含有 png 圖片，請(qǐng)轉(zhuǎn)換成 jpg 格式

請(qǐng)注意 work 目錄用量已超過(guò) 90%

work 目錄空間有限，請(qǐng)刪除一些無(wú)用文件。如果沒(méi)有，則可忽略此消息。

為什么我產(chǎn)生的圖片是黑的？

NSFW (Not safe for work) 檢測(cè)器生效了。有的時(shí)候他可能會(huì)過(guò)于緊張。請(qǐng)嘗試重新生成圖片。因?yàn)殡S機(jī)數(shù)的作用每次生成的圖片都會(huì)有所不同哦。

為什么我生成的圖片手指的數(shù)量不對(duì)。

這個(gè)是一個(gè)老大難問(wèn)題了。可以嘗試重新生成或者自己 PS 一下。使用基于 SD2 的官方模型可能會(huì)效果好一些（但新模型可能會(huì)有比較難 prompt 的問(wèn)題）。

為什么我生成的圖只有紋理，沒(méi)有形狀？

請(qǐng)確保 prompt 同時(shí)包括 type_of_thing 和 name_of_concept

CUDA out of memory 了怎么辦？

可能有些 cell 被重復(fù)執(zhí)行，但內(nèi)存沒(méi)有被釋放?？梢詧?zhí)行 notebook 里面清空 CUDA cache 的命令來(lái)釋放內(nèi)存。類(lèi)似于以下代碼：

Webui 無(wú)法載入我的模型

Webui 的 ckpt 格式和我們這個(gè) noetbook 使用的 diffusers 格式略有不同，可以參考這個(gè)文檔來(lái)轉(zhuǎn)化（感謝 hhhxynh@）：https://zhuanlan.zhihu.com/p/599017886

如何參加評(píng)獎(jiǎng)

請(qǐng)?jiān)?HeyWhale 社區(qū)上提交 repo 地址
可以在這里看到自己的當(dāng)前的全球排名 https://huggingface.co/spaces/dreambooth-hackathon/leaderboard
每個(gè)類(lèi)別的前三名可以獲得全球的獎(jiǎng)品
一般 HeyWhale 平臺(tái)創(chuàng)建的模型都會(huì)帶有 -heywhale 后綴，所以也可以看到自己在 HeyWhale 上的排名

如何獲得更多的點(diǎn)贊

建議將一些生成效果還不錯(cuò)的圖片和對(duì)應(yīng)的 prompt 加到 readme.md
HF 的 markdown editor 支持粘貼圖片自動(dòng)上傳
在你的朋友圈宣傳一下吧

再次特別感謝 HeyWhale 對(duì)本次活動(dòng)的資源支持。群友 hhhxynh@ 在群里的熱心答疑。感謝海辛老師對(duì)活動(dòng)宣傳的支持。

我們的 Hackathon 還有最后四天提交時(shí)間。大家加油～

標(biāo)簽：