[CVPR2023 Tutorial Talk] Alignments in T

- 圖文生成中的對(duì)齊
- 可控生成(位置等)
- 圖像特定區(qū)域編輯
- 更好匹配提示詞
- 概念客制化(特定事物)
可控生成
文本+錨框
- ReCO
- 基于錨框 的文生圖
- GLIGEN
- 開放集合
- 對(duì)象+錨框生成ground tokens
文本+密集條件(和圖像一致大小)
- Control Net
圖像特定區(qū)域編輯
- Blended LD
- 基于mask
- Prompt-to-Prompt Image Editing with Cross Attention Control
- 交叉注意力
- imagic
- 編輯真實(shí)圖像
- instructpix2pix
- 借助生成工具訓(xùn)練編輯模型
- instruct-X-decoder
- 分割、大模型
更好匹配提示詞
- test time latents
- test time attention
- 對(duì)齊 微調(diào)
- structure diffusion
- 屬性泄露、屬性不匹配、對(duì)象消失
- 基于語言解析樹來執(zhí)行語言結(jié)構(gòu)的交叉注意中的值 查看所有名詞短語
- attend-and-excite
- 增強(qiáng)對(duì)最被忽視的對(duì)象token的最大關(guān)注
- 更新潛在注意力損失
概念客制化(特定事物)
- 單一概念定制
- Dreambooth
- 添加一個(gè)額外標(biāo)識(shí)符 token
- 最初生成樣本以減輕遺忘
- 多概念定制
- Multi-Concept Customization of Text-to-Image Diffusion
- Break-A-Scene:Extracting Multiple Concepts from a Single Image
- 無需測(cè)試時(shí)微調(diào)
- Subject-driven text-to-image generation via apprenticeship learning
- InstantBooth:Personalized Text-to-Image Generation without Test-Time Finetuning
- 檢索增強(qiáng)/上下文生成
- 類似的定制,但沒有測(cè)試時(shí)間微調(diào)
其他討論
- 開源閉源主要平臺(tái)
- 視覺數(shù)據(jù)的消耗和產(chǎn)生:理解(圖生文)——生成(文生圖)循環(huán)
標(biāo)簽: