2023.02.24 ArXiv精選
關(guān)注領(lǐng)域:
AIGC
3D computer vision learning
Fine-grained learning
GNN
其他
聲明
論文較多,時(shí)間有限,本專欄無法做文章的講解,只挑選出符合PaperABC研究興趣和當(dāng)前熱點(diǎn)問題相關(guān)的論文,如果你的research topic和上述內(nèi)容有關(guān),那本專欄可作為你的論文更新源或Paper reading list.
內(nèi)容豐富
感謝@秋刀魚的煉丹工坊建議!增加文章對(duì)應(yīng)的ArXiv鏈接(但由于小破站無法放站外鏈接,可能會(huì)影響訪問).
增加每篇文章的中文快速導(dǎo)讀內(nèi)容.

Paper list:
AIGC:
DiffusioNeRF: Regularizing Neural Radiance Fields with Denoising Diffusion Models
https://arxiv.org/pdf/2302.12231.pdf

使用擴(kuò)散模型來對(duì)NeRF的學(xué)習(xí)進(jìn)行指導(dǎo),從而解決NeRF由于訓(xùn)練數(shù)據(jù)過少導(dǎo)致出現(xiàn)偽影問題.

Designing an Encoder for Fast Personalization of Text-to-Image Models
https://arxiv.org/pdf/2302.12228.pdf

定制化或者個(gè)性化大規(guī)模預(yù)訓(xùn)練的擴(kuò)散模型實(shí)際上是將該模型tuning到一個(gè)新的domain,從而實(shí)現(xiàn)對(duì)新concept的圖像生成.之前的個(gè)性化工作存在著訓(xùn)練時(shí)間過長(zhǎng),存儲(chǔ)消耗過大等問題.本文提出基于encoder的快速的個(gè)性化方法,可以在秒數(shù)量級(jí)下完成.

Region-Aware Diffusion for Zero-shot Text-driven Image Editing
https://arxiv.org/pdf/2302.11797.pdf

區(qū)域級(jí)別的擴(kuò)散模型,實(shí)現(xiàn)小樣本下的文本驅(qū)動(dòng)的圖像編輯工作.

Controlled and Conditional Text to Image Generation with Diffusion Prior
https://arxiv.org/pdf/2302.11710.pdf

本文重點(diǎn)探討了Diffusion Model的prior信息也可以用于可控的圖像生成.

3D 視覺
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion
https://arxiv.org/pdf/2302.12251.pdf

自監(jiān)督學(xué)習(xí):
Learning Visual Representations via Language-Guided Sampling
https://arxiv.org/pdf/2302.12248.pdf

提出使用語言之間的相似度指導(dǎo)視覺樣本之間的對(duì)比學(xué)習(xí),細(xì)節(jié)上來看,就是利用文本之間的相似度指導(dǎo)圖像正負(fù)樣本對(duì)的形成.屬于跨模態(tài)對(duì)比學(xué)習(xí)內(nèi)容.

Teaching CLIP to Count to Ten
https://arxiv.org/pdf/2302.12066.pdf

出發(fā)點(diǎn)非常有趣的一篇文章,目的是讓現(xiàn)在的視覺語言大模型具備counting的能力,宏觀上說可以理解為具備識(shí)別組合形式信息的能力.具體做法是生成一些數(shù)量上不匹配的反事實(shí)圖文對(duì),通過對(duì)比損失實(shí)現(xiàn)訓(xùn)練.