2023.03.10 ArXiv精選
關(guān)注領(lǐng)域:
AIGC
3D computer vision learning
Fine-grained learning
GNN
其他
聲明
論文較多,時間有限,本專欄無法做文章的講解,只挑選出符合PaperABC研究興趣和當(dāng)前熱點問題相關(guān)的論文,如果你的research topic和上述內(nèi)容有關(guān),那本專欄可作為你的論文更新源或Paper reading list.

Paper list:
今日ArXiv共更新108篇.
AIGC
Scaling up GANs for Text-to-Image Synthesis
https://arxiv.org/pdf/2303.05511.pdf

CMU的工作.現(xiàn)階段的文本到圖像的生成工作,大多數(shù)都是被擴(kuò)散模型,自回歸模型所壟斷.本文提出了一個想法,能否將GAN scale up到大型數(shù)據(jù)集例如LAION上.于是,本文提出了GigaGAN,能夠以較快的速度實現(xiàn)高像素的圖像生成.
3DGen: Triplane Latent Diffusion for Textured Mesh Generation
https://arxiv.org/pdf/2303.05371.pdf

來自于Meta的一篇工作,提出了一個triplane VAE來學(xué)習(xí)帶有紋理的mesh的latent representation, 然后利用一個條件擴(kuò)散模型完成生成.很推薦這篇文章,尤其是做3D跨模態(tài)生成的方向.
Controllable Video Generation by Learning the Underlying Dynamical System with Neural ODE
https://arxiv.org/pdf/2303.05323.pdf

Unifying Layout Generation with a Decoupled Diffusion Model
https://arxiv.org/pdf/2303.05049.pdf

微軟亞洲研究院的工作,提出一個解耦的擴(kuò)散模型用于layout generation.
CoralStyleCLIP: Co-optimized Region and Layer Selection for Image Editing
https://arxiv.org/pdf/2303.05031.pdf

Adobe公司的工作,提出CoralStyleCLIP,通過在styleGAN2的特征空間中,使用多層注意力引導(dǎo)的混合策略,從而實現(xiàn)圖像的高保真編輯.
視覺語言學(xué)習(xí)
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
https://arxiv.org/pdf/2303.05499.pdf
大灣區(qū)研究院的一篇工作,將DINO推廣到了Open-Set Object Detection,從而提出了grounding DINO,質(zhì)量很高.最近會分享.