2023.03.07 ArXiv精選
關(guān)注領(lǐng)域:
AIGC
3D computer vision learning
Fine-grained learning
GNN
其他
聲明
論文較多,時間有限,本專欄無法做文章的講解,只挑選出符合PaperABC研究興趣和當(dāng)前熱點問題相關(guān)的論文,如果你的research topic和上述內(nèi)容有關(guān),那本專欄可作為你的論文更新源或Paper reading list.

Paper list:
今日ArXiv共更新82篇.
2D 視覺
Detecting Human-Object Contact in Images
https://arxiv.org/pdf/2303.03373.pdf

發(fā)表于CVPR2023的工作,挖了一個新坑:human-object contact detection. 本文最主要的貢獻(xiàn)是提供了新的數(shù)據(jù)集,填補(bǔ)此領(lǐng)域研究的空白.
CapDet: Unifying Dense Captioning and Open-World Detection Pretraining
https://arxiv.org/pdf/2303.02489.pdf

本文提出了一個框架,主要用于統(tǒng)一Dense captioning和Open-World Detection的預(yù)訓(xùn)練.
Vision-Language learning
HICLIP: CONTRASTIVE LANGUAGE-IMAGE PRETRAINING WITH HIERARCHY-AWARE ATTENTION
https://arxiv.org/pdf/2303.02995.pdf

ICLR 2023接受的工作.是一篇基于CLIP的改進(jìn)工作,主要思想就是在CLIP的基礎(chǔ)上引入hierarchy-aware attention,使得CLIP能夠capture分層的視覺語言信息.
DECAP: DECODING CLIP LATENTS FOR ZERO-SHOT CAPTIONING VIA TEXT-ONLY TRAINING
https://arxiv.org/pdf/2303.03032.pdf

ICLR2023接受的文章.也是做CLIP的改進(jìn),核心思想是訓(xùn)練一個Decoder來對CLIP text embedding進(jìn)行重建.之后圖像的embedding便可以轉(zhuǎn)換至Text embedding空間,實現(xiàn)text captioning.這樣的做法最大的優(yōu)點就是免去了pair數(shù)據(jù).
Prismer: A Vision-Language Model with An Ensemble of Experts
https://arxiv.org/pdf/2303.02506.pdf

組合多個大模型獲得更強(qiáng)的能力.與昨天更新的一篇文章有些類似.
細(xì)粒度學(xué)習(xí):
Fine-Grained Classification with Noisy Labels
https://arxiv.org/pdf/2303.02404.pdf

噪聲標(biāo)簽學(xué)習(xí)和細(xì)粒度學(xué)習(xí)的結(jié)合.發(fā)表在CVPR2023,由于細(xì)粒度數(shù)據(jù)inter-class之間的差異非常小,導(dǎo)致造成的噪聲會更嚴(yán)重.本文基于對比學(xué)習(xí),分別提出了一個noise-tolerated的損失對noisy label進(jìn)行糾正,其次提出一個高效的特征采樣模塊,幫助表征性能學(xué)習(xí).