多模態(tài)最新經(jīng)典論文分享!涵蓋預(yù)訓(xùn)練、表征學(xué)習(xí)、多模態(tài)融合
最近多模態(tài)相關(guān)的論文好火,原因就不多說了(懂得都懂),因為有不少想發(fā)paper的同學(xué)來問了,學(xué)姐就火速整理了一部分來和你們分享。
這次整理了6篇最新的多模態(tài)論文,還有12篇經(jīng)典的文章,主要涉及預(yù)訓(xùn)練、表征學(xué)習(xí)、多模態(tài)融合等熱門細(xì)分方向,論文包大家可以看這里領(lǐng)??!
掃碼添加小享,回復(fù)“多模態(tài)”
免費(fèi)領(lǐng)取全部論文合集

6篇最新論文
1.CLIP-VG: Self-paced Curriculum Adapting of CLIP via Exploiting Pseudo-Language Labels for Visual Grounding
作者提出了CLIP-VG,利用預(yù)訓(xùn)練模型CLIP和偽語言標(biāo)簽進(jìn)行自定進(jìn)度課程適應(yīng),實現(xiàn)無監(jiān)督地理定位。另外,作者也設(shè)計了端到端網(wǎng)絡(luò),并提出單/多源課程適應(yīng)算法。
CLIP-VG超過最新無監(jiān)督方法6.78-14.87%,甚至超過弱監(jiān)督方法。

2.ChatGPT-Like Large-Scale Foundation Models for Prognostics and Health Management: A Survey and Roadmaps
作者系統(tǒng)闡述了關(guān)鍵組成部分和最新 LSF模型的發(fā)展,回答了如何構(gòu)建適用于PHM任務(wù)的LSF模型,并概述了挑戰(zhàn)和未來這種研究范式的發(fā)展路線圖。
3.MiniGPT4: Enhancing Vision-Language Understanding with Advanced Large Language Models
作者提出MiniGPT-4,使用一個投影層將視覺編碼器和語言模型Vicuna對齊,可以根據(jù)給定圖像寫故事和詩歌,為圖像中顯示的問題提供解決方案,以及根據(jù)食品照片教用戶烹飪等。

4.InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language
作者提出了交互視覺框架InternGPT,簡稱iGPT。該框架集成了具有計劃和推理功能的聊天機(jī)器人功能,例如 ChatGPT,具有指向等非語言指令,使用戶能夠直接操作圖像或視頻的動作。

5.LLaVA: Visual Instruction Tuning
作者首次嘗試使用僅語言的GPT-4生成多模態(tài)語言圖像遵循指令的數(shù)據(jù)。
通過在這樣生成的數(shù)據(jù)上進(jìn)行指令調(diào)整,作者提出LLaVA:大型語言和視覺助手。這是一種端到端訓(xùn)練的大型多模態(tài)模型,它將視覺編碼器和LLM連接起來,用于通用的視覺和語言理解。
6.MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving
作者提出了多模態(tài)3D語義分割模型MSeg3D,通過聯(lián)合模態(tài)特征和跨模態(tài)融合以解決多模態(tài)困難。

掃碼添加小享,回復(fù)“多模態(tài)”
免費(fèi)領(lǐng)取全部論文合集

4篇預(yù)訓(xùn)練
1.Learning Transferable Visual Models From Natural Language Supervision
作者提出通過預(yù)測圖像和文本配對來預(yù)訓(xùn)練視覺模型,達(dá)到SOTA性能,證明這種無監(jiān)督預(yù)訓(xùn)練可以有效地學(xué)習(xí)視覺表示,并在30+下游任務(wù)上進(jìn)行實驗,表現(xiàn)出非平凡的泛化能力,有時甚至超過完全監(jiān)督的模型。

2.Unifying Vision-and-Language Tasks via Text Generation
作者提出一個統(tǒng)一的框架,在單個架構(gòu)中采用相同的語言建模目標(biāo)來學(xué)習(xí)不同的任務(wù),即多模態(tài)條件文本生成,其中該模型基于視覺和文本輸入生成文本中的標(biāo)簽。

3.UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning
作者提出了一個統(tǒng)一的模態(tài)預(yù)訓(xùn)練架構(gòu),即UNIMO,可以有效適應(yīng)兩種單一模式,以及多模態(tài)理解和生成任務(wù)。
通過利用大規(guī)模的自由文本語料庫和圖像集合,提高了視覺和文本理解的能力,并通過跨模態(tài)對比學(xué)習(xí)(CMCL)將文本和視覺信息對齊到一個統(tǒng)一的語義空間中。
4.ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
作者提出了一個最小的VLP模型Vision-and-Language Transformer (ViLT),在處理視覺輸入方面極大地簡化為與處理文本輸入完全相同的無卷積方式。

2篇表征學(xué)習(xí)
Deep Multimodal Representation Learning: A Survey
Watching the World Go By: Representation Learning from Unlabeled Videos
6篇多模態(tài)融合
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars
Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal Sentiment Analysis
Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for RGB-D Scene Understanding
SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
掃碼添加小享,回復(fù)“多模態(tài)”
免費(fèi)領(lǐng)取全部論文合集
