多模態(tài)方向有哪些最新研究進(jìn)展?
最近多模態(tài)相關(guān)的論文好火,原因就不多說了(懂得都懂),因?yàn)橛胁簧偻瑢W(xué)來問了,學(xué)姐就火速整理了一部分來和你們分享。(沒更完,后續(xù)更新)
主要整理了6篇最新的多模態(tài)論文,還有10+篇經(jīng)典必讀論文,大家可以看文末領(lǐng)取!
6篇最新論文
1.CLIP-VG: Self-paced Curriculum Adapting of CLIP via Exploiting Pseudo-Language Labels for Visual Grounding
論文貢獻(xiàn):作者提出了CLIP-VG,利用預(yù)訓(xùn)練模型CLIP和偽語言標(biāo)簽進(jìn)行自定進(jìn)度課程適應(yīng),實(shí)現(xiàn)無監(jiān)督地理定位。另外,作者也設(shè)計(jì)了端到端網(wǎng)絡(luò),并提出單/多源課程適應(yīng)算法。
CLIP-VG超過最新無監(jiān)督方法6.78-14.87%,甚至超過弱監(jiān)督方法。
2.ChatGPT-Like Large-Scale Foundation Models for Prognostics and Health Management: A Survey and Roadmaps
論文貢獻(xiàn):作者系統(tǒng)闡述了關(guān)鍵組成部分和最新 LSF模型的發(fā)展,回答了如何構(gòu)建適用于PHM任務(wù)的LSF模型,并概述了挑戰(zhàn)和未來這種研究范式的發(fā)展路線圖。
3.MiniGPT4: Enhancing Vision-Language Understanding with Advanced Large Language Models
論文貢獻(xiàn):作者提出MiniGPT-4,使用一個投影層將視覺編碼器和語言模型Vicuna對齊,可以根據(jù)給定圖像寫故事和詩歌,為圖像中顯示的問題提供解決方案,以及根據(jù)食品照片教用戶烹飪等。
4.InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language
論文貢獻(xiàn):作者提出了交互視覺框架InternGPT,簡稱iGPT。該框架集成了具有計(jì)劃和推理功能的聊天機(jī)器人功能,例如 ChatGPT,具有指向等非語言指令,使用戶能夠直接操作圖像或視頻的動作。
5.LLaVA: Visual Instruction Tuning
論文貢獻(xiàn):作者首次嘗試使用僅語言的GPT-4生成多模態(tài)語言圖像遵循指令的數(shù)據(jù)。
通過在這樣生成的數(shù)據(jù)上進(jìn)行指令調(diào)整,作者提出LLaVA:大型語言和視覺助手。這是一種端到端訓(xùn)練的大型多模態(tài)模型,它將視覺編碼器和LLM連接起來,用于通用的視覺和語言理解。
6.MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving
論文貢獻(xiàn):作者提出了多模態(tài)3D語義分割模型MSeg3D,通過聯(lián)合模態(tài)特征和跨模態(tài)融合以解決多模態(tài)困難。
4篇預(yù)訓(xùn)練
1.Learning Transferable Visual Models From Natural Language Supervision
論文貢獻(xiàn):作者提出通過預(yù)測圖像和文本配對來預(yù)訓(xùn)練視覺模型,達(dá)到SOTA性能,證明這種無監(jiān)督預(yù)訓(xùn)練可以有效地學(xué)習(xí)視覺表示,并在30+下游任務(wù)上進(jìn)行實(shí)驗(yàn),表現(xiàn)出非平凡的泛化能力,有時(shí)甚至超過完全監(jiān)督的模型。
2.Unifying Vision-and-Language Tasks via Text Generation
論文貢獻(xiàn):作者提出一個統(tǒng)一的框架,在單個架構(gòu)中采用相同的語言建模目標(biāo)來學(xué)習(xí)不同的任務(wù),即多模態(tài)條件文本生成,其中該模型基于視覺和文本輸入生成文本中的標(biāo)簽。
3.UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning
論文貢獻(xiàn):作者提出了一個統(tǒng)一的模態(tài)預(yù)訓(xùn)練架構(gòu),即UNIMO,可以有效適應(yīng)兩種單一模式,以及多模態(tài)理解和生成任務(wù)。
通過利用大規(guī)模的自由文本語料庫和圖像集合,提高了視覺和文本理解的能力,并通過跨模態(tài)對比學(xué)習(xí)(CMCL)將文本和視覺信息對齊到一個統(tǒng)一的語義空間中。
4.ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
論文貢獻(xiàn):作者提出了一個最小的VLP模型Vision-and-Language Transformer (ViLT),在處理視覺輸入方面極大地簡化為與處理文本輸入完全相同的無卷積方式。
2篇表征學(xué)習(xí)
Deep Multimodal Representation Learning: A Survey
Watching the World Go By: Representation Learning from Unlabeled Videos
............
6篇多模態(tài)融合
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars
Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal Sentiment Analysis
Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for RGB-D Scene Understanding
SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
............
需要論文合集的同學(xué)!
關(guān)注“學(xué)姐帶你玩AI”公眾號
回復(fù)”多模態(tài)“免費(fèi)領(lǐng)??!