最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

整理了16篇多模態(tài)融合優(yōu)質(zhì)論文分享!含2023最新

2023-11-27 17:29 作者:深度之眼官方賬號  | 我要投稿

上回學(xué)姐給大家分享了多模態(tài)方向的好文,今天咱們就來專門聊聊多模態(tài)融合。

多模態(tài)融合是多模態(tài)學(xué)習(xí)領(lǐng)域的基礎(chǔ)問題,也是多模態(tài)研究中非常關(guān)鍵的研究點(diǎn)。它旨在從多個(gè)模態(tài)(例如語音、圖像、文本等)中提取有價(jià)值的信息和特征,并將這些信息融合在一起以提高系統(tǒng)的性能。這一領(lǐng)域的研究內(nèi)容廣泛,包括但不限于多模態(tài)算法的開發(fā)和優(yōu)化、多模態(tài)數(shù)據(jù)的處理和分析、以及多模態(tài)產(chǎn)品的規(guī)劃和設(shè)計(jì)。

目前有關(guān)多模態(tài)融合的研究工作已有了許多值得一看的成果,學(xué)姐簡單整理了一下,今天就和大家分享16篇相關(guān)論文。項(xiàng)目源碼以及論文原文需要的同學(xué)看這里↓

掃碼添加小享,回復(fù)“多模態(tài)融合

免費(fèi)領(lǐng)取全部論文+源碼合集

1、External multi-modal imaging sensor calibration for sensor fusion: A review

傳感器融合的外部多模態(tài)成像傳感器標(biāo)定:綜述

概覽:本文綜述了多模態(tài)成像傳感器標(biāo)定的研究現(xiàn)狀,包括傳統(tǒng)基于運(yùn)動(dòng)的標(biāo)定和基于特征的標(biāo)定。其中,目標(biāo)基標(biāo)定和無目標(biāo)標(biāo)定是兩種常見的基于特征的標(biāo)定方法。此外,系統(tǒng)標(biāo)定是一個(gè)新興研究方向。最后,本文總結(jié)了評估標(biāo)定方法的關(guān)鍵因素,并討論了其應(yīng)用。未來的研究應(yīng)該關(guān)注在線無目標(biāo)標(biāo)定和系統(tǒng)多模態(tài)傳感器標(biāo)定的能力。

2、Provable Dynamic Fusion for Low-Quality Multimodal Data

低質(zhì)量多模態(tài)數(shù)據(jù)的可證明動(dòng)態(tài)融合

概覽:本文研究了多模態(tài)融合中的固有挑戰(zhàn),提出了動(dòng)態(tài)多模態(tài)融合作為學(xué)習(xí)范式。通過理論分析,揭示了不確定性估計(jì)解決方案可以實(shí)現(xiàn)魯棒的多模態(tài)融合。作者還提出了一種名為“質(zhì)量感知多模態(tài)融合”的新型框架,可以提高分類準(zhǔn)確性和模型魯棒性。

3、SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection

用于道路檢測的自適應(yīng)跳過交叉融合

概覽:本文提出了一種新型融合架構(gòu)SkipcrossNets,用于自適應(yīng)地將LiDAR點(diǎn)云和相機(jī)圖像進(jìn)行融合,以進(jìn)行自動(dòng)駕駛?cè)蝿?wù)。該網(wǎng)絡(luò)通過前向方式連接每一層,并使用所有先前層的特征圖作為輸入,并將其自身的特征圖作為輸入傳遞給后續(xù)層的另一種模態(tài),從而增強(qiáng)特征傳播和多模態(tài)特征融合。該網(wǎng)絡(luò)還被分成幾個(gè)塊,以減少特征融合的復(fù)雜性和模型參數(shù)的數(shù)量。

4、FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Object Detection

面向三維目標(biāo)檢測的多傳感器融合與時(shí)間一致性Transformer

概覽:本文提出了一種名為FusionFormer的新型端到端多模態(tài)融合框架,用于3D物體檢測任務(wù)。該框架通過在融合編碼模塊中引入可變形注意力和殘差結(jié)構(gòu)來解決現(xiàn)有方法需要將特征轉(zhuǎn)換為鳥瞰圖空間并可能丟失Z軸上的某些信息的問題。具體而言,該方法通過開發(fā)統(tǒng)一的采樣策略,可以自然地從2D圖像和3D體素特征中進(jìn)行采樣,從而利用靈活的適應(yīng)性,并在特征拼接過程中避免顯式轉(zhuǎn)換到鳥瞰圖空間。

5、Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and 3D Localization

多模態(tài)語義映射用于物體檢測和3D定位

概覽:本文提出了一種基于多模態(tài)傳感器融合的框架,用于在已知環(huán)境中自主檢測和定位預(yù)定義對象。該框架結(jié)合了RGB-D相機(jī)和激光雷達(dá)的RGB和深度數(shù)據(jù),并能夠準(zhǔn)確地檢測到真實(shí)樣本環(huán)境中98%的對象。與單傳感器實(shí)驗(yàn)相比,傳感器融合允許機(jī)器人準(zhǔn)確地檢測近和遠(yuǎn)距離障礙物。

6、DBCNet:Dynamic Bilateral Cross-Fusion Network for RGB-T Urban Scene Understanding in Intelligent Vehicles

用于智能車輛RGB-T城市場景理解的動(dòng)態(tài)雙邊交叉融合網(wǎng)絡(luò)

概覽:本文提出了一種名為DBCNet的動(dòng)態(tài)雙邊交叉融合網(wǎng)絡(luò),用于智能車輛中RGB-T城市場景的理解。作者利用了RGB-T圖像中的多模態(tài)信息,通過引入DBCNet來進(jìn)行RGB-T城市場景理解。實(shí)驗(yàn)表明,DBCNet能夠有效地聚合多層次的深層特征,并優(yōu)于最先進(jìn)的深度學(xué)習(xí)場景理解方法。

7、Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation

多模態(tài)相互關(guān)注和迭代交互用于參考圖像分割

概覽:本文提出了一種名為多模態(tài)相互關(guān)注和多模態(tài)相互解碼器的方法來解決參考圖像分割問題。該方法通過更好地融合語言和視覺信息來提高模型對多模態(tài)信息的理解能力,并引入了迭代多模態(tài)交互和語言特征重建來允許連續(xù)和深入的交互以及防止丟失或扭曲語言信息。實(shí)驗(yàn)表明,該方法顯著改善了基線并始終優(yōu)于最先進(jìn)的參考圖像分割方法。

8、Transfusion:Multi-modal Fusion Network for Semantic Segmentation

用于語義分割的多模態(tài)融合網(wǎng)絡(luò)

概覽:本文提出了一種名為TransFusion的新模型,用于語義分割,該模型直接將圖像與點(diǎn)云融合,無需對點(diǎn)云進(jìn)行有損預(yù)處理。相比于使用帶有深度圖的圖像的基本層FCN模型,TransFusion在Vaihingen和Potsdam數(shù)據(jù)集上將mIoU提高了4%和2%。

9、DeepFusion:Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection ?

用于多模態(tài)3D對象檢測的激光雷達(dá)-相機(jī)深度融合

概覽:本文提出了一種通用多模態(tài)3D檢測模型,用于自動(dòng)駕駛中激光雷達(dá)和相機(jī)的深度融合。作者認(rèn)為融合深層激光雷達(dá)特征和相機(jī)特征可以獲得更好的性能。為了解決兩種模態(tài)的特征對齊問題,作者提出了InverseAug和LearnableAlign兩種新技巧。基于這些技巧,作者開發(fā)了一組名為DeepFusion的通用多模態(tài)3D檢測模型,該模型比以前的方法更準(zhǔn)確。

掃碼添加小享,回復(fù)“多模態(tài)融合

免費(fèi)領(lǐng)取全部論文+源碼合集

10、Multi-exposure image?fusion via deep perceptual enhancement

通過深度感知增強(qiáng)的多曝光圖像融合

概覽:本文提出了一種名為DPE-MEF的深度感知增強(qiáng)網(wǎng)絡(luò),用于多曝光圖像融合。通過整合不同曝光的多個(gè)鏡頭來解決這個(gè)問題,本質(zhì)上是一個(gè)增強(qiáng)問題。在融合過程中,應(yīng)同時(shí)關(guān)注兩個(gè)感知因素,包括信息量和視覺真實(shí)性。所提出的DPE-MEF包含兩個(gè)模塊,其中一個(gè)模塊負(fù)責(zé)從輸入中收集內(nèi)容細(xì)節(jié),另一個(gè)模塊則負(fù)責(zé)最終結(jié)果的顏色映射/校正。實(shí)驗(yàn)表明,該網(wǎng)絡(luò)在數(shù)量和質(zhì)量上優(yōu)于其他最先進(jìn)的替代方案,并且在提高單個(gè)圖像曝光質(zhì)量方面具有靈活性。

11、Rethinking multi-exposure image fusion with extreme and diverse exposure levels: A robust framework based on Fourier transform and contrastive learning

一種基于傅里葉變換和對比學(xué)習(xí)的魯棒框架

概覽:本文提出了一種基于傅里葉變換和對比學(xué)習(xí)的魯棒多曝光圖像融合框架,可以處理具有極端和多樣化曝光水平的圖像。作者開發(fā)了一種基于傅里葉變換的像素強(qiáng)度轉(zhuǎn)移策略來合成具有不同曝光水平的圖像,并訓(xùn)練了一個(gè)編碼器-解碼器網(wǎng)絡(luò)來重建原始自然圖像。同時(shí),作者還提出了一種對比正則化損失來進(jìn)一步增強(qiáng)網(wǎng)絡(luò)恢復(fù)正常曝光水平的能力。在三個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行廣泛比較后,該方法在主觀視覺效果和客觀評價(jià)指標(biāo)上都優(yōu)于其他方法。

12、Bridging the View Disparity Between Radar and Camera Features for Multi-modal Fusion 3D ObjectDetection

基于multi-moda的雷達(dá)和相機(jī)特征之間的視差橋接

概覽:本文提出了一種在鳥瞰圖下實(shí)現(xiàn)雷達(dá)和相機(jī)特征融合的新方法,以用于3D目標(biāo)檢測。該方法使用多尺度圖像2D特征和空間-時(shí)間編碼器提取的雷達(dá)特征,通過視圖變換將圖像特征轉(zhuǎn)換為BEV,并使用點(diǎn)融合和ROI融合模型進(jìn)行多模態(tài)特征融合。實(shí)驗(yàn)結(jié)果表明,該方法在nuScenes數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。

13、Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medical image segmentation

半監(jiān)督醫(yī)學(xué)圖像分割的多模態(tài)對比互學(xué)習(xí)與偽標(biāo)簽再學(xué)習(xí)

概覽:本文提出了一種半監(jiān)督對比互學(xué)習(xí)分割框架Semi-CML,該框架利用跨模態(tài)信息和不同模態(tài)之間的預(yù)測一致性進(jìn)行對比互學(xué)習(xí)。雖然Semi-CML可以同時(shí)提高兩種模態(tài)的分割性能,但兩種模態(tài)之間存在性能差距,即存在一種模態(tài)的分割性能通常優(yōu)于另一種模態(tài)的情況。因此,作者進(jìn)一步開發(fā)了一種軟偽標(biāo)簽再學(xué)習(xí)(PReL)方案來彌補(bǔ)這種差距。

14、Homogeneous Multi-modal Feature Fusion and Interaction 3D Object Detection

同質(zhì)多模態(tài)特征融合和交互的三維物體檢測

概覽:本文提出了一種同質(zhì)多模態(tài)特征融合和交互的三維物體檢測方法(HMFI),用于自動(dòng)駕駛中的多模態(tài)3D目標(biāo)檢測。該方法通過設(shè)計(jì)圖像體素提升模塊、查詢?nèi)诤蠙C(jī)制和體素特征交互模塊等技術(shù),實(shí)現(xiàn)了點(diǎn)云和圖像之間的跨模態(tài)特征融合和交互,避免了信息損失,提高了性能。

15、Multi-modal policy fusion for end-to-end autonomous driving

用于端到端自動(dòng)駕駛的多模態(tài)策略融合

概覽:本文探討了如何將來自互補(bǔ)傳感器的表示進(jìn)行集成以實(shí)現(xiàn)自動(dòng)駕駛。作者提出了一種名為TransFuser的新型多模態(tài)融合Transformer,使用注意力機(jī)制來集成圖像和LiDAR表示。通過實(shí)驗(yàn)驗(yàn)證,該方法在復(fù)雜的場景中實(shí)現(xiàn)了最先進(jìn)的駕駛性能,與基于幾何的融合相比,碰撞減少了76%。

16、TransMEF:A Transformer-Based Multi-Exposure Image Fusion Framework using Self-Supervised Multi-Task Learning

基于Transformer的多曝光圖像融合框架

概覽:本文提出了一種基于Transformer的多曝光圖像融合框架TransMEF,該框架使用自監(jiān)督多任務(wù)學(xué)習(xí)。該框架通過三個(gè)自監(jiān)督重建任務(wù)來學(xué)習(xí)多曝光圖像的特征并提取更通用的特征。同時(shí),為了彌補(bǔ)CNN架構(gòu)在建立長期依賴關(guān)系方面的缺陷,設(shè)計(jì)了一個(gè)結(jié)合了CNN模塊和Transformer模塊的編碼器。在多曝光圖像融合基準(zhǔn)數(shù)據(jù)集上,該方法在主觀和客觀評估中都取得了最佳性能。

掃碼添加小享,回復(fù)“多模態(tài)融合

免費(fèi)領(lǐng)取全部論文+源碼合集


整理了16篇多模態(tài)融合優(yōu)質(zhì)論文分享!含2023最新的評論 (共 條)

使用qq登录你需要登录后才可以评论。
浦县| 剑阁县| 盈江县| 建瓯市| 城口县| 灵寿县| 金堂县| 镇原县| 屯留县| 龙泉市| 安福县| 申扎县| 怀化市| 阿拉善右旗| 庄浪县| 沂源县| 澄江县| 南川市| 海林市| 汉沽区| 鹤庆县| 抚宁县| 丰镇市| 滨州市| 临西县| 博罗县| 青川县| 祁连县| 正阳县| 屏东县| 伊春市| 南京市| 陆丰市| 寻甸| 额敏县| 临清市| 盈江县| 财经| 湖口县| 洪湖市| 南丹县|