最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

ICCV | TupleInfoNCE 的對比多模態(tài)融合

2023-02-24 09:43 作者:3D視覺工坊  | 我要投稿

論文作者:Yunze Liu, Qingnan Fan, Shanghang Zhang, Hao Dong, Thomas Funkhouser, Li Yi

1清華大學 2谷歌研究院 3斯坦福大學 4加州大學伯克利分校 5北京大學

筆者個人體會

人類對世界的感知自然是多模態(tài)的。我們看到、聽到和感覺到的都包含不同種類的信息。各種形式相互補充和消除歧義,形成世界的代表。當前目標是訓練機器融合這樣的多模態(tài)輸入,以自監(jiān)督的方式產(chǎn)生這樣的表示,而無需手動標注。

一種越來越流行的自監(jiān)督表示學習范式是對比學習,它通過優(yōu)化對比損失和解決實例判別任務來學習特征表示。最近有多項工作探索了多模態(tài)表示學習的對比學習。然而,大多數(shù)傳統(tǒng)方法學習了跨模態(tài)嵌入空間,通過對比不同的模態(tài)來學習它們之間共享的信息,但未能充分利用多模態(tài)的協(xié)同效應。因此,作者提出建議對比多模態(tài)輸入元組,而不是對比不同的數(shù)據(jù)模態(tài),將所有模態(tài)連接成一個元組,然后對比正負元組對應關系。這樣做的優(yōu)勢:不僅支持跨模態(tài)提取共享信息,還允許模態(tài)相互消除歧義并保留其特定信息,從而產(chǎn)生更好的融合表征

當然,對比元組并不像對比單個元素那么簡單,特別的是:這里的目標是希望學習的表征對元組中每個元素的信息進行編碼,并充分探索它們之間的協(xié)同作用。進一步,帶來的核心挑戰(zhàn)是:要對比哪些元組樣本?過去的研究表明:如果始終對比包含來自同一場景的相應元素的元組,會導致模型可能收斂到惰性次優(yōu),而網(wǎng)絡僅依賴于最強的場景識別模態(tài)。也就是說會導致只考慮更強的模態(tài),而忽略了更弱的模態(tài)。

針對上述問題,作者提出了一種新穎的對比學習目標,取名為TupleInfoNCE。主要動機是為了促進多模態(tài)融合,通過利用增強錨樣本生成的正樣本,并利用其元素不一定對應的具有挑戰(zhàn)性的負樣本。不僅基于正負對應關系來對比元組,而且還通過使用描述不同場景的模態(tài)組合成新的負元組來進行對比。這些負樣本鼓勵模型,學習檢查輸入元組中元素間的對應關系,確保不忽略弱模態(tài)和模態(tài)協(xié)同的作用。為了生成這樣的負樣本,作者提出了一種元組干擾策略,并基于互信息為其提供了理論依據(jù)。在本文中,將分別介紹:自監(jiān)督學習的相關內(nèi)容、論文的問題解決思路與方法、重新思考InfoNCE、TupleInfoNCE 的設計與實現(xiàn)、實驗、進一步分析和討論以及總結。

1、自監(jiān)督學習的相關內(nèi)容

一、自監(jiān)督的多模態(tài)學習

自監(jiān)督學習 (SSL) 使用輔助任務從原始數(shù)據(jù)中學習數(shù)據(jù)表示,而無需使用額外的標簽,有助于提高下游任務的性能。最近,對 SSL 的研究利用了數(shù)據(jù)的多模態(tài)屬性。常見的策略是探索不同視圖之間的自然對應關系,并使用對比學習 (CL) 通過將描述同一場景的視圖推得更近,同時將不同場景的視圖推開來學習表征。

將這一系列方法稱為跨模態(tài)embedding,它側重于提取跨模態(tài)共享的信息,而不是直接檢查融合表示,未能充分探索多模態(tài)融合的模態(tài)協(xié)同作用。

二、對比表示學習

CL(Contrastive Learning)是一種自監(jiān)督學習(SSL),由于它對表征學習帶來了巨大的改進,因此受到了越來越多的關注。根據(jù)數(shù)據(jù)的模態(tài),它可以分為基于單模態(tài)的和基于多模態(tài)的 CL。?CL 的一個未充分探索的挑戰(zhàn)是如何選擇硬負樣本來構建負對。

1)大多數(shù)現(xiàn)有方法,要么增加批量大小,要么保持大內(nèi)存庫,從而導致大內(nèi)存需求。

2)最近,一些作品從互信息(MI)的角度研究了CL。也有認為視圖之間的互信息MI 應該通過數(shù)據(jù)增強來減少,同時保持與任務相關的信息完整。

3)有的工作展示了 CL 算法系列最大化了多“視圖”之間的互信息MI 下限,其中典型視圖來自圖像增強,并發(fā)現(xiàn)負樣本和視圖的選擇對這些算法至關重要。

我們在此觀察的基礎上,建立了一個用于選擇對比樣本的優(yōu)化框架。

三、AutoML

AutoML旨在自動創(chuàng)建優(yōu)于手動設計的模型。神經(jīng)架構搜索 (NAS)、數(shù)據(jù)增強策略搜索和損失函數(shù)搜索的進展極大地提高了神經(jīng)網(wǎng)絡的性能。但是這些方法中的大多數(shù)都集中在有監(jiān)督學習設置上。最近,在無監(jiān)督和自監(jiān)督學習場景中,開發(fā) AutoML技術引起了更多關注。

1)UnNAS展示了通過自監(jiān)督尋找更好的神經(jīng)架構的潛力。

2)InfoMin和SelfAugment探索如何在 2D 圖像上為 CL 搜索更好的數(shù)據(jù)增強。

在作者的工作中,專注于無監(jiān)督地優(yōu)化多模態(tài) CL 框架的兩個關鍵組件:數(shù)據(jù)增強和負采樣策略,以前沒有針對通用多模態(tài)輸入進行過探索。

來源:微信公眾號「3D視覺工坊」??

2、論文的問題解決思路與方法

問題一:如何進行多模態(tài)表示學習的對比,并充分利用多模態(tài)的協(xié)同效應。

解決思路與方法:

人類對世界的感知自然是多模態(tài)的,看到、聽到和感覺到的都包含不同種類的信息,各種形式相互補充和消除歧義,形成世界的代表。因此目標是訓練機器融合這樣的多模態(tài)輸入,以自監(jiān)督的方式產(chǎn)生這樣的表示,而無需手動標注。

目前,一種越來越流行的自監(jiān)督表示學習范式是對比學習,它通過優(yōu)化對比損失和解決實例判別任務來學習特征表示。最近有幾項工作探索了多模態(tài)表示學習的對比學習。其中,大多數(shù)方法學習了跨模態(tài)嵌入空間,它們對比不同的模態(tài)以捕獲跨模態(tài)共享的信息。然而,這些方法沒有直接檢查多模態(tài)的融合表示,未能充分利用多模態(tài)協(xié)同效應。為了解決這個問題,有的方法提出了一種 RGB-D 表示學習框架來直接對比點——像素對。但是,它僅限于兩種模態(tài)。

因此,作者提出:將所有模態(tài)連接成一個元組,對比多模態(tài)輸入元組,而不是對比不同的數(shù)據(jù)模態(tài)。然后對比正負元組對應關系,而其中每個元組元素對應著一個模態(tài)。通過學習表示,以便將描述同一場景(多模態(tài)數(shù)據(jù)集)的元組放在一起,而將來自不同場景的元組分開。這比跨模態(tài)對比學習更具有普遍性。它不僅支持跨模態(tài)提取共享的信息,還允許模態(tài)相互消除歧義并保留其特定信息,從而產(chǎn)生更好的融合表示。

問題二:需要對比哪些元組樣本?

解決思路與方法:

對比元組并不像對比單個元素那么簡單,特別是:如果希望學習的表示對元組中每個元素的信息進行編碼,并充分探索它們之間的協(xié)同作用。因此,核心挑戰(zhàn)是:要對比哪些元組樣本。

過去有研究提出,如果始終對比包含來自同一場景的相應元素的元組,可能會收斂到惰性次優(yōu),而且網(wǎng)絡僅依賴于最強的場景識別模態(tài)。也就是說,這種方法可能只考慮更強的模態(tài),而忽略了更弱的模態(tài)。

因此,為了避免弱模態(tài)被忽略并促進模態(tài)融合,作者提出:需要與更具挑戰(zhàn)性的負樣本進行對比。此外,還需要優(yōu)化正樣本,以便對比學習可以保持正樣本和錨樣本之間的共享信息,同時抽象出無效的因素。值得注意的是,正樣本和錨樣本之間的強烈差異通常會導致共享信息更小,但對無效因素的不變性程度更高。因此需要適當?shù)臋嗪狻?/p>

問題三:如何生成更具挑戰(zhàn)性的負樣本,并進行優(yōu)化權衡。

解決思路與方法:

作者提出了一種新穎的對比學習目標TupleInfoNCE,與流行的 InfoNCE 損失不同,TupleInfoNCE 的設計動機是為了促進多模態(tài)融合。TupleInfoNCE通過利用增強錨樣本生成的正樣本,并利用其元素不一定對應的具有挑戰(zhàn)性的負樣本。不僅基于正負對應關系來對比元組,而且還通過使用描述不同場景的模態(tài)組合新的負元組來對比元組。通過這些額外的負元組進行訓練,會鼓勵模型學習檢查輸入的同一元組中模態(tài)元素之間的對應關系,確保不忽略弱模態(tài)和模態(tài)協(xié)同作用。為了生成這樣的負樣本,作者提出了一種元組干擾策略,并為其提供了理論基礎:基于互信息為這種方法的工作原理提供了理論依據(jù)。

并且,作者提出了一種樣本優(yōu)化算法來生成正樣本和負樣本,以最大限度地提高訓練效率。通過引入可優(yōu)化的超參數(shù)來控制負樣本和正樣本分布。這允許通過超參數(shù)優(yōu)化過程優(yōu)化樣本。并定義了關于這些超參數(shù)的獎勵函數(shù),并通過無監(jiān)督的特征評估來衡量學習表示的質(zhì)量。將無監(jiān)督特征評估置于優(yōu)化循環(huán)中,更新這些超參數(shù)以找到樣本優(yōu)化的TupleInfoNCE。

樣本優(yōu)化的 TupleInfoNCE概覽設計圖如下。

圖1 樣本優(yōu)化的 TupleInfoNCE概覽

3、重新思考InfoNCE
一、回顧InfoNCE 損失

在描述方法之前,首先回顧在對比表示學習中廣泛采用的 InfoNCE 損失,然后討論了它對多模態(tài)輸入的限制。

二、多模態(tài)輸入的問題設置

弱模態(tài)往往在很大程度上被忽視,模式之間的協(xié)同作用沒有得到充分利用。當 K > 2 時,當不同模態(tài)的信息量變化很大時,問題變得更加嚴重。下圖提供了直觀的解釋。

圖2 信息圖

4、TupleInfoNCE 的設計與實現(xiàn)

為了減輕 InfoNCE 忽略弱模態(tài)和模態(tài)協(xié)同的局限性,作者提出了一個新的 TupleInfoNCE 目標。針對提出的TupleInfoNCE目標,明確設計了如下三個方面用于促進多模態(tài)融合。

1)利用元組干擾策略來生成具有挑戰(zhàn)性的負樣本,從而防止網(wǎng)絡變得懶惰而只關注強模態(tài)。

2)此外,引入了可優(yōu)化的數(shù)據(jù)增強,這些數(shù)據(jù)增強應用于錨樣本以生成正樣本。

3)優(yōu)化正樣本和負樣本,以平衡每種模態(tài)貢獻的信息。

4.1 元組干擾和增強

元組干擾生成具有挑戰(zhàn)性的負樣本,對于學習對比學習中的有效表示至關重要,特別是在多模態(tài)融合設置的情況下,其中強模態(tài)傾向于主導學習的表示。作者提出了一種元組干擾策略來生成負樣本,其中并非所有模態(tài)都對應,并且某些模態(tài)表現(xiàn)出不同的場景。

因此,為了正確區(qū)分正樣本和?k?擾動的負樣本,學習的表示必須對第?k?個模態(tài)的信息進行編碼,因為 K 元組只能由于第?k?個模態(tài)的差異而變?yōu)樨摌颖尽?/p>

因此,受?k?擾動的負樣本鼓勵了每種模態(tài)與待探索的其余模態(tài)之間的相關性。

作者設計:分別擾亂每種模態(tài)并生成 K 種類型的負樣本,從而來增強 vanilla InfoNCE 目標。這加強了多模態(tài)輸入中,每個特定模態(tài)的表示學習。使用?αk?來表示?k?擾動負樣本的比率。直觀地說,如果使用的?αk?越大,那么就越強調(diào)第?k?個模態(tài)。

為了進一步平衡融合表示中每種模態(tài)的貢獻,通過使用超參數(shù)?β?參數(shù)化這些數(shù)據(jù)增強,并使?β?可針對不同模態(tài)進行優(yōu)化。

4.2 目標函數(shù)

在下圖中,為 TupleInfoNCE 目標提供了一個示例??梢詢?yōu)化超參數(shù) α 和 β ,以允許靈活控制下一節(jié)中介紹的不同模態(tài)的貢獻。

圖 3 ?RGB圖、深度圖和法線貼圖融合的 TupleInfoNCE 目標示例

4.3 樣本優(yōu)化

為元組干擾和增強而設計的超參數(shù) α 和 β ,在TupleInfoNCE目標設計中起著關鍵作用。每組α和β將對應一個特定目標,并且完全優(yōu)化將產(chǎn)生多模態(tài)特征編碼器?gαβ。手動設置這些超參數(shù)并不可靠,促使探索優(yōu)化這些超參數(shù)的方法。主要有兩個挑戰(zhàn)需要解決:

1)首先是評估挑戰(zhàn):需要一種方法來以無監(jiān)督的方式評估多模態(tài)特征編碼器?gαβ?的質(zhì)量,因為大多數(shù)現(xiàn)有工作已經(jīng)證明 InfoNCE 損失本身并不是一個好的評估器。

2)第二個是優(yōu)化挑戰(zhàn):需要一個有效的優(yōu)化策略,用來避免詳盡地檢查不同的超參數(shù)并從頭開始重復訓練整個網(wǎng)絡。

接下來將分別解釋如何處理這些挑戰(zhàn),以優(yōu)化不同類型負樣本的比率α,以及增強正樣本的超參數(shù)β。

4.3.1 優(yōu)化負樣本

為了在無監(jiān)督的情況下評估學習表示中的模態(tài)融合質(zhì)量,作者提出使用跨模態(tài)鑒別作為替代任務。為了有效地優(yōu)化 α,采用了在優(yōu)化α和優(yōu)化具有固定α的主要目標 ?之間交替的雙層優(yōu)化方案。將在下面詳細介紹這些設計。

跨模態(tài)區(qū)分

TupleInfoNCE 與普通InfoNCE的不同之處在于:它更多地強調(diào)每個模態(tài)?vk?以及

它適當?shù)仄胶饬瞬煌B(tài)的貢獻,并與下游語義推理任務具有高度相關性。需要注意:處理跨模態(tài)判別任務中缺失的模態(tài),將采用補充材料中介紹的dropout訓練策略。

雙層優(yōu)化??
現(xiàn)在,描述如何通過一次性網(wǎng)絡訓練有效地優(yōu)化?R(α)。編寫優(yōu)化問題如下:

在驗證集上評估每個編碼器的貢獻,并使用 REINFORCE 更新?α?的分布,如下所示:

4.3.2 優(yōu)化正樣本

與優(yōu)化α類似,需要一個獎勵函數(shù)來以無監(jiān)督的方式評估特征編碼器gαβ?關于β。一種直接的方法是采用公式 5 中定義的總跨模態(tài)識別精度。

通過實驗,觀察到兩種現(xiàn)象,使得這種簡單的適應無法有效地優(yōu)化 β。

分別使用 β 和 ζ 來表示用于訓練和驗證的數(shù)據(jù)增強參數(shù),它們不必相同。

1)如果手動將 ζ 設置為固定,則最大化總準確度的最優(yōu) β 與 ζ 高度相關,并且無法生成真正好的正樣本。

2)如果將 ζ 設置為與 β 相同并一起優(yōu)化它們,通常在不應用數(shù)據(jù)增強時獲得最佳的總準確度,盡管已經(jīng)證明一定程度的數(shù)據(jù)增強對于對比學習很重要。

因此,β 優(yōu)化需要更好的獎勵函數(shù)。

為了反映 ζ 的影響,將總跨模態(tài)識別精度重寫為:

受上述觀察的啟發(fā),將獎勵函數(shù)設計為:

其中 λ 是平衡參數(shù),βmax?表示用于歸一化目的的預定義增強參數(shù)上限。

R(β) 的優(yōu)化方式與 R(α) 的優(yōu)化方式相同,在單個訓練過程中交替優(yōu)化 β 和?g。在算法 1 中進一步結合了 R(α)、R(β) 和多模態(tài)編碼器g的優(yōu)化,其中當 epoch 數(shù)為偶數(shù)時更新 α,否則更新 β。

5、實驗

在本節(jié)中,通過遷移學習來評估方法,即對下游任務和數(shù)據(jù)集進行微調(diào)。具體來說,首先使用提出的 TupleInfoNCE 在每個數(shù)據(jù)集上預訓練主干網(wǎng)絡,而無需任何額外數(shù)據(jù)。然后,使用預訓練的權重作為初始化,并進一步細化它們以用于目標下游任務。在這種情況下,好的特征可以直接導致下游任務的性能提升。

同時,展示了三個流行的多模態(tài)任務的結果:NYUv2上的語義分割,SUN RGB-D上的 3D 對象檢測,以及 MOSEI ?和 MOSI ?的情感分析。然后,提供了廣泛的消融研究、分析和可視化,以證明系統(tǒng)的設計選擇是合理的。

5.1 ?NYUv2 語義分割設置

首先在 NYUv2上進行實驗,看看方法是否可以幫助多模態(tài)語義場景理解。NYUv2 包含 1,449 張室內(nèi) RGB-D 圖像,其中 795 張用于訓練,654 張用于測試。在此任務中使用三種模式:RGB、深度和法線貼圖。采用的數(shù)據(jù)增強策略包括隨機裁剪、旋轉和顏色抖動。使用 ESANet,一種基于 ResNet 的高效編碼器,作為主干。使用常見的 40 類標簽設置和平均 IoU(mIoU) 作為評估指標。

將方法與從頭開始的訓練基線,以及最新的自監(jiān)督多模態(tài)表示學習方法(包括 CMC 、MMV FAC 和 MISA )進行比較,這些方法都基于跨模態(tài)嵌入。此外,包括一個 InfoNCE 基線,直接對比多模態(tài)輸入元組,而不會干擾元組和樣本優(yōu)化。還包括有監(jiān)督的預訓練方法以確保完整性。

結果如表 1 顯示,之前性能最佳的方法 MISA 將分割 mIoU 比從零開始訓練的基線提高了 3.3%。使用 InfoNCE 時,改進下降到 2.0%。作者的方法比 train-from scratch 基線提高了 8.0%。從 40.1% 到 48.1% 的改進,證實了可以產(chǎn)生更好的融合表示來提高 RGB-D 場景的分割性能。值得注意的是,提出的 TupleNCE 雖然僅在 NYUv2 上自監(jiān)督預訓練,但僅比監(jiān)督預訓練方法低約 3%。

表 1 ?NYUv2 上的語義分割結果



5.2 ?SUN RGB-D 3D 對象檢測

第二個實驗研究了 TupleInfoNCE 如何用于 SUN RGB-D 數(shù)據(jù)集中的 3D 對象檢測。SUN RGB-D 包含一個具有約 5K 單視圖 RGB-D 掃描的訓練集和一個具有約 5K 掃描的測試集。掃描帶有來自 37 個類別的對象的面向 3D 的非模態(tài)邊界框標注。在這個實驗中使用了三種模式:3D 點云、RGB 顏色和高度。

這里使用的數(shù)據(jù)增強是點云的旋轉、RGB 顏色的抖動和高度的隨機噪聲。使用 VoteNet 作為主干,它利用 PointNet++ 來處理深度點云,并支持附加 RGB 或高度信息作為附加輸入。將方法與包括 InfoNCE、CMC 和 MISA在內(nèi)的基線方法進行比較。使用 mAP@0.25 作為的評估指標。

結果如表 2, 顯示了對象檢測結果。結果發(fā)現(xiàn)以前的自監(jiān)督方法似乎難以處理 3D 任務:CMC 和 MISA 對從頭開始訓練的基線的改進非常有限。InfoNCE的改進也非常微不足道(0.5%),大概是因為過分強調(diào)來自強模態(tài)的模態(tài)特定信息可能會犧牲弱模態(tài)以及學習過程中的模態(tài)協(xié)同作用。相比之下,TupleInfoNCE 在從頭開始訓練的基線上實現(xiàn)了 1.7% 的 mAP 改進,是 InfoNCE 實現(xiàn)的改進的三倍多。與 InfoNCE 的比較,直接驗證了所提出的 TupleInfoNCE 目標和樣本優(yōu)化機制的有效性。

表 2 ?SUN RGB-D 上的 3D 對象檢測結果

第三個實驗使用 MOSI和 MOSEI 數(shù)據(jù)集研究多模態(tài)情感分析,兩者都為每個話語提供單詞對齊的多模態(tài)信號(語言、視覺和聲學)。MOSI 包含 2198 個主觀話語視頻片段。話語是用 [-3,3] 之間的連續(xù)意見分數(shù)手動標注的,其中 -3/+3 表示強烈的負面/正面情緒。MOSEI 是對 MOSI 的改進,具有更多的話語、更多樣的樣本、說話者和主題。遵循最近且最先進的多模態(tài)自監(jiān)督表示學習方法 MISA,使用從原始原始數(shù)據(jù)中預先提取的特征,這不允許直觀的數(shù)據(jù)增強方式。

因此,在這個實驗中只優(yōu)化了負樣本。使用與 MISA相同的主干進行公平比較。使用二進制精度(Acc-2)、7 級精度(Acc-7)和 F-Score 作為評估指標。

結果如表 3 和表 4 所示,方法在這些極具挑戰(zhàn)性和競爭性的數(shù)據(jù)集上,始終優(yōu)于以前的方法。例如,與以前性能最好的方法 MISA 相比,Acc-7 在 MOSI 上從 42.3 上升到 43.3,從 52.2 上升到MOSEI 52.7。由于這兩種方法共享相同的網(wǎng)絡主干,并且僅在學習融合表示的策略上有所不同,因此改進為方法的有效性提供了強有力的證據(jù)。

表 3 MOSI 上的多模態(tài)情感分析結果



表 4 ?MOSEI 上的多模態(tài)情感分析結果


6、進一步分析和討論

一、樣本優(yōu)化的功效

在有和沒有樣本優(yōu)化的情況下,進行消融研究,以量化其功效。

結果發(fā)現(xiàn),在不優(yōu)化負樣本的情況下統(tǒng)一設置?αk?會導致 NYUv2 語義分割任務的 mIoU 下降 1.7%,SUN RGB-D 3D 對象檢測任務的 mAP 下降 0.5%,MOSI 上的 Acc-7 下降 0.6,Acc-7 下降 0.4在 MOSEI 上。

而手動設計數(shù)據(jù)增強策略不像 [28] 中那樣優(yōu)化正樣本,會導致 NYUv2 上的 1.1 mIoU 下降和 SUN RGB-D 上的 0.6 mAP 下降。

此外,還檢查了優(yōu)化的負采樣策略以及數(shù)據(jù)增強策略。在 NYUv2 數(shù)據(jù)集上,結果發(fā)現(xiàn) RGB、深度和法線中表現(xiàn)最好的負采樣率大約為 2:1:1,表明在融合表示中更加強調(diào) RGB。

至于數(shù)據(jù)增強策略,盡管在 NYUv2 上對所有三種模態(tài)使用相同類型的數(shù)據(jù)增強,但最佳增強參數(shù)因模式而異??紤]使用表示旋轉角度的超參數(shù)進行圖像旋轉,結果發(fā)現(xiàn) 40 度是 RGB 圖像的最佳超參數(shù),而 10 度是深度和法線圖的最佳超參數(shù)。

二、負樣本優(yōu)化的獎勵設計??
在前面介紹了跨模態(tài)判別作為負樣本優(yōu)化的替代任務,并認為公式 5 中的總跨模態(tài)判別精度 R(α) 是一個很好的獎勵函數(shù)。在這里提供經(jīng)驗驗證。

改變?k?型負樣本的比率?αk,同時保持其余類型的相對比率不變。通過固定的負采樣率訓練整個網(wǎng)絡,并評估?R(α)?和下游任務的性能。如圖 4 所示,調(diào)整不同類型負樣本的比例會影響代理任務的準確率?R(α),與下游任務具有高度相關性。一種負樣本的比例太低和太高都會導致?R(α)?偏低。有一個對應于最佳?R(α)?的甜蜜點。實驗表明,這個甜蜜點也對應于下游任務的最佳性能。



圖 4 ?總跨模態(tài)識別精度與下游任務性能之間的相關性

三、正樣本優(yōu)化的獎勵設計
在公式 8 中,用于正樣本優(yōu)化的獎勵函數(shù)是由兩個觀察結果驅(qū)動的:

提供實證研究來驗證圖 5 中的這些觀察結果。從頭到尾,用不同的 β 訓練網(wǎng)絡,以評估總的跨模態(tài)識別精度如何變化,同時在驗證集上改變數(shù)據(jù)增強參數(shù) ζ。此外,還評估了在更改訓練時間數(shù)據(jù)增強參數(shù)?β?時,下游任務的性能如何變化。對兩種類型的數(shù)據(jù)增強圖像旋轉和圖像裁剪進行了實驗,并獲得了一致的觀察結果。


在實驗中,結果發(fā)現(xiàn)獎勵函數(shù)足夠強大,可以識別最佳訓練時間數(shù)據(jù)增強參數(shù)。

四、對無信息模態(tài)的魯棒性
TupleInfoNCE 強調(diào)了容易被忽略的模態(tài)。一個明顯的問題是它是否對無信息模式具有魯棒性。

對 MOSEI 多模態(tài)情感分析任務進行了實驗,并添加了一個名為時間戳的無信息模態(tài),它表示序列中的相對時間。結果顯示,使用這四種模式,達到了 52.6 Acc-7,僅比以前低 0.1%。

四種模態(tài)中最終的負樣本比率大致為 3(文本):3(視頻):4(音頻):1(時間戳),表明了方法成功地識別出“時間戳”不值得過多強調(diào)。

7、總結
該論文提出了使用對比學習 TupleInfoNCE 對多模態(tài)數(shù)據(jù)進行表示學習的新目標。

關鍵思想是:將多模態(tài)錨元組與包含受干擾模態(tài)的具有挑戰(zhàn)性的負樣本,以及通過可優(yōu)化的數(shù)據(jù)增強過程。獲得的更好的正樣本進行對比。

此外,提供了TupleInfoNCE 為何起作用的理論基礎,一種使用自監(jiān)督方法來選擇對比樣本的優(yōu)化 TupleInfoNCE 的算法,以及在廣泛的多模態(tài)融合基準上顯示消融和最先進性能的實驗結果。

本文僅做學術分享,如有侵權,請聯(lián)系刪文。

3D視覺工坊精品課程官網(wǎng):3dcver.com

1.面向自動駕駛領域的3D點云目標檢測全棧學習路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)

2.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進

3.國內(nèi)首個面向工業(yè)級實戰(zhàn)的點云處理課程

4.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解

5.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦

6.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化

7.徹底剖析室內(nèi)、室外激光SLAM關鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM +LIO-S

AM)

8.從零搭建一套結構光3D重建系統(tǒng)[理論+源碼+實踐]

9.單目深度估計方法:算法梳理與代碼實現(xiàn)

10.自動駕駛中的深度學習模型部署實戰(zhàn)

11.相機模型與標定(單目+雙目+魚眼)

12.重磅!四旋翼飛行器:算法與實戰(zhàn)

13.ROS2從入門到精通:理論與實戰(zhàn)

14.國內(nèi)首個3D缺陷檢測教程:理論、源碼與實戰(zhàn)

15.基于Open3D的點云處理入門與實戰(zhàn)教程

16.透徹理解視覺ORB-SLAM3:理論基礎+代碼解析+算法改進

17.不斷更新中......

重磅!粉絲學習交流群已成立

交流群主要有3D視覺、CV&深度學習、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、ORB-SLAM系列源碼交流、深度估計、TOF、求職交流等方向。

添加小助理微信(dddvisiona),一定要備注:研究方向+學校/公司+昵稱,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備注,可快速通過且邀請進群。原創(chuàng)投稿也請聯(lián)系。??

ICCV | TupleInfoNCE 的對比多模態(tài)融合的評論 (共 條)

分享到微博請遵守國家法律
利津县| 伊宁县| 宿迁市| 鲜城| 德江县| 淮阳县| 科技| 大理市| 曲松县| 普宁市| 河池市| 疏勒县| 南和县| 平阴县| 什邡市| 体育| 吕梁市| 西林县| 兴安盟| 八宿县| 铜川市| 汪清县| 嘉鱼县| 乡城县| 高雄市| 依兰县| 东乡县| 酒泉市| 鸡东县| 平定县| 呼玛县| 南郑县| 无极县| 娱乐| 丘北县| 抚远县| 长岭县| 贡山| 达尔| 前郭尔| 曲水县|