Unifying Two-Stream Encoders with Transformers for Cross-Modal R

論文簡要 :
本文提出了一種統(tǒng)一兩流編碼器與變壓器的跨模態(tài)檢索方法,通過設(shè)計一個基于兩個流的變壓器的跨模態(tài)檢索框架,實現(xiàn)了圖像和文本之間的更好的交互和對齊,從而提高了檢索的準(zhǔn)確性。
背景信息:
論文背景: 人們通過視覺、聲音和觸覺等多種方式感知和與物理世界互動。為了使機器模擬這種感知過程,同時分析多種模態(tài)的數(shù)據(jù)是一種基本而重要的能力。視覺信息和文本數(shù)據(jù)是我們?nèi)粘I钪凶畛R姷膬煞N模態(tài),視覺和語言的研究也在過去幾年中引起了廣泛關(guān)注??缒B(tài)檢索是一項基本的多模態(tài)理解任務(wù),對于準(zhǔn)確的檢索仍然具有很大的挑戰(zhàn),因為需要探索精確的跨模態(tài)對齊和全面的模態(tài)內(nèi)/間關(guān)系和交互。
過去方案: 早期的方法使用典型相關(guān)分析(CCA)來建立不同模態(tài)之間的互聯(lián)關(guān)系,或者使用主題模型來捕捉多模態(tài)聯(lián)合分布空間中的關(guān)系。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用于提取視覺和文本表示,并通過投影函數(shù)學(xué)習(xí)從單模態(tài)到跨模態(tài)空間的映射。然而,這種整體的單模態(tài)表示只能捕捉圖像或文本中的顯著實例,而忽略了非顯著實例或?qū)嵗g的微妙關(guān)系。為了解決這個問題,許多工作進(jìn)一步設(shè)計了細(xì)粒度的對齊框架,通過首先在片段級別上關(guān)聯(lián)圖像區(qū)域和文本單詞,并聚合匹配的片段對來獲得最終的圖像-文本對。
論文的Motivation: 現(xiàn)有的跨模態(tài)檢索方法使用不同的架構(gòu)對圖像和文本進(jìn)行編碼,例如,對于圖像使用CNN,對于文本使用RNN/Transformer。這種架構(gòu)上的差異可能導(dǎo)致不同的語義分布空間,并限制圖像和文本之間的交互,進(jìn)而導(dǎo)致圖像和文本之間的對齊不佳。為了填補這一研究空白,本文受到變壓器在視覺任務(wù)中的最新進(jìn)展的啟發(fā),提出了一種統(tǒng)一編碼器架構(gòu),使用變壓器來處理圖像和文本。具體而言,本文設(shè)計了一個基于兩個流的變壓器的跨模態(tài)檢索框架,稱為Hierarchical Alignment Transformers (HAT),它包括一個圖像變壓器、一個文本變壓器和一個分層對齊模塊。通過這樣的相同架構(gòu),編碼器可以產(chǎn)生更相似的圖像和文本特征表示,使得它們之間的交互和對齊更加容易。此外,為了利用豐富的語義信息,本文設(shè)計了一種分層對齊策略,以探索圖像和文本之間不同層次的多級對應(yīng)關(guān)系。通過在兩個常用數(shù)據(jù)集MSCOCO和Flickr30K上進(jìn)行廣泛實驗,實驗結(jié)果表明,HAT相對于現(xiàn)有方法在圖像到文本和文本到圖像檢索任務(wù)上取得了顯著的性能提升。
方法:
a. 理論背景:
本文關(guān)注跨模態(tài)檢索任務(wù),即將圖像和文本對齊以實現(xiàn)準(zhǔn)確的檢索。先前的方法使用不同的圖像和文本編碼器架構(gòu),導(dǎo)致模態(tài)之間存在差異和有限的交互。為了解決這個問題,作者提出了一種統(tǒng)一的框架,稱為Hierarchical Alignment Transformers (HAT),它使用Transformer來進(jìn)行圖像和文本表示學(xué)習(xí)。他們還引入了一種分層對齊策略,以捕捉圖像和文本之間的多層對應(yīng)關(guān)系。通過在基準(zhǔn)數(shù)據(jù)集上評估HAT的有效性,發(fā)現(xiàn)其在性能上超過了現(xiàn)有方法很多。
b. 技術(shù)路線:
HAT由文本Transformer、圖像Transformer和分層對齊模塊組成。文本Transformer使用BERT結(jié)構(gòu)提取單詞的上下文表示,實現(xiàn)圖像和文本之間的細(xì)粒度關(guān)聯(lián)。圖像Transformer使用Swin Transformer作為視覺骨干網(wǎng)絡(luò),捕捉圖像的密集表示。多個階段的輸出特征圖被用作圖像的分層表示。分層對齊模塊旨在通過多層語義對齊來對齊圖像和文本。該模塊集成了低、中、高三個層次的語義,以捕捉不同層次的信息。模塊使用Swin Transformer和BERT的輸出特征進(jìn)行計算,得到圖像和文本的整體表示。通過堆疊交叉注意力機制,實現(xiàn)區(qū)域標(biāo)記和單詞之間的細(xì)粒度對齊。模塊通過計算每個區(qū)域-單詞對之間的余弦相似度,并將所有對進(jìn)行聚合,得到圖像和文本對之間的整體相似度。這種分層對齊策略使模型能夠捕捉圖像和文本之間的多層語義對應(yīng)關(guān)系,從而提高了跨模態(tài)檢索的性能。
結(jié)果:
a. 詳細(xì)的實驗設(shè)置:
文中未提及實驗設(shè)置的具體內(nèi)容。
b. 詳細(xì)的實驗結(jié)果:
本文在MSCOCO和Flickr30K數(shù)據(jù)集上對HAT方法與最新的先進(jìn)方法進(jìn)行了性能比較。比較包括圖像到文本和文本到圖像檢索的召回率指標(biāo)(R@1、R@5、R@10)。結(jié)果顯示,HAT方法在兩個數(shù)據(jù)集上的所有指標(biāo)上都優(yōu)于基線方法,并取得了顯著的改進(jìn)。文中還強調(diào),與圖像到文本檢索相比,HAT對文本到圖像檢索的性能提升更大。這些結(jié)果表明,HAT方法在跨模態(tài)檢索中具有優(yōu)越性。