最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

TACFN: 一種用于多模態(tài)情感識(shí)別的基于Transformer的自適應(yīng)跨模態(tài)融合網(wǎng)絡(luò)

2023-07-11 18:31 作者:朵凌i  | 我要投稿


文章題目:TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition

文章來源:CAAI Artificial Intelligence Research預(yù)錄用(原創(chuàng))

模型代碼可以從https://github.com/shuzihuaiyu/TACFN獲取

Introduction:?

? ? ? ? 在當(dāng)前的多模態(tài)情感識(shí)別任務(wù)中,融合技術(shù)被廣泛的應(yīng)用并成為關(guān)鍵技術(shù)?;谧⒁饬C(jī)制的跨模態(tài)融合方法近年來表現(xiàn)出了高性能和強(qiáng)魯棒性。

? ? ? ? 然而,跨模態(tài)注意力存在著特征冗余的問題,不能很好地捕捉互補(bǔ)特征。研究表明,在跨模態(tài)的交互特征中,沒有必要使用一種模態(tài)的全部信息來加強(qiáng)另一種模態(tài),能夠加強(qiáng)一種模態(tài)的特征可能只包含它的一部分。

? ? ? ? 據(jù)此,我們?cè)O(shè)計(jì)了一種基于Transformer的自適應(yīng)跨模態(tài)融合網(wǎng)絡(luò)(TACFN)。對(duì)于冗余特征,通過自注意力機(jī)制使一種模態(tài)進(jìn)行模態(tài)內(nèi)特征選擇,使所選擇的特征能夠自適應(yīng)且高效地與另一種模態(tài)交互。同時(shí),為了更好地捕捉模態(tài)間的互補(bǔ)信息,通過拼接得到融合權(quán)重向量,并利用該權(quán)重向量實(shí)現(xiàn)模態(tài)的特征強(qiáng)化。


Proposed Method:?

? ? ? ? 文中我們將TACFN網(wǎng)絡(luò)架構(gòu)分為兩個(gè)steps:Unimodal representation(單模態(tài)表示) & Multimodal fusion(多模態(tài)融合)。目標(biāo)是從多模態(tài)序列中進(jìn)行高效的跨模態(tài)融合,聚合模態(tài)內(nèi)的和模態(tài)間的特征。下圖展示了TACFN的整體框架:

Audio Encoder:?

? ? ? ? 對(duì)于音頻模態(tài)的處理,有相關(guān)的工作[1-2]已經(jīng)證明了基于梅爾頻率倒譜系數(shù)(MFCC)特征的深度學(xué)習(xí)方法的有效性。據(jù)此設(shè)計(jì)了一個(gè)簡(jiǎn)單高效的1D-CNN來進(jìn)行MFCC特征提取。

? ? ? ? 具體而言,我們使用特征預(yù)處理后的音頻模態(tài)特征作為輸入,首先通過一個(gè)2層的卷積操作來提取音頻元素的局部特征,然后采用最大池化進(jìn)行下采樣,壓縮特征,并刪除冗余信息。最后,將上面得到的特征展平。

Visual Encoder:?

? ? ? ? 對(duì)于視頻模態(tài)處理,考慮到視頻數(shù)據(jù)在空間和時(shí)間維度上都具有依賴性,因此需要一個(gè)具有3D卷積核(空間維度:平面二維?+?時(shí)間維度:一維)的網(wǎng)絡(luò)來學(xué)習(xí)面部表情和動(dòng)作。綜合考慮網(wǎng)絡(luò)的性能以及訓(xùn)練效率,選擇3D-ResNeXt[3]網(wǎng)絡(luò)來獲取視覺模態(tài)的時(shí)空結(jié)構(gòu)特征。ResNeXt提出了一種介于普通卷積核深度分割卷積之間的分組卷積策略,通過控制分組數(shù)量實(shí)現(xiàn)了兩種策略之間的平衡,結(jié)構(gòu)簡(jiǎn)單但性能強(qiáng)大。

Fusion via Cross-modal Attention:?

? ? ? ? 跨模態(tài)注意力操作通過學(xué)習(xí)源模態(tài)和目標(biāo)模態(tài)之間的定向成對(duì)注意力,使用來自源模態(tài)的信息來強(qiáng)化目標(biāo)模態(tài)[4-5]??缒B(tài)注意力是對(duì)自注意力機(jī)制的一種修改。

(不太了解自注意力機(jī)制中Q,K,V的筆者推薦可以通過該鏈接進(jìn)行了解和簡(jiǎn)單學(xué)習(xí):https://blog.csdn.net/qq_42672770/article/details/128231573)

? ? ? ? 將Q作為一種模態(tài),K和V作為另一種模態(tài),以獲得模態(tài)的強(qiáng)化。我們定義了兩個(gè)張量的跨模態(tài)注意力X和Y,其中X作為Query查詢,Y作為Keys和Values用于重加權(quán)Query:

? ? ? ??MCA(X%2CY)%3DAttention(W%5EQX%2C%20W%5EKY%2C%20W%5EVY)%20

? ? ? ? 利用獲得的單模態(tài)高層的表示,在音頻和視覺模態(tài)之間進(jìn)行跨模態(tài)注意力交互,以獲得彼此的增強(qiáng)特征。

Fusion via Adaptive Cross-modal Blocks:?

? ? ? ? 現(xiàn)有實(shí)驗(yàn)表明:模型融合進(jìn)一步考慮了模態(tài)之間的內(nèi)在聯(lián)系,具有更好的效果和性能。但是目前的跨融合方案存在一些問題:

? ? ? ? 1. 跨模態(tài)注意力存在特征冗余;

? ? ? ? 2.?跨模態(tài)注意力不能很好地捕獲互補(bǔ)特征;

? ? ? ? 3.?)由于模式是動(dòng)態(tài)變化的,有些模式比其它模式具有更多的任務(wù)表示信息。例如,視覺模態(tài)比音頻模態(tài)更好地分類“快樂”,音頻模態(tài)更好地分類“恐懼”。

? ? ? ? 因此,在跨模態(tài)注意力的基礎(chǔ)上,引入了自適應(yīng)跨模態(tài)塊的設(shè)計(jì)。上圖說明了跨模態(tài)注意力和自適應(yīng)跨模態(tài)塊的架構(gòu)。在獲得單模態(tài)表示后,將其輸入自適應(yīng)跨模態(tài)塊,以獲得兩種模態(tài)的強(qiáng)化特征。以使用音頻模態(tài)來加強(qiáng)視覺模態(tài)的過程為例,使用視覺模態(tài)來加強(qiáng)音頻模態(tài)的過程是相同的:

? ? ? ??首先使音頻模態(tài)通過Transformer-encoder來進(jìn)行模態(tài)內(nèi)特征選擇。這里的Query、Keys和Values都是同一個(gè)張量的線性投影,該操作使得音頻模態(tài)的高階特征能夠進(jìn)行特征選擇,使其更專注于對(duì)結(jié)果有更大影響的特征。

? ? ? ? 然后,利用自動(dòng)選擇的特征和視頻模態(tài)進(jìn)行高效的模態(tài)間交互。該模塊接受兩種模式的輸入,然后通過線性投影獲得兩種模態(tài)的特征映射表示,接著用Add和Tanh激活函數(shù)處理,再通過Softmax得到權(quán)重向量。經(jīng)過Softmax處理后,再與視頻模態(tài)張量進(jìn)行相乘的操作,以實(shí)現(xiàn)特征強(qiáng)化。在這個(gè)過程中,為了保證視覺模態(tài)的信息不丟失,通過殘差結(jié)構(gòu)保證了視覺模態(tài)原始結(jié)構(gòu)特征的完整性。

? ? ? ? 上述為利用音頻加強(qiáng)視頻模態(tài)的步驟,得到的輸出記為X(a->v),反過來利用視頻加強(qiáng)音頻模態(tài)的步驟相同,得到的輸出記為X(v->a),然后對(duì)增強(qiáng)模態(tài)進(jìn)行拼接,得到融合后的數(shù)據(jù)I=[X(v->a),?X(a->v)]。最后經(jīng)過一個(gè)簡(jiǎn)單的線性層進(jìn)行預(yù)測(cè),并利用交叉熵?fù)p失對(duì)模型進(jìn)行優(yōu)化。

Datasets:?

? ? ? ? 本文使用兩個(gè)主流數(shù)據(jù)集:RAVDESS[6]和IEMOCAP[7]。為簡(jiǎn)單起見,本研究首先關(guān)注視覺和音頻兩種模態(tài)的融合。進(jìn)一步,將設(shè)計(jì)的融合模塊擴(kuò)展到視覺、音頻和文本三種模態(tài)的跨模態(tài)融合。對(duì)于RAVDESS數(shù)據(jù)集,我們使用兩種模態(tài):視覺和音頻。對(duì)于IEMOCAP數(shù)據(jù)集,我們使用三種模態(tài):視覺、音頻和文本。

RAVDESS:?

? ? ? ? Ryerson情感語(yǔ)音和歌曲視聽數(shù)據(jù)庫(kù)(Ryerson Audio-Visual Database of Emotional Speech and Song,RAVDESS) 是一個(gè)多模態(tài)情感識(shí)別數(shù)據(jù)集,包含1440個(gè)短演講視頻剪輯中的24位演員(12位男性,12位女性)。當(dāng)演員被告知要表達(dá)的情感時(shí),數(shù)據(jù)集將被執(zhí)行,視頻和音頻記錄的質(zhì)量都很高。數(shù)據(jù)集中包含八種情緒:中性、平靜、快樂、悲傷、憤怒、恐懼、厭惡和驚訝。在RAVDESS數(shù)據(jù)集上進(jìn)行5折交叉驗(yàn)證,以提供更魯棒的結(jié)果。我們將24個(gè)演員按5:1的比例分為訓(xùn)練集和測(cè)試集。由于演員的性別由偶數(shù)或奇數(shù)個(gè)演員id表示,我們通過輪換4個(gè)連續(xù)的演員id作為交叉驗(yàn)證的每個(gè)折疊的測(cè)試集,使性別均勻分布。報(bào)告的最終準(zhǔn)確率是平均準(zhǔn)確率超過5倍。

IEMOCAP:?

? ? ? ? IEMOCAP 是一個(gè)多模態(tài)情感識(shí)別數(shù)據(jù)集,包含151個(gè)視頻以及相應(yīng)的轉(zhuǎn)錄本和音頻。在每個(gè)視頻中,兩名專業(yè)演員用英語(yǔ)進(jìn)行對(duì)談。它的目標(biāo)數(shù)據(jù)分割由2,717個(gè)訓(xùn)練樣本,798個(gè)驗(yàn)證樣本和938個(gè)測(cè)試樣本組成。分別在12.5 Hz和15 Hz的采樣頻率下提取音頻和視覺特征。雖然人類標(biāo)注有9種情緒類別,但繼之前的工作[8]之后,我們采取了4種類別:中性、快樂、悲傷和憤怒。此外,這是一個(gè)多標(biāo)簽任務(wù)(例如,一個(gè)人可以同時(shí)感到悲傷和憤怒)。我們根據(jù)[9]報(bào)告了每個(gè)情感類別的二分類準(zhǔn)確率和F1分?jǐn)?shù)。

Result:?

在RAVDESS數(shù)據(jù)集上與Baselines的比較結(jié)果:

? ? ? ? 從表中,我們可以看到我們的模型達(dá)到了76.76%的準(zhǔn)確率,達(dá)到了最先進(jìn)的水平。

? ? ? ? 1. TACFN在視覺和音頻上的單模態(tài)性能分別達(dá)到62.99%和56.63%,自適應(yīng)跨模態(tài)塊后的準(zhǔn)確率達(dá)到76.76%,提升了13.77%以上??梢钥闯?,自適應(yīng)跨模態(tài)塊學(xué)習(xí)了兩者的互補(bǔ)信息。它學(xué)習(xí)音頻中存在而視覺中不存在的信息,從而為視覺表示提供音頻模態(tài)的更多語(yǔ)義信息。

? ? ? ? 2.?使用兩個(gè)跨模態(tài)注意力分別融合其他模態(tài)得到強(qiáng)化特征。實(shí)驗(yàn)結(jié)果表明,該方法的正確率為74.58%,而該文提出的方法正確率為76.76%。在相同的實(shí)驗(yàn)設(shè)置下,TACFN算法更有效。跨模態(tài)注意力不能很好地捕獲互補(bǔ)特征的原因被認(rèn)為是由于音頻模態(tài)對(duì)視覺模態(tài)并不是完全有幫助的,而經(jīng)常強(qiáng)化視覺模態(tài)的特征可能只包含視覺模態(tài)的一部分。在此基礎(chǔ)上,設(shè)計(jì)了跨模態(tài)模塊,以更有效和自適應(yīng)地關(guān)注對(duì)當(dāng)前模態(tài)更有用的信息,即有效互補(bǔ)信息。

在IEMOCAP數(shù)據(jù)集上Baselines的比較結(jié)果:

? ? ? ? 將該模型應(yīng)用于IEMOCAP數(shù)據(jù)集。上表顯示了結(jié)果。使用自適應(yīng)跨模態(tài)塊實(shí)現(xiàn)互補(bǔ)學(xué)習(xí),即使用音頻和文本融合模態(tài)獲取權(quán)重信息來增強(qiáng)文本模態(tài),使用視覺和文本融合模態(tài)獲取權(quán)重信息來增強(qiáng)文本模態(tài)。

? ? ? ? 1.??MulT利用跨模態(tài)注意力實(shí)現(xiàn)互補(bǔ)學(xué)習(xí)。該模型在所有指標(biāo)上都優(yōu)于MulT。

? ? ? ? 2. 與目前最先進(jìn)的PMR進(jìn)行了比較,結(jié)果達(dá)到了可比水平。同時(shí),TACFN的參數(shù)數(shù)量有顯著降低。

Ablations:?

? ? ? ? 上表顯示了RAVDESS數(shù)據(jù)集上的消融實(shí)驗(yàn)。為了驗(yàn)證自適應(yīng)跨模態(tài)塊的有效性,通過簡(jiǎn)單拼接兩種模態(tài)的高層語(yǔ)義特征來獲得最終情感。實(shí)驗(yàn)結(jié)果表明,跨模態(tài)分塊在參數(shù)數(shù)量?jī)H增加0.4M的情況下使性能提升了3%以上,這表明來自兩種模態(tài)的有效互補(bǔ)信息可以對(duì)最終決策產(chǎn)生很大影響。?

? ? ? ? 進(jìn)一步探索了自適應(yīng)跨模態(tài)塊內(nèi)部結(jié)構(gòu)的有效性。在自適應(yīng)跨模態(tài)塊中,自注意力機(jī)制和殘差結(jié)構(gòu)對(duì)模型性能起著重要作用。將自注意力機(jī)制和殘差結(jié)構(gòu)分別分離,可以看出自注意力對(duì)最終結(jié)果的影響超過3%。這表明我們得到的音頻語(yǔ)義特征包含冗余信息,可以通過自注意力機(jī)制進(jìn)行特征選擇,使其高效且自適應(yīng)于跨模態(tài)交互。此外,殘差結(jié)構(gòu)對(duì)最終結(jié)果的影響較小,這表明殘差結(jié)構(gòu)的加入有助于確保在交互過程中最大限度地減少視覺特征的損失。

? ? ? ? 上表報(bào)告了RAVDESS數(shù)據(jù)集上每個(gè)類的單模態(tài)和TACFN的精度。

? ? ? ? 1. 在視覺模態(tài)上,“高興”、“生氣”和“驚訝”比音頻模態(tài)更容易區(qū)分。

? ? ? ? 2. 在音頻模態(tài)上,“Sad”和“afraid”表現(xiàn)更好。

? ? ? ? 3. 可以看出,自適應(yīng)跨模態(tài)分塊后,各個(gè)類的準(zhǔn)確率相比單模態(tài)的都有所提高?!爸辛ⅰ钡臏?zhǔn)確率最低,而“悲傷”和“恐懼”的準(zhǔn)確率提高最為顯著,約為10%。我們認(rèn)為,視覺模態(tài)從音頻模態(tài)中獲得了互補(bǔ)信息,從而獲得了更高的性能。

Conclusion:?

? ? ? ? 本文提出一種基于transformer的自適應(yīng)多模態(tài)融合網(wǎng)絡(luò)。將該網(wǎng)絡(luò)分為兩個(gè)步驟:單模態(tài)表示和多模態(tài)融合。多模態(tài)融合主要考慮減少冗余特征和增強(qiáng)互補(bǔ)特征這兩個(gè)核心問題。為了減少冗余特征,使用自注意力機(jī)制使一種模態(tài)能夠進(jìn)行模態(tài)內(nèi)特征選擇,并以高效的模態(tài)間方式自適應(yīng)地與另一模態(tài)交互。為了增強(qiáng)互補(bǔ)特征,通過拼接的方式將選擇的模態(tài)與另一模態(tài)融合得到一個(gè)權(quán)重向量,并將該權(quán)重向量與另一模態(tài)相乘來實(shí)現(xiàn)特征增強(qiáng)。將該模型應(yīng)用于RAVDESS和IEMOCAP數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明提出的融合方法更加有效。與其他模型相比,基于單模態(tài)表示學(xué)習(xí)的融合策略在情感識(shí)別上取得了顯著的性能提升。


Reference:

[1]?Natalia Neverova, Christian Wolf, Graham Taylor, and Florian Nebout. 2015. Moddrop: adaptive multi-modal gesture recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 38, 8 (2015), 1692–1706.

[2]?Jianyou Wang, Michael Xue, Ryan Culhane, Enmao?Diao, Jie Ding, and Vahid Tarokh. 2020b. Speech emotion recognition?with dual-sequence LSTM architecture. In ICASSP 2020-2020 IEEE?International Conference on Acoustics, Speech and Signal Processing?(ICASSP). IEEE, 6474–64.

[3]?Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu, and ′ Kaiming He. 2017. Aggregated residual transformations for deep neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition. 1492–1500.

[4]?Yao-Hung Hubert Tsai, Shaojie Bai, Paul Pu Liang, J Zico Kolter, Louis-Philippe Morency, and Ruslan Salakhutdinov. 2019. Multimodal transformer for unaligned multimodal language sequences. In Proceedings of the conference. Association for Computational Linguistics. Meeting, Vol. 2019. NIH Public Access, 6558.

[5]?Fengmao Lv, Xiang Chen, Yanyong Huang, Lixin Duan, and Guosheng Lin. 2021. Progressive Modality Reinforcement for Human Multimodal Emotion Recognition From Unaligned Multimodal Sequences. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2554–2562.

[6]?Steven R Livingstone and Frank A Russo. 2018. The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PloS one 13, 5 (2018), e0196391.

[7]?Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower Provost, Samuel Kim, Jeannette Chang, Sungbok Lee, and Shrikanth Narayanan. 2008. IEMOCAP: Interactive emotional dyadic motion capture database. Language Resources and Evaluation 42 (12 2008), 335–359. https://doi.org/10.1007/s10579-008- 9076-6.

[8]?Wenliang Dai, Zihan Liu, Tiezheng Yu, and Pascale Fung. 2020. Modality-Transferable Emotion Embeddings for Low-Resource Multimodal Emotion Recognition.?arXiv:2009.09629 [cs.CL]

[9]?Fengmao Lv, Xiang Chen, Yanyong Huang, Lixin Duan, and Guosheng Lin. 2021. Progressive Modality Reinforcement for Human Multimodal Emotion Recognition From Unaligned Multimodal Sequences. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2554–2562.

TACFN: 一種用于多模態(tài)情感識(shí)別的基于Transformer的自適應(yīng)跨模態(tài)融合網(wǎng)絡(luò)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
克拉玛依市| 青河县| 怀柔区| 精河县| 乾安县| 阳山县| 达日县| 永仁县| 织金县| 瓮安县| 普定县| 偃师市| 英德市| 迁安市| 大邑县| 信阳市| 浏阳市| 应城市| 西和县| 泾阳县| 梅州市| 龙州县| 郴州市| 茶陵县| 开封县| 米易县| 平塘县| 会宁县| 潼南县| 友谊县| 钦州市| 济阳县| 泸定县| 木兰县| 萨迦县| 张家港市| 定日县| 麟游县| 达拉特旗| 琼海市| 响水县|