MuSe-2022:基于多標簽圖卷積網(wǎng)絡和動態(tài)表情識別Transformer的情感反應分析


文章題目:Emotional Reaction Analysis based on Multi-Label Graph Convolutional Networks and Dynamic Facial Expression Recognition Transformer
文章來源:https://dl.acm.org/doi/10.1145/3551876.3554810

Background:
? ? ? 文章提出的模型是對MuSe2022中的MuSe-reaction子挑戰(zhàn)的解決方案。
? ? ? 該挑戰(zhàn)具體內(nèi)容:
? ? ? MuSe-Reaction: predicting the intensity of seven emotions (Adoration, Amusement, Anxiety, Disgust, Empathic Pain, Fear, Surprise).?Official baseline?:?.2801?mean Pearson's correlation over all seven classes.
? ? ? 即預測給定七種情緒的強度,baseline為0.2801的七類別平均皮爾遜相關(guān)系數(shù)。
? ? ? 本篇文章設(shè)計了一個端到端的模型,由用于動態(tài)面部表示學習的時空Transformer和用于情感依賴建模的多標簽圖卷積網(wǎng)絡組成。最終在挑戰(zhàn)的測試集上取得了0.3375的平均皮爾遜系數(shù)。
?

Introduction:
? ? ? 目標:在該挑戰(zhàn)中,一個人對于刺激的反應會被記錄下來。目標是建立一個模型來預測她的情感反應值,包含上述七種情感。
? ? ? 與傳統(tǒng)的FER任務不同的是,MuSe-Reaction子挑戰(zhàn)旨在預測每個樣本的多個情緒標簽,需要考慮多標簽關(guān)系。此前工作采用概率圖模型(probabilistic graph model)和循環(huán)神經(jīng)網(wǎng)絡(RNN)顯式建模標簽依賴關(guān)系,通過注意力機制隱式建模標簽相關(guān)性。
? ? ? 這篇文章對于MuSe-Reaction子挑戰(zhàn)的解決方案為:將MuSe2022提供的原始人臉圖片輸入Former-DFER-Face(包含卷積空間Transformer和時間序列Transformer),然后在情感反應標簽上構(gòu)建有向圖(其中每個情緒表示為一個節(jié)點,利用節(jié)點間構(gòu)建的邊來捕獲不同情緒的關(guān)系)。利用圖卷積網(wǎng)絡(GCN)將標簽圖映射為一組相互依賴的情感分類器,最后利用分類器得到多個情感標簽的回歸值。

Proposed Method:

? ? ? 模型包含用于時空表示學習的Former-DFER-Face和用于情感反應依賴建模的ML-GCN。

? ? ? Former-DFER-Face主要由一個卷積空間Transformer (CS-Former)和一個時間Transformer (T-Former)組成。從原始視頻序列中動態(tài)采樣的定長人臉表情序列作為模型的輸入。采用Former-DFER[1]中的方法獲取定長的視頻序列。CS-Former以T幀為輸入,從每一幀中提取人臉空間特征。
? ? ??CS-Former由3部分組成:四層卷積塊,N個空間編碼器和conv5。由conv1到conv4組成的卷積塊,用于提取局部空間特征構(gòu)建特征圖。為了將特征圖輸入到空間編碼器中,我們將每個特征圖重構(gòu),加入token、位置信息。空間編碼器具有良好的全局建模能力,能夠?qū)θ?/span>空間交互關(guān)系進行建模。每個空間編碼器由一個多頭自注意力和前饋網(wǎng)絡組成。最后使用卷積塊conv5對人臉特征進行細化。這里文章中的框架用Resnet50中的conv1 to conv4取代CS-Fromer中的conv1 to conv4,在大規(guī)模人臉識別數(shù)據(jù)集上進行了預訓練,并在常用的面部表情數(shù)據(jù)集FER+上進行了微調(diào)。
? ? ??T-Former由M個時間編碼器組成。CS-Former輸出經(jīng)過時空位置嵌入后輸入到時間編碼器中。與CS-Former不同,在序列的第一個位置添加一個特殊的可學習向量x以表示可學習標記。

? ? ? 從上圖中可以看出,各情感標簽之間彼此不是獨立的。為了捕獲多標簽關(guān)系,實驗者們先根據(jù)[2]中的方法,構(gòu)建了一個基于情感標簽的有向圖。其中每個節(jié)點表示七種情緒反應中的一種。利用edges捕獲不同情緒之間的關(guān)系,經(jīng)過GCN后,將每個節(jié)點的最終輸出作為分類器進行相應的情感反應。最后,在這些分類器的幫助下得到預測結(jié)果。

Dataset:
? ? ? Hume-Reaction數(shù)據(jù)集用于MuSe-2022[3]中的MuSe-Reaction子挑戰(zhàn)。該數(shù)據(jù)集包含超過70小時的音頻和視頻數(shù)據(jù),來自2222名來自美國(1138)和南非(1084)的受試者,年齡從18.5~ 49.0歲。當他們對廣泛的情感喚起刺激[4]做出反應時,每個樣本都被標注了從1到100的7種情緒反應的強度。7種情緒反應包括:崇拜、娛樂、焦慮、厭惡、共情痛苦、恐懼和驚訝。訓練、開發(fā)和測試集的詳細信息如表1所示。在這篇文章中,使用MuSe2022[3]提供的人臉作為輸入。

Discussions:
? ? ? 文章對多種聲學和視覺特征對基線模型BiLSTM的影響進行了探討。在聲學特征方面,本文研究了MuSe 2022提供的eGeMAPS[5]和DeepSpectrum。利用幾個在大規(guī)模音頻數(shù)據(jù)集上預訓練的監(jiān)督/無監(jiān)督模型來提取高級聲學表示,包括PANNs和wAV2vec。在視覺特征方面,采用MuSe 2022提供的FAUs和VGGFace2,還利用Emonet[6]和ResNetFace[7]來提取視覺表示。實驗結(jié)果如下:

? ? ? 我們發(fā)現(xiàn)視覺特征的性能明顯優(yōu)于聲學特征。然而,兩種特征融合的結(jié)果比視覺單模態(tài)結(jié)果差。作者發(fā)現(xiàn),在大多數(shù)視頻中,受試者是沉默的,而在其他視頻中,聲音中包含的信息不足以預測情緒反應。因此,其余實驗僅利用視覺模態(tài)。
?

Results & Ablation:
? ? ? 所提方法在測試集MuSe-Reaction上的平均Pearson相關(guān)系數(shù)為0.3375,在驗證集上的平均Pearson相關(guān)系數(shù)為0.3456。

? ? ? 將ResNet18替換為conv1~conv4到ResNet50是有幫助的。原因在于ResNet50增加了對情感信息建模的能力。進一步發(fā)現(xiàn),用ResNet50替換卷積塊的效果不如用ResNet50中的conv1~conv4,這表明采用Transformer架構(gòu)的可行性。同時,實驗結(jié)果也表明ML-GCN也能提高識別性能。ML-GCN捕捉了不同情緒反應之間的關(guān)系。與負相關(guān)的情緒反應相比,正相關(guān)的情緒反應同時具有高預測值的概率更高。

Reference:
[1]?Zengqun Zhao and Oingshan Liu. 2021. Former-DFER: Dynamic Facial Expression Recognition Transformer. In Proceedings of the 29th ACM International Conference on Multimedia. 1553-1561.
[2]?Z. M. Chen, X. S. Wei, P. Wang, and Y. Guo. 2019. Multi-Label Image Recognition With Graph Convolutional Networks. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
[3]?Lukas Christ, Shahin Amiriparian, Alice Baird, Panagiotis Tzirakis, AlexanderKathan, Niklas Müller, Lukas Stappen, Eva-Maria Me?ner, Andreas K?nig, AlanCowen, Erik Cambria, and Bj?rn W. Schuller. 2022. ? The MuSe 2022 Multimodal Sentiment Analysis Challenge: Humor, Emotional Reactions, and Stress. ? In Proceedings of the 3rd Multimodal Sentiment Analysis Challenge. ? Association for Computing Machinery, Lisbon, Portugal. ? Workshop held at ACM Multimedia2022, to appear.
[4]?Alan S. Cowen and Dacher Keltner. 2017. ? Self-report captures 27 distinct categories of emotion bridged by continuous gradients. ? Proceedings of the National Academy of Sciences of the United States of America (2017), E7900.
[5]?Florian Eyben, Klaus R Scherer, Bj?rn W Schuller, Johan Sundberg, ElisabethAndré, Carlos Busso, Laurence Y Devillers, Julien Epps, Petri Laukka, Shrikanth SNarayanan, et al. 2015. The Geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing. IEEE Transactions on Affective Computing 7, 2 (2015), 190-202.
[6]?Antoine Toisoul, Jean Kossaifi, Adrian Bulat, Georgios Tzimiropoulos, and MajaPantic. 2021. Estimation of continuous valence and arousal levels from faces in naturalistic conditions. Nature Machine Intelligence 3, 1 (2021), 42-50.
[7] Samuel Albanie, Arsha Nagrani, Andrea Vedaldi, and Andrew Zisserman. 2018.Emotion recognition in speech using cross-modal transfer in the wild. In Proceedings ofthe 26th ACM international conference on Multimedia. 292-301.