【74th】(lab成果推薦)NHFNet-用于??多模態(tài)情感分析??的??非同

多模態(tài)情感分析
多模態(tài)情感分析研究主要集中在單模態(tài)表征學(xué)習(xí)和多模態(tài)融合兩個(gè)方面

1.空間差異難以代表特定模式的差異,直觀的,不同的模態(tài)具有不同的語義信息。文本是人類產(chǎn)生的信號,具有高度的語義和信息密集性。相反,視覺和音頻是具有大量空間冗余的自然信號,包含了低階的語義和單元特征。
2.他們需要手動平衡全局損失函數(shù)中的約束部分的權(quán)重,這很大程度上依賴于人類的經(jīng)驗(yàn)

現(xiàn)存的融合方法包括但不限于基于簡單操作的,基于注意力的,基于張量的,基于翻譯的,基于GAN的,基于圖的和基于路由的方法等,盡管學(xué)習(xí)模態(tài)融合的方法各種各樣,但基于注意力融合的方法仍然在效率和性能方面具有優(yōu)勢
音頻和視覺的輸入包含了密集的、細(xì)粒度的信息,其中大部分是冗余的,在音頻和視覺兩種模態(tài)融合過程中,成對的跨模態(tài)Transformer與多模態(tài)序列長度呈二次復(fù)雜性,這種操作是低效的。





標(biāo)簽: