Passer à la navigation principale Passer à la recherche Passer au contenu principal

Emotion Recognition in Video Streams Using Intramodal and Intermodal Attention Mechanisms

  • University 'Politehnica' of Bucharest

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

Automatic emotion recognition from video streams is an essential challenge for various applications including human behavior understanding, mental disease diagnosis, surveillance, or human-machine interaction. In this paper we introduce a novel, completely automatic, multimodal emotion recognition framework based on audio and visual fusion of information designed to leverage the mutually complementary nature of features while maintaining the modality-distinctive information. Specifically, we integrate the spatial, channel and temporal attention into the visual processing pipeline and the temporal self-attention into the audio branch. Then, a multimodal cross-attention fusion strategy is introduced that effectively exploits the relationship between the audio and video features. The experimental evaluation performed on RAVDESS, a publicly available database, validates the proposed approach with average accuracy scores superior to 87.85%. When compared with the state-of the art methods the proposed framework returns accuracy gains of more than 1.85%.

langue originaleAnglais
titreAdvances in Visual Computing - 17th International Symposium, ISVC 2022, Proceedings
rédacteurs en chefGeorge Bebis, Bo Li, Angela Yao, Yang Liu, Ye Duan, Manfred Lau, Rajiv Khadka, Ana Crisan, Remco Chang
EditeurSpringer Science and Business Media Deutschland GmbH
Pages295-306
Nombre de pages12
ISBN (imprimé)9783031207150
Les DOIs
étatPublié - 1 janv. 2022
Evénement17th International Symposium on Visual Computing, ISVC 2022 - San Diego, États-Unis
Durée: 3 oct. 20225 oct. 2022

Série de publications

NomLecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)
Volume13599 LNCS
ISSN (imprimé)0302-9743
ISSN (Electronique)1611-3349

Une conférence

Une conférence17th International Symposium on Visual Computing, ISVC 2022
Pays/TerritoireÉtats-Unis
La villeSan Diego
période3/10/225/10/22

SDG des Nations Unies

Ce résultat contribue à ou aux Objectifs de développement durable suivants

  1. SDG 3 - Bonne santé et bien-être
    SDG 3 Bonne santé et bien-être

Empreinte digitale

Examiner les sujets de recherche de « Emotion Recognition in Video Streams Using Intramodal and Intermodal Attention Mechanisms ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation