Vous êtes ici

MADMAX - Modèles d'Apprentissage automatique pour la Détection Multimodale de comportements AnormauX

Equipe et encadrants
Département / Equipe: 
Site Web Equipe: 
http://www-expression.irisa.fr/
Directeur de thèse
Pierre-François MARTEAU
Co-directeur(s), co-encadrant(s)
Arnaud DELHAY-LORRAIN
Contact(s)
NomAdresse e-mailTéléphone
Arnaud DELHAY-LORRAIN
arnaud.delhay@irisa.fr
0296469663
Pierre-François MARTEAU
pierre-francois.marteau@irisa.fr
0297017299
Sujet de thèse
Descriptif

Ce sujet de thèse se situe dans le cadre général de la détection d'« anomalies » dans les séquences multicanal. Nous entendons par ce terme d'« anomalie » l'existence d'éléments étrangers à une situation normale dans un contexte déterminé. Ces séquences peuvent concerner aussi bien des données évoluant sur le plan temporel que spatial : par exemple des enregistrements vocaux et vidéo, mais aussi des séquences d’appels systèmes sur une machine hôte d’un réseau. L’objectif est de générer des modèles de comportements anormaux par des méthodes de d’apprentissage automatique.

Cette étude peut se décliner naturellement dans le cadre particulier de la détection d’un comportement anormal d'un être humain à partir des mouvements faciaux et du signal vocal. Nous pensons à des situations de stress extrêmes de pilotes d'avion ou de conducteurs d'engins, par exemple. On peut également penser à la détection de comportements hostiles par un énoncé vocal et un visage neutre dans une situation où le discours devrait être détendu et expressif au contraire. Cette étude pourrait aussi intéresser des applications dans le domaine médical, comme par exemple, la détection de comportements anormaux dus à des handicaps psychiques comme l'autisme. Enfin, l'évaluation de la possibilité de falsification d'un système de détection est envisageable. 

Profil de candidature souhaité : 

Cette thèse sera co-financée par la DGA (Délégation Générale pour l’Armement). Le candidat devra posséder la nationalité d’un pays de l’Union Européenne, ou la nationalité suisseIl devra détenir un diplôme de niveau Master en informatique. Le candidat devrait mener des recherches de pointe appliquées dans un ou plusieurs des domaines suivants : traitement de signal, apprentissage automatique statistique, reconnaissance de la parole et du geste. Le candidat devra avoir un excellent niveau en développement logiciel (par exemple en C/C++, Python/Perl, etc.), et si possible des connaissances en apprentissage automatique, traitement de signal et dans le domaine de l’interaction home-machine.

Bibliographie

[BDY+04] Carlos Busso, Zhigang Deng, Serdar Yildirim, Murtaza Bulut, Chul Min Lee, Abe Kazemzadeh, Sungbok Lee, Ulrich Neumann, and Shrikanth Narayanan. Analysis of emotion recognition using facial expressions, speech and multimodal information. In Proceedings of the 6th international conference on Multimodal interfaces, pages 205–211. ACM, 2004.  

[FDLM17a] Cédric Fayet, Arnaud Delhay, Damien Lolive, and Pierre-François Marteau. Big Five vs. Prosodic Features as Cues to Detect Abnormality in SSPNET-Personality Corpus. In Interspeech, Stockholm, Sweden, August 2017. 

[FDLM18] Cédric Fayet, Arnaud Delhay, Damien Lolive, and Pierre-François Marteau. EMO&LY (EMOtion and AnomaLY) : A new corpus for anomaly detection in an audiovisual stream with emotional context. In Language Resources and Evaluation Conference (LREC), Miyazaki, Japan, May 2018, to appear.

[FL03] B. Fasel and Juergen Luettin. Automatic facial expression analysis : a survey. Pattern Recognition, 36(1) :259 – 275, 2003.

[GP13] D Govind and SR Mahadeva Prasanna. Expressive speech synthesis : a review. International Journal of Speech Technology, pages 1–24, 2013.

[MV15] Wesley Mattheyses and Werner Verhelst. Audiovisual speech synthesis : An overview of the state-of-the-art. Speech Communication, 66(0) :182 – 217, 2015.

[PCHH15] Soujanya Poria, Erik Cambria, Amir Hussain, and Guang-Bin Huang. Towards an intelligent framework for multimodal affective data analysis. Neural Networks, 63(0) :104 – 116, 2015.  

[SKMB18] Saeid Soheily-Khah, Pierre-François Marteau, and Nicolas Béchet. Intrusion detection in network systems through hybrid supervised and unsupervised mining process - a detailed case study on the ISCX benchmark dataset. In The 1st International Conference on Data Intelligence and Security, South Padre Island, USA, April 2018, to appear.

[Sou14] Mariette Soury. Multimodal stress detection for remediation software design. Thèse, Université Paris Sud - Paris XI, October 2014.

[Tah12] Marie Tahon. Acoustic analysis of speakers emotional voices during a human-robot interaction. Thèse, Université Paris Sud - Paris XI, November 2012.

 

Début des travaux: 
octobre 2018
Mots clés: 
Détection d’anomalies, apprentissage artificiel, classification automatique, séquences multicanal, voix, expressivité faciale, analyse du geste, informations hétérogènes
Lieu: 
IRISA - ENSSAT, Lannion, Côtes d'Armor