Vous êtes ici

Analyse de scènes sonores et détection d’évènements audio pour les objets connectés temps-réel embarqués à faible consommation

Equipe et encadrants
Département / Equipe: 
DépartementEquipe
Site Web Equipe: 
https://www-granit.irisa.fr/fr/#
Directeur de thèse
pascal scalart
Co-directeur(s), co-encadrant(s)
nancy bertin
Contact(s)
NomAdresse e-mailTéléphone
pascal scalart
pascal.scalart@irisa.fr
02 96 46 90 74
Sujet de thèse
Descriptif

Contexte

L’analyse de l’environnement sonore constitue un domaine en pleine expansion en raison de l‘essor des réseaux multi-microphones. Ainsi, l’explosion des usages liés aux  téléphones portables suggère d’identifier en permanence l’environnement acoustique et d’en déduire des hypothèses sur son organisation spatiale à partir de l’estimation des propriétés des sources sonores [Zeng 12]. De même, dans le domaine de l’Assistance à la Vie Autonome (AVA), les périphériques mobiles et/ou fixes doivent permettre aux personnes âgées de continuer à rester chez elles de manière confortable et sûre. La conception d’habitats intelligents qui anticipent les besoins de leurs habitants tout en maintenant leur sécurité et leur confort est donc un objectif incontournable. Dans cette optique, il semble important d’évoluer vers un habitat intelligent intégrant des systèmes qui réagissent naturellement aux commandes vocales à l’aide d’interfaces audio en remplacement des interfaces tactiles actuelles.

Dans ce cadre, l’analyse de scènes audio à partir d’un réseau de microphones constitue un élément central et sans nul doute transversal à ces différentes applications. Cette problématique se concrétise sous différentes formes : détection d’évènements audio spécifiques (cris de détresse, sonneries de téléphone, écoulements d’eau de robinet, télévision, radio ;..), estimation d’informations liées à la scène sonore (présence, nombre de sources actives ; direction d’arrivée des sources sonores prédominantes…) ou classification de scènes sonores (métro, bureau, café/restaurant,…). En effet, à partir de dispositifs mobiles et/ou fixes équipés de microphones, la classification de scènes acoustiques se révèle indispensable au développement d’applications liées aux objets connectés. L’identification automatique de la scène sonore doit ainsi permettre à  ces dispositifs d’adapter leurs comportements ou leurs configurations en fonction des différents scenarii détectés à partir des informations audio disponibles.

Positionnement de la problématique de thèse

Dans ce contexte, la plupart des techniques de classification de scène acoustiques reposent sur un algorithme d’extraction d’un ensemble de descripteurs [Peeters 11] à partir des flux audio (sur chaque trame à court-terme). Ces descripteurs, bien souvent combinés à des descripteurs spectraux tels que les MFCC (mel-frequency cepstrum coefficients), sont ensuite associés à un algorithme de classification multi-label reposant sur une modélisation par mélanges de gaussienne (GMM) ou à l’aide de séparateurs à vaste marge (SVM). Plus récemment, dans le domaine de la classification de scènes sonores, plusieurs approches se sont portées [Cakir 17] vers l’utilisation de réseaux de neurones à propagation directe (i.e. feedforward) ou à convolution (CNN) afin d’apprendre les filtres temps-fréquence capables d’identifier automatiquement des représentations pertinentes. Les résultats obtenus par de tels algorithmes semblent prometteurs cependant ces techniques utilisent des nœuds terminaux (munis d’une architecture faible consommation équipée d’un microphone) qui transfèrent le flux audio à un serveur central en charge de la fusion de données et de la tâche de classification. De telles solutions correspondent à une approche client-serveur mais elles ne répondent pas aux exigences d’une application embarquée temps-réel. En effet, peu d’approches prennent en considération, dès la conception de l’algorithme, les exigences de faible complexité indispensables à l’implémentation temps-réel. Le sujet de thèse ici proposé se positionne sur cet aspect c’est-à-dire la mise au point d’objets connectés embarquant les algorithmes directement au niveau du capteur et ceci avec une contrainte de faible consommation en énergie. Autre élément intéressant, déplacer les capacités de traitement vers les nœuds terminaux assurerait un degré de confidentialité des informations transmises car le signal audio serait alors analysé et traité localement.

Sujet de l’étude

Le travail proposé dans cette thèse vise à considérer cette problématique sous l’angle du développement d’objets connectés offrant une bande-passante (i.e un débit), une capacité de traitement, et une  consommation d'énergie limitée (i.e. batteries). L’encadrement scientifique de ce travail sera assuré conjointement par des membres de l’équipe Panama et de l’équipe Granit de l’IRISA.

La première partie du travail de thèse visera à identifier les différentes classes d’algorithmes qui seront considérés dans la suite de l’étude. Ainsi pour les problématiques de localisation des sources sonores par estimation des temps d’arrivée des différentes sources sonores (TDOAs  pour time differences of arrival), les techniques basées sur l’inter-corrélation généralisée avec transformation de la phase (GCC-PHAT pour generalized cross-correlation with phase transform) semblent particulièrement robustes en environnements réverbérants [Blandin, 12]. L’expertise acquise au sein de l’équipe Panama de l’IRISA sur les méthodes de localisation de sources (spectre angulaire, clustering…) multi-microphones et les travaux qui y sont menés (apprentissage sur espace acoustique virtuel, calibration automatique des capteurs) constitueront des appuis et axes d’étude pertinents.

Concernant la problématique de classification de scènes sonores et la détection d’évènements sonores, les solutions proposées dans le cadre du challenge DCase [Dcase 17] constitueront un bon point de départ pour les classifications à partir d’approches GMM et SVM. De même, les travaux menés au sein de l'équipe Granit sur la classification audio faible latence [Flocon-Cholet 14, 16] seront également à considérer. Les approches basées sur des modèles probabilistes de mélanges d’histogramme représentant les spectres audio [Baelde  17]  constituent également une alternative intéressante. Sur ce point, l'équipe Panama apportera également une expertise (projet FUI-OSEO S-POD : détection d’événements sonores pour la protection des personnes en situation de danger).

Dans un deuxième temps, l’étude consistera à construire de nouvelles méthodes de classification sur des systèmes portables quasi-autonomes à faible capacité de calculs et permettant de réduire la complexité algorithmique ainsi que la taille des éléments (représentation virgule fixe, mémoires,…).

En ce qui concerne les données expérimentales nécessaires à la mise au point des algorithmes ainsi qu’à leur validation, le travail se portera naturellement sur les données issues des évaluations DCase 2016 & 2017 [Mesaros 16] qui recensent plus de 2000 instances d’évènements acoustiques (issus d’environnements réels) annotées et classifiées manuellement à des fins de classification supervisée. La validation expérimentale pourra également être effectuée à partir des données en cours de collecte au sein du projet SmartSense de déploiement d’objets connectés actuellement mené à l’Enssat de Lannion par l’équipe Cairn de l’IRISA.

 

Bibliographie

[Dcase 17] http://www.cs.tut.fi/sgn/arg/dcase2017/index

[Peeters 11] G. Peeters et al. « The Timbre Toolbox : extracting audio descriptors from musical signals ». In : The Journal of the Acoustical Society of America 130.5 (nov. 2011), p. 2902–2916.

[Blandin, 12] C. Blandin, A. Ozerov, E. Vincent. « Multi-source TDOA estimation in reverberant audio using angular spectra and clustering. Signal Processing, Elsevier, 2012, 92, pp.1950-1960.

[Zeng 12] Zeng, Y. and Hendriks, R.C. (2012), Distributed Delay And Sum Beamformer For Speech Enhancement In Wireless Sensor Networks Via Randomized Gossip, in IEEE Int. Conf. Acoust., Speech, Signal Processing.

[Flocon-Cholet 14] Flocon-Cholet J., Faure J., Guerin A., ,Scalart P., « A robust howling detection algorithm based on a statistical approach », in   IEEE Int. workshop on Acoustic and Echo Control (IWAENC), september, 2014.

[Baelde  17] M. Baelde, C. Biernacki et R. Greff. « A mixture model-based real-time audio sources classification method ». In : 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Mar. 2017, p. 2427–2431.

[Cakir 17] E. Cakir et al. « Convolutional Recurrent Neural Networks for Polyphonic Sound Event Detection ». In : IEEE/ACM Transactions on Audio, Speech, and Language Processing 25.6 (juin 2017), p. 1291– 1303.

[Flocon-Cholet 16] Flocon-Cholet J., Faure J., Guerin A., ,Scalart P., « An investigation of temporal feature integration for a low-latency classification with application to speech/music/mix classification », in  137th Audio Engineering Society Convention, Los Angeles, USA, 2016.

[Mesaros 16] An. Mesaros, T. Heittola, and T. Virtanen, «Tut database for acoustic scene classification and sound event detection », In 24rd European Signal Processing Conference (EUSIPCO). Budapest, Hungary, 2016.

 

Début des travaux: 
octobre 2018
Mots clés: 
Classification de scènes audio, objets connectés, temps-réel, systèmes embarqués, faible consommation, SVM, GMM, réseaux neurones
Lieu: 
IRISA - Campus universitaire de Beaulieu, Rennes