Echo-aware Signal Processing for Audio Scene Analysis

Defense type
Thesis
Starting date
End date
Location
IRISA Rennes
Speaker
Diego DI CARLO (PANAMA)
Theme
Version française ci-dessous
 
Most of audio signal processing methods regard reverberation and in particular acoustic echoes as a nuisance.
However, they convey important spatial and semantic information about sound sources and, based on this, recent echo-aware methods have been proposed.
In this work we focus on two directions. First, we study the how to estimate acoustic echoes blindly from microphone recordings.
Two approaches are proposed, one leveraging on continuous dictionaries, one using recent deep learning techniques.
Then, we focus on extending existing methods in audio scene analysis to their echo-aware forms.
The Multichannel NMF framework for audio source separation, the SRP-PHAT localization method, and the MVDR beamformer for speech enhancement are all extended to their echo-aware versions.
 
Keywords:
Audio Signal Processing, Acoustic Echoes, Blind Channel Estimation, Sound Source Separation, Sound Source Localization, Room Geometry Estimation
 
YouTube link for the general audience:

https://youtu.be/xTHdqX8Q56w

French Abstract:
La plupart des méthodes de traitement du signal audio considèrent la réverbération et en particulier les échos acoustiques comme une nuisance.
Cependant, ceux-ci transmettent des informations spatiales et sémantiques importantes sur les sources sonores et des méthodes essayant de les prendre en compte ont donc récemment émergé.
Dans ce travail, nous nous concentrons sur deux directions.
Tout d’abord, nous étudions la manière d’estimer les échos acoustiques à l’aveugle à partir d’enregistrements microphoniques.
Deux approches sont proposées, l’une s’appuyant sur le cadre des dictionnaires continus, l’autre sur des techniques récentes d’apprentissage profond.
Ensuite, nous nous concentrons sur l’extension de méthodes existantes d’analyse de scènes audio à leurs formes sensibles à l’écho.
Le cadre NMF multicanal pour la séparation de sources audio, la méthode de localisation SRP-PHAT et le formateur de voies MVDR pour l’amélioration de la parole sont tous étendus pour prendre en compte les échos.
Ces applications montrent comment un simple modèle d’écho peut conduire à une amélioration des performances.

 

Mot clés:
Traitement des signaux audio, échos acoustiques, estimation des canaux aveugles, séparation de sources sonores, localisation de sources sonores, estimation de la géométrie d’une salle
Composition of the jury
- Laurent Girin (reviewer)
- Simon Doclo (reviewer)
- Fabio Antonacci (examiner)
- Renaud Seguier (examiner)
-PhD supervisors: Antoine Deleforge, Nancy Bertin