Proposition de stage : Séparation de sources audio par clustering hiérarchique à partir de données partielles
Titre : Séparation de sources audio par clustering hiérarchique à partir de données partielles
Mots clés : Audio, séparation de sources, clustering hiérarchique, apprentissage avec des données partielles
Description : Le problème de séparation de sources audio consiste à estimer les signaux de plusieurs sources sonores enregistrées simultanément par plusieurs microphones. Lorsque les sources ont des positions spatiales différentes, chaque source est caractérisée par une certaine atténuation et un certain délai entre les microphones à chaque fréquence. Le problème de séparation consiste alors à localiser les sources en estimant ces atténuations et délais, puis à associer à chaque source les sons provenant de la direction estimée. Ce problème est particulièrement difficile lorsque le nombre de sources est supérieur au nombre de microphones. Les méthodes existantes [1] donnent souvent des performances médiocres dans ce contexte [2], de sorte qu'il existe un très grand potentiel de recherche sur ce sujet.
Le but du stage proposé est de mettre en place et d'évaluer un algorithme pour l'estimation des atténuations et délais associés aux sources dans le cas particulier de mélanges stéréo (deux microphones). On considérera comme point de départ les travaux de Winter et al. [3], où il est supposé que les sources sonores sont actives à des instants différents. Cette hypothèse permet d'estimer les atténuations et délais associés aux sources à l'aide d'un algorithme de clustering hiérarchique [4]. On étudiera une extension de ces travaux reposant sur l'hypothèse plus réaliste que les sources sonores sont actives à des fréquences ou des instants différents. A partir d'une décomposition du plan temps-fréquence en zones ne contenant qu’une seule source active [5, 6], on mettra en oeuvre un algorithme de clustering hiérarchique à partir de données partielles [7]. Le concept de « données partielles » intervient du fait que les atténuations et délais associés à chaque source ne peuvent maintenant être observés qu'aux fréquences et aux instants où cette source est active, à la différence de l’approche de Winter et al.. Le clustering doit donc tenir compte des données non observées.
Le stage se focalisera essentiellement sur la conception et la mise en oeuvre d’un algorithme de clustering hiérarchique à partir de données partielles, ainsi que sur la définition d’une distance appropriée utilisée dans ce clustering. Pour attendre ces objectifs le stagiaire sera muni des outils / données suivantes :
Les données : des mélanges de signaux de parole et de musique enregistrés dans la salle d’expérimentation sonore MUSIS de l’équipe METISS.
- Des outils d'évaluation des algorithmes de séparation de sources.
- Des outils de calcul des représentations temps-fréquence des signaux audio.
- Des algorithmes de décomposition du plan temps-fréquence en zones ne contenant qu’une seule source active [5, 6]
- Des algorithmes d’estimation des sources à partir des atténuations et délais estimés.
Si le stagiaire le souhaite, il pourra utiliser la salle d’enregistrement MUSIS pour enregistrer de nouvelles données, ainsi que pour faire des démonstrations. Ce stage rentre dans le cadre du travail sur le projet Quaero [8] auquel participe l'équipe METISS.
Bibliographie :
- [1] S. Makino, T.-W. Lee, and H. Sawada, "Blind speech separation", Springer, 2007.
- [2] E Vincent, S Araki, and P Bofill, "The 2008 Signal Separation Evaluation Campaign: A community-based approach to large-scale evaluation", In: Proc. Int. Conf. on Independent Component Analysis and Blind Source Separation (ICA). Springer, pages 734-741, 2009.
- [3] S. Winter, H. Sawada, S. Araki, and S. Makino, “Hierarchical clustering applied to overcomplete BSS for convolutive mixtures,” in ISCA Tutorial,and Research Workshop on Statistical and Perceptual Audio Processing,(SAPA 2004), Oct. 2004.
- [4] T. Hastie, R. Tibshirani, and J. Friedman, "The elements,of statistical learning: data mining, inference, and prediction",,ser. Springer Series in Statistics. Springer-,Verlag, 2002.
- [5] C. Févotte, N. Bertin, J.-L. Durrieu, "Nonnegative Matrix Factorization with the Itakura-Saito Divergence: With Application to Music Analysis", Neural Computation 21(3): 793-830 (2009)
- [6] E Vincent, N Bertin, and R Badeau, "Adaptive harmonic spectral decomposition for multiple pitch estimation", IEEE Trans. on Audio, Speech and Language Processing to appear. Web: http://www.irisa.fr/metiss/publications/allpublis/ref_biblio/publications/pdf/vincent_TASLP09.pdf
- [7] M. P. Cooke, P. D. Green, L. Josifovski, and A. Vizinho, "Robust automatic speech recognition with missing and unreliable acoustic data," Speech Communication, vol. 34, pp. 267-285, 2001.
- [8] http://www.quaero.org/modules/movie/scenes/home/
Contact : Alexey Ozerov et Emmanuel Vincent