Proposition de stage : Séparation de voix superposées avec un seul capteur guidée par la transcription
Mots clés : séparation de sources, traitement de la parole, reconnaissance automatique de la parole
Le problème de séparation de sources audio avec un seul capteur consiste à estimer automatiquement plusieurs signaux sonores (sources) enregistrés par un seul microphone. Pour pouvoir apporter des solutions satisfaisantes à ce problème difficile il est indispensable d’utiliser au mieux toutes les connaissances dont on dispose sur des signaux mélangés.
Dans ce stage, on s'intéressera à des mélanges de parole provenant de deux locuteurs inconnus parlant simultanément. Dans ce cas on disposes de très peu de connaissances pour pouvoir séparer les signaux en s’appuyant seulement sur leurs caractéristiques acoustiques. Notamment, si les techniques conventionnelles [1] de séparation nous permettent de séparer à chaque instant des spectres de deux sources, elles ne permettent pas de les relier entre eux pour former les sources [2]. En revanche, le message prononcé peut dans certains cas être supposé connu afin de lever l'ambigüité concernant l'appariement des spectres aux sources.
Dans le but d'aller vers une approche conjointe pour la reconnaissance de la parole simultanée [3] et la séparation de sources , nous proposons de considérer que la parole prononcée (la transcription) est connue, et d’étudier l’apport de cette connaissance pour la séparation. Une des pistes pour ce travail consiste à coupler un algorithme de séparation de sources avec une partie d’un système de transcription automatique de la parole, enfin de relier les phonèmes de la transcription avec les spectres de signaux (par exemple via un alignement dynamique par l’algorithme de Viterbi [4] ). Les méthodes développées pourront être intégrée dans une démonstration : l’utilisateur créé des mélanges de signaux de la parole et saisie les transcriptions correspondantes avant de lancer les algorithmes de séparation des signaux.
Le stagiaire sera muni de tous les outils nécessaires, notamment : signaux de la parole française avec des transcriptions ; outils d'évaluation des algorithmes de séparation de sources ; implémentation d'un algorithme classique de séparation de sources ; système de transcription automatique de la parole.
Ce stage s'inscrit dans le cadre du projet Quaero [5] et sera pour le stagiaire l'occasion de rentrer en contact avec les partenaires du projet.
Bibliographie :
- [1] A. Ozerov, P. Philippe, F. Bimbot and R. Gribonval, "Adaptation of Bayesian models for single channel source separation and its application to voice / music separation in popular songs," IEEE Trans. on Audio, Speech and Lang. Proc., special issue on Blind Signal Proc. for Speech and Audio Applications, vol. 15, no. 5, pp. 1564-1578, July 2007.
- [2] D. Ellis "Model-Based Scene Analysis", Chapter 4 of Computational Auditory Scene Analysis: Principles, Algorithms, and Applications, D. Wang & G. Brown, eds., Wiley/IEEE Press, pp. 115-146, 2006. (46pp) web: http://www.ee.columbia.edu/~dpwe/pubs/Ellis06-casamodels-edbk.pdf
- [3] Kristjansson, T., Hershey, J., Olsen, P., Rennie, S., Gopinath, R., "Super-human multi-talker speech recognition: The IBM 2006 Speech Separation Challenge System". ICSLP 2006.
- [4] L.R. Rabiner, "A tutorial on hidden Markov models and selected applications in speech recognition", Proc. IEEE 77 (1989), pp. 257–284.
- [5] http://www.quaero.org/modules/movie/scenes/home/
Contact : Alexey Ozerov et Guillaume Gravier
Created by
ozerov
Contributors : Alexey Ozerov et Guillaume Gravier
Last modified 30.10.2009 07:56 PM
Contributors : Alexey Ozerov et Guillaume Gravier
Last modified 30.10.2009 07:56 PM