Skip to content
  metiss  

Séparation et respatialisation d'enregistrements audio par modélisation de Markov

Document Actions

Niveau: Master 2 Recherche

Mots-clés: audio, séparation de sources, restitution spatialisée, modèle de Markov caché, apprentissage supervisé, représentation temps-fréquence

Responsable : Emmanuel Vincent
Mail : emmanuel.vincent@irisa.fr
Tél : 02 99 84 22 69

Description:
Les documents audio contiennent souvent plusieurs sources sonores (locuteurs, instruments, bruits) mélangées par enregistrement live ou en studio. La séparation de sources vise à reconstruire les signaux sources afin de les écouter individuellement ou de les restituer sur un système multi-enceintes avec un effet de spatialisation amélioré ou différent [1,2]. Le problème de séparation comporte alors deux étapes successives: d'abord le nombre et la position spatiale des sources sont estimés, puis les signaux sources sont extraits du signal observé en fonction de leur position.

Dans le cas des mélanges stéréo, l'étape d'extraction peut s'effectuer par masquage temps-fréquence, c'est-à-dire en calculant la transformée de Fourier à court terme (TFCT) des canaux gauche et droit et en découpant le plan temps-fréquence en différentes régions associées chacune à une source. Une méthode de masquage classique consiste à attribuer chaque point temps-fréquence à la source dont la direction spatiale est la plus proche de la direction d'arrivée du son observée [2,3]. Expérimentalement, cette méthode permet de renforcer fortement le son de la source viseé, mais elle produit des artefacts sonores gênants (du type de ceux observés avec un codeur MP3  très bas débit) dus à la discontinuité des régions temps-fréquence estimées.

L'objectif du stage est de mettre en oeuvre et d'évaluer une méthode de séparation de sources par masquage basée sur la modélisation de la continuité temporelle des sources, en supposant leur position spatiale connue. On s'inspirera pour cela des méthodes par modèle de Markov caché proposées récemment [4], en modifiant les distributions de probabilité afin de mieux représenter la distribution réelle des sources. Le modèle de base mis en place pourra être développé par la suite afin d'attribuer chaque point temps-frquence à deux sources ou plus comme proposé dans [5].

Bibliographie:
[1] E Vincent, MG Jafari, SA Abdallah, MD Plumbley and ME Davies. Model-based audio source separation. Technical Report C4DM-TR-05-01, Queen Mary University of London, 2006.
[2] C Avendano and JM Jot. Frequency domain techniques for stereo to multichannel upmix. In Proc. AES 22nd Conf. on Vitual, Synthetic and Entertainment Audio, pp. 121-130, 2002.
[3] O Yilmaz and ST Rickard. Blind separation of speech mixtures via time-frequency masking. IEEE Trans. on Signal Processing, vol. 52, no. 7, pp. 1830-1847, 2004.
[4] RV Balan and JP Rosca. Convolutive demixing with sparse discrete prior models for Markov sources. In Proc. Int. Conf. on Independent Component Analysis and Blind Source Separation (ICA), pp. 544-551, 2006.
[5] JM Peterson and S Kadambe. A probabilistic approach for blind source separation of underdetermined convolutive mixtures. In Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. VI-581-584, 2003.

Created by evincent
Last modified 29.07.2009 04:49 PM expired
« May 2012 »
Su Mo Tu We Th Fr Sa
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31