Équipe de recherche TEXMEX
Techniques d'exploitation des documents multimédias
Exploration, indexation, navigation et recherche dans de très grandes bases

Sujet de master 2 recherche en informatique pour l'année 2011 / 2012

Estimation de mesures de confiance phonétiques pour la recherche d'information

Mots-clés : recherche d'information multimédia, reconnaissance de la parole, phonétique, données bruitées, mesure de confiance, apprentissage supervisée


Contexte : Recherche d'information multimédia basée sur la parole

Dans le cadre de nos travaux en recherche d'information multimédia, nous cherchons à élaborer des moteurs de recherche capables de retrouver, à partir de données issues de la télévision, des informations intéressantes pour l'utilisateur. Cette tâche nécessite de parvenir à la compréhension des contenus audiovisuels par l'extraction de descripteurs sémantiques. Dans ce but, on considère que la parole véhicule en effet des informations fortement sémantiques que l'on peut extraire grâce à des outils de reconnaissance de la parole.


Problématique : Fiabilité des représentations lexicales et phonétiques

L'approche classique de recherche d'information mutlimédia basée sur la parole consiste à cascader un système de reconnaissance de la parole (RAP) utilisé pour retranscrire automatiquement la parole issue des flux audiovisuels, et un moteur de recherche de type « textuel » qui va permettre de rechercher des informations directement dans ces transcriptions. L'une des limites de cette méthode est liée à la variabilité de la qualité des transcriptions fournies par les systèmes de reconnaissance automatique de la parole. Même si les progrès dans le domaine de la RAP sont conséquents depuis plusieurs années, la sortie d'un système de transcription automatique se distingue nettement d'un texte écrit notamment parce qu'elle est non structurée (texte brut sans ponctuation) et qu'elle contient des mots mal reconnus (taux d'erreur mot compris entre 10% et 50%). Parmi les différentes raisons pouvant expliquer ces erreurs de transcription, l'une d'elle est due aux techniques utilisées par les systèmes de RAP pour passer du signal acoustique au texte. Leur principale faiblesse est qu'ils s'appuient sur des ressources prédéfinies (lexique, modèle de langue) qui sont non exhaustives. Tous les mots initialement prononcés par le locuteur dans le document (audio) original qui ne figurent pas dans le lexique du système de RAP seront donc remplacés automatiquement dans la transcription par des mots connus par le système qui sont acoustiquement proches mais erronés. Ce phénomène est particulièrement problématique puisque ces mots non reconnus (dits mots hors vocabulaire) correspondent souvent à des mots fortement représentatifs du contenu sémantique tels que des noms propres (noms de personnes, de lieux, etc.). Une des solutions souvent envisagée pour contourner ce problème des mots erronés est de recourir à des approches à vocabulaire ouvert (par opposition aux approches à vocabulaire fermé) qui consistent à retranscrire le signal sonore de la parole associé aux mots mal reconnus par une séquence de phonèmes (unités élémentaires de la prononciation). Si cette approche permet de retrouver par la suite des mots hors vocabulaire, elle est aussi dépendante de la qualité variable des transcriptions phonétiques. La recherche d'information multimédia basée sur la parole repose donc sur des transcriptions lexicales et phonétiques potentiellement erronées qu'il faut indexer avec prudence. Heureusement, certains indicateurs peuvent nous aider à apprécier la fiabilité des décisions prises par le système de RAP pour éviter, par exemple, de donner trop d'importance à information qui serait mal reconnue. Pour chaque mot et phonème reconnu dans les transcriptions, on associe donc une « mesure de confiance » estimant son degré de fiabilité.


Objectif du stage : Estimation de mesures de confiance phonétiques

Pour le niveau lexical (i.e. le niveau des mots), nos travaux de recherche [1] nous ont amené à mettre au point de nouvelles mesures de confiance robustes qui permettent d'estimer la fiabilité des mots retranscrits. Chaque mot contenu dans la transcription est en effet associé à un score de confiance qui permet de distinguer les mots bien reconnus des mots erronés. Les mots détectés par nos mesures de confiance comme de possibles erreurs sont alors phonétisés afin de pouvoir être tout de même exploités dans une optique de recherche d'information. Néanmoins, contrairement au niveau lexical, nous ne disposons pas de scores de confiance nous permettant de nous assurer de la qualité de nos représentations phonétiques. L'objectif de ce stage consiste donc à mettre au point de nouvelles mesures de confiance qui soient applicables au niveau phonétique. Le stage pourra se décomposer en trois étapes :

  1. Recherche de descripteurs phonétiques pertinents permettant de prédire la fiabilité des phonèmes reconnus;
  2. Estimation de la mesure de confiance par combinaison des descripteurs grâce à des méthodes d'apprentissage supervisées (tel que les CRFs, cf. [1]);
  3. Application des mesures de confiance estimées pour une tâche de recherche d'information.


Bibliographie

  1. J. Fayolle, F. Moreau, C. Raymond, G. Gravier, P. Gros, « CRF-based Combination of Contextual Features to Improve A Posteriori Word-level Confidence Measures », Interspeech 2010.
  2. T. Chen, B. Chen, H. Wang, « On using entropy information to improve posterior probability-based confidence measures », ISCSLP 2006.
  3. H. Jiang, « Confidence measures for speech recognition: A survey », Speech communication, vol. 45, no. 4, pp. 455-470, 2005.
  4. F. Wessel, R. Schluter, K. Macherey, and H. Ney, « Confidence measures for large vocabulary continuous speech recognition », IEEE Transactions on Speech and Audio Processing, vol. 9, no. 3, pp. 288-298, 2001.


Encadrement