Équipe de recherche TEXMEX
Techniques d'exploitation des documents multimédias
Exploration, indexation, navigation et recherche dans de très grandes bases

Mise à jour :
22 septembre 2009

Patrick.Gros [at] inria.fr
© Copyright INRIA 2012

Sujet de master 2 recherche en informatique pour l'année 2009 / 2010

Titre : Apprendre de nouveaux mots à un système de reconnaissance automatique de la parole

De nombreuses applications multimédias requièrent l'accès au sens des propos tenus dans les documents traités (ex. : rechercher un journal télévisé qui aborde un sujet donné, trouver tous les documents qui parlent d'un même sujet, etc.). Pour permettre ce type d'applications, une solution possible est de transcrire automatiquement la parole contenue dans les documents multimédias et de manipuler ce matériau textuel à l'aide de techniques de traitement automatique des langues et de recherche d'information textuelle. Pour ce faire, on utilise un système de reconnaissance automatique de la parole (RAP) qui prend en entrée le signal de parole émis et, en se basant sur un dictionnaire (liste des mots connus par le système) de prononciation et sur un modèle de langue (probabilités des successions de mots d'une langue donnée, apprises sur un grand volume de texte), produit la suite de mots reconnus par le système.

Cependant, le vocabulaire du système étant fini, les mots absents du dictionnaire ne peuvent être reconnus et sont forcément mal transcrits. Or, quand on s'intéresse à la transcription automatique de la parole au sein d'un domaine précis (sport, météo, etc.), de nombreux mots spécifiques apparaissent dans le discours. L'objectif du stage est de trouver comment augmenter le vocabulaire d'un système de RAP en fonction du domaine des documents étudiés. Un premier problème consiste à repérer les mots intéressants à inclure dans le dictionnaire. Un second est de trouver la façon d'intégrer ce nouveau vocabulaire de manière pertinente au sein du modèle de langue ; il convient en effet de déterminer les séquences de mots contenant ces mots nouveaux qui doivent y être mentionnées et de savoir quelles probabilités affecter à ces séquences. Après une étude théorique de ces deux points, des expérimentations seront à réaliser pour valider les solutions proposées.

Référence

Encadrement :