Mots-clés : recherche d'information multimédia, reconnaissance de la parole, phonétique, données bruitées, mesure de confiance, apprentissage supervisée
Dans le cadre de nos travaux en recherche d'information multimédia, nous cherchons à élaborer des moteurs de recherche capables de retrouver, à partir de données issues de la télévision, des informations intéressantes pour l'utilisateur. Cette tâche nécessite de parvenir à la compréhension des contenus audiovisuels par l'extraction de descripteurs sémantiques. Dans ce but, on considère que la parole véhicule en effet des informations fortement sémantiques que l'on peut extraire grâce à des outils de reconnaissance de la parole.
L'approche classique de recherche d'information mutlimédia basée sur la parole consiste à cascader un système de reconnaissance de la parole (RAP) utilisé pour retranscrire automatiquement la parole issue des flux audiovisuels, et un moteur de recherche de type « textuel » qui va permettre de rechercher des informations directement dans ces transcriptions. L'une des limites de cette méthode est liée à la variabilité de la qualité des transcriptions fournies par les systèmes de reconnaissance automatique de la parole. Même si les progrès dans le domaine de la RAP sont conséquents depuis plusieurs années, la sortie d'un système de transcription automatique se distingue nettement d'un texte écrit notamment parce qu'elle est non structurée (texte brut sans ponctuation) et qu'elle contient des mots mal reconnus (taux d'erreur mot compris entre 10% et 50%). Parmi les différentes raisons pouvant expliquer ces erreurs de transcription, l'une d'elle est due aux techniques utilisées par les systèmes de RAP pour passer du signal acoustique au texte. Leur principale faiblesse est qu'ils s'appuient sur des ressources prédéfinies (lexique, modèle de langue) qui sont non exhaustives. Tous les mots initialement prononcés par le locuteur dans le document (audio) original qui ne figurent pas dans le lexique du système de RAP seront donc remplacés automatiquement dans la transcription par des mots connus par le système qui sont acoustiquement proches mais erronés. Ce phénomène est particulièrement problématique puisque ces mots non reconnus (dits mots hors vocabulaire) correspondent souvent à des mots fortement représentatifs du contenu sémantique tels que des noms propres (noms de personnes, de lieux, etc.). Une des solutions souvent envisagée pour contourner ce problème des mots erronés est de recourir à des approches à vocabulaire ouvert (par opposition aux approches à vocabulaire fermé) qui consistent à retranscrire le signal sonore de la parole associé aux mots mal reconnus par une séquence de phonèmes (unités élémentaires de la prononciation). Si cette approche permet de retrouver par la suite des mots hors vocabulaire, elle est aussi dépendante de la qualité variable des transcriptions phonétiques. La recherche d'information multimédia basée sur la parole repose donc sur des transcriptions lexicales et phonétiques potentiellement erronées qu'il faut indexer avec prudence. Heureusement, certains indicateurs peuvent nous aider à apprécier la fiabilité des décisions prises par le système de RAP pour éviter, par exemple, de donner trop d'importance à information qui serait mal reconnue. Pour chaque mot et phonème reconnu dans les transcriptions, on associe donc une « mesure de confiance » estimant son degré de fiabilité.
Pour le niveau lexical (i.e. le niveau des mots), nos travaux de recherche [1] nous ont amené à mettre au point de nouvelles mesures de confiance robustes qui permettent d'estimer la fiabilité des mots retranscrits. Chaque mot contenu dans la transcription est en effet associé à un score de confiance qui permet de distinguer les mots bien reconnus des mots erronés. Les mots détectés par nos mesures de confiance comme de possibles erreurs sont alors phonétisés afin de pouvoir être tout de même exploités dans une optique de recherche d'information. Néanmoins, contrairement au niveau lexical, nous ne disposons pas de scores de confiance nous permettant de nous assurer de la qualité de nos représentations phonétiques. L'objectif de ce stage consiste donc à mettre au point de nouvelles mesures de confiance qui soient applicables au niveau phonétique. Le stage pourra se décomposer en trois étapes :