Introduction

Depuis très longtemps, converser avec une machine est chose possible... dans les films de science-fiction. Mais ceux qui travaillent à l’élaboration des méthodes qui rendent ce genre d’applications possibles ou les utilisateurs de ces systèmes se rendent compte que le jour où l’on pourra tenir une conversation ouverte avec un ordinateur n’est pas encore arrivé. Les méthodes actuelles comme la reconnaissance automatique de la parole (i.e. conversion d’un signal de parole en texte) et l’analyse en compréhension (i.e. extraction du sens à partir du texte) rendent possible un dialogue homme-machine, dans des circonstances bien particulières : milieu non bruité, vocabulaire réduit et surtout une sémantique restreinte.

Objet de la thèse

La reconnaissance automatique de la parole utilise le plus souvent une approche statistique ; qu’il s’agisse d’applications de dictée vocale ou de systèmes de dialogue. Mais dans le cas de dictée vocale, le langage parlé est similaire au langage écrit, les modèles de langage statistiques N-grammes utilisés peuvent donc être construits sur la base de corpus de taille conséquente (e.g. corpus journalistiques). Le langage utilisé dans des applications de dialogue est soumis aux caractéristiques du langage parlé naturel, c’est à dire la présence d’hésitations, de reprises, de fautes grammaticales, ainsi qu’à un vocabulaire bien spécifique à l’application. Les modèles de langage pour ce genre d’applications doivent être établis sur la base de corpus spécialisés qui sont longs et coûteux à construire. Il en résulte des taux d’erreurs de reconnaissance assez élevés. Dans les applications de dialogue, l’objectif n’est pas de transcrire mais de comprendre le message porté par le signal. La transcription n’est qu’une étape intermédiaire nécessaire. La compréhension d’un message se fait par l’analyse de cette transcription, généralement par des grammaires sémantiques modélisant des relations entre les concepts élémentaires présents dans la phrase. Ces concepts élémentaires sont des mots ou des séquences de mots ayant un sens pour le système (e.g. lieu, date, prix, etc.). Or la transcription est effectuée à l’aide de modèles acoustiques et linguistiques à contraintes réduites (N-grammes), ceci entraîne que le processus de reconnaissance peut générer des phrases hors-domaine. Si la transcription est utilisée pour établir la compréhension du message, la compréhension peut être utilisée pour guider le processus de transcription vers des phrases ayant un sens vis à vis du système. Les systèmes de dialogue auxquels nous nous intéressons sont ceux, tels les serveurs vocaux, fonctionnant sur une tâche finalisée dans un domaine particulier. Dans ces systèmes, le langage est limité au domaine de l’application et la sémantique est définie et restreinte. Afin de tenter d’améliorer la qualité de la transcription et de se concentrer sur les zones porteuses de sens, nous proposons dans le chapitre 5 un modèle de langage de niveau conceptuel assurant la correspondance mots/concept, permettant d’enrichir l’espace de recherche de la meilleure transcription par des informations utiles à la compréhension. Un processus de décodage y est présenté qui aboutit à une liste structurée des N-meilleures interprétations possibles (i.e. ensemble de concepts) associées à leur meilleure transcription qui ne sont pas redondantes pour le système du point de vue du sens exprimé.
Il est primordial dans les systèmes de dialogue, à cause des erreurs fréquentes de reconnaissance, de pouvoir diagnostiquer la qualité de cette reconnaissance afin de ne pas orienter le dialogue dans un mauvais sens et d’éviter le mécontentement de l’utilisateur. Nous proposons dans le chapitre 6 différentes mesures de confiance applicables sur la sortie de reconnaissance. Ces mesures faisant appel à différentes sources de connaissances, linguistiques, acoustiques ou sémantiques, permettent de diagnostiquer la sortie du module de RAP à différents niveaux : mot, concept et phrase.
Dans le chapitre 7 nous proposons une stratégie de validation de notre sortie de décodage (i.e. notre liste structurée) basée sur des consensus de classifieurs automatiques entraînés sur les différentes mesures de confiance présentées. Cette stratégie permet d’isoler des situations de confiance permettant de guider le gestionnaire de dialogue dans les choix à effectuer pour la gestion du dialogue.

Organisation du document

Ce document est divisé en deux grandes parties.
La première partie propose un survol des notions qui gravitent autour des systèmes de dialogue oraux. Après avoir présenté brièvement le fonctionnement de tels systèmes :

La seconde partie du document concerne les travaux réalisés durant cette thèse :

Les travaux présentés dans cette thèse, illustrations, expériences et résultats, sont en rapport avec des applications de dialogue oral homme-machine concrètes créées par France Télécom Recherche & Développement.