Chapitre 4
Description des données expérimentales


Sommaire



4.1 Application AGS
4.1.1 Données d’apprentissage
4.1.2 Données de test
4.2 Application PlanResto
4.2.1 Données d’apprentissage
4.2.2 Données de développement
4.2.3 Données de test
4.2.4 Jeu d’étiquettes conceptuelles utilisé
4.3 Évaluation de la qualité de la reconnaissance
4.3.1 Le Taux d’Erreurs Mot
4.3.2 Le Taux d’Erreurs Concept, CER
4.3.3 Taux d’Erreurs en Compréhension



Les expériences dans les travaux présentés dans ce document ont pu être effectuées grâce à France Télécom Recherche et Développement qui a fourni les données. Les données sont celles de deux applications de dialogue homme-machine par téléphone, AGS et PlanResto.

4.1 Application AGS

Le démonstrateur Audiotel Guide des Services (AGS) est une application de dialogue homme-machine par téléphone, elle est décrite dans [Sadek et al., 1996]. Le démonstrateur AGS est utilisé afin de fournir à un utilisateur humain des numéros de téléphone de serveurs vocaux spécialisés dans les prévisions météorologiques ou la recherche d’emploi. Le dialogue qui s’établit par téléphone entre le démonstrateur et l’utilisateur humain a pour but de guider l’utilisateur vers le serveur le plus pertinent vis-à-vis de sa demande de renseignements.

4.1.1 Données d’apprentissage

Les données d’apprentissage se présentent sous la forme d’un corpus de transcriptions de phrases prononcées par des utilisateurs du démonstrateur AGS. Il ne s’agit pas d’un grand corpus, puisqu’il est composé de 9842 phrases, pour 49591 mots, dont 821 différents. Ces phrases ont été récupérées à partir d’une collecte de données effectuées à l’aide de locuteurs naïfs et de locuteur experts. Les locuteurs naïfs sont des personnes externes ne travaillant pas pour France Télécom R&D et n’ayant pas de connaissances en reconnaissance de la parole. Les locuteurs experts travaillent pour France Télécom R&D. Les 821 mots du corpus d’apprentissage font partie des 880 mots du lexique du démonstrateur AGS. Plus de détails sur l’acquisition des corpora de test et d’apprentissage sont donnés dans [Damnati, 2000].

Les phrases du corpus d’apprentissage sont des questions, des requêtes, des réponses, ou des commandes (“annulation”, par exemple). Elles concernent toutes l’application AGS. Une étude plus précise de ces phrases permet de noter qu’une grande partie d’entre elles (59%) sont des phrases courtes (1 à 4 mots). La figure 4.1 montre la répartition des phrases en fonction de leur nombre de mots.


PIC


Figure 4.1: Répartition des phrases du corpus d’apprentissage AGS en fonction du nombre de mots qui les composent


4.1.2 Données de test

Les données de test sont des graphes de mots issus du processus de reconnaissance de la parole du démonstrateur AGS. Chacun de ces graphes de mots est associé à une phrase, appelée phrase de référence, qui correspond à la phrase effectivement prononcée par le locuteur. Les scores acoustiques associés aux mots dans un graphe sont calculés lors de la génération du graphe par le module de reconnaissance de la parole du démonstrateur AGS.

Les phrases de référence sont au nombre de 1422, composés de 7014 mots, dont 504 mots différents. La nature et la longueur de ces phrases sont semblables aux phrases du corpus d’apprentissage : la figure 4.2 illustre la répartition des phrases de référence en fonction de leur nombre de mots.


PIC


Figure 4.2: Répartition des phrases de référence du corpus de test AGS en fonction du nombre de mots qui les composent


Il est intéressant de noter que sur les 504 mots différents des phrases de référence du corpus de test, 109 mots n’apparaissent pas dans le corpus d’apprentissage. Certains de ces mots n’appartiennent pas au lexique : ce sont des mots dits hors-vocabulaire. Ces 109 mots affectent 187 phrases du corpus de test, soit 13,15% des phrases de référence. Pour gérer les mots hors-vocabulaire, une entrée lexicale notée <UNK> représentant les mots inconnus est ajoutée au lexique. Au niveau de la modélisation du langage, les événements non vus sont gérés par les techniques de lissage 1 .

En dehors du problème des mots hors-vocabulaire qui affectent les performances des modèles de langage et qui a donc une incidence sur les performances globales d’un système de reconnaissance, d’autres facteurs peuvent intervenir. Le décodage acoustique, qui génère les graphes de mots, peut connaître quelques difficultés. Dans le cas du démonstrateur AGS, les conditions d’acquisition de la parole sont difficiles : utilisation du téléphone, environnements sonores différents et bruités, locuteurs différents, ... Ces conditions, associées à un lexique fermé de 880 mots, et à un élagage plus ou moins fort de l’espace de recherche, compliquent la production de graphes de mots contenant des hypothèses acoustiquement fiables. Ainsi, pour environ 24,5% des graphes, la phrase de référence n’est pas présente. Dans ce cas, il est impossible de retrouver la phrase prononcée par le locuteur à partir du graphe de mots : les hypothèses issues du processus de reconnaissance seront forcément erronées.

Les phrases du corpus de test peuvent être regroupées en fonction du locuteur qui les a prononcées. Il existe six locuteurs identifiés (l1, l2, l3, l4, l5 et l6), et un panel de locuteurs anonymes. Ce panel est nommé p0. Le tableau 4.1 montre le nombre de phrases prononcées par chaque locuteur, ainsi que le nombre de sessions de dialogue correspondantes. Une session de dialogue correspond à un appel du locuteur et à l’intégralité du dialogue associé à cet appel.


Table 4.1: Répartition des mots, des phrases et des sessions du corpus de test AGS en fonction du locuteur



locuteur nombre de sessions nombre de phrases






l1 74 574



l2 13 166



l3 9 91



l4 12 122



l5 14 136



l6 15 209



p0 25 124




4.2 Application PlanResto

L’application PlanResto est une application de dialogue homme-machine par téléphone permettant à un utilisateur de rechercher un restaurant sur Paris. Il est censé fournir les mêmes services que l’application WEB PlanResto disponible à l’adresse http://paris.planresto.fr/.

4.2.1 Données d’apprentissage

Le corpus d’apprentissage est composé de 6608 transcriptions manuelles pour un total de 27838 mots dont 1130 uniques. La figure 4.3 illustre la répartition des phrases de référence en fonction de leur nombre de mots.


PIC


Figure 4.3: Répartition des phrases de référence du corpus d’apprentissage PlanResto en fonction du nombre de mots qui les composent


4.2.2 Données de développement

Le corpus de développement est composé de 3997 graphes de mots issus du moteur de reconnaissance de la parole (RAP) de France Telecom. À chaque graphe est associé sa référence, la phrase transcrite manuellement. Elles comportent 16239 mots dont 641 différents. La figure 4.4 illustre la répartition des phrases de référence en fonction de leur nombre de mots.


PIC


Figure 4.4: Répartition des phrases de référence du corpus de développement Planresto en fonction du nombre de mots qui les composent


4.2.3 Données de test

Le corpus de test est lui composé de 1557 graphes de mots issu du moteur de reconnaissance de la parole (RAP) de France Telecom. Les phrases de référence comportent 6395 mots dont 439 différents. La figure 4.5 illustre la répartition des phrases de référence en fonction de leur nombre de mots.


PIC


Figure 4.5: Répartition des phrases de référence du corpus de test Planresto en fonction du nombre de mots qui les composent


4.2.4 Jeu d’étiquettes conceptuelles utilisé

Les étiquettes conceptuelles représentent les unités sémantiques élémentaires extraites à partir du texte pour permettre la construction de structures sémantiques. Dans l’application PlanResto, le nombre de concepts utilisés par France Télécom est de 59 et sont listés dans la tableau 4.2.


Table 4.2: Liste des 59 concepts PlanResto


Concepts avec valeurs


Lieux un lieu


Prix un prix


Specialite une spécialité culinaire


valeur(ord) un ordinal


valeur(card) un cardinal


Classe Spécifiques


claAdresse


claAmbiance


claArrondissement


claCapaciteAccueil


claConnexion


claEspacesVerts


claHautsLieuxReligieux


claHoraire


claInformation


claLieu


claMessage


claMusees


claNom


claPlaces


claPrix


claPrixExterne


claQuartiers


claRestaurant


claSpecialite


claStations


claTel


verbe être


vb(neg_rmoi)


vb(pos_rmoi)


Aucun concept (hors focus)


BCK Aucun concept


marqueurs d’actes communicatifs


ma(aide) demande d’aide


ma(end_of_session) demande à quitter


ma(raz) demande de remize à zéro


ma(reeng_Diag)


ma(repeter) demande de répétition


ma(modeGuide) demande à être guidé


ma(petiteRelance)


marqueurs linguistiques


ml(contest) contestation


ml(inver_v_suj) inversion verbe/sujet


ml(neg_pre) négation pécédent un verbe


ml(non) réponse négative


ml(object) pronom à la troisième personne


ml(ord(prec)) ordinal indiquant la précédence


ml(ord(svt)) ordinal indiquant le suivant


ml(ord(dernier)) ordinal indiquant le dernier


ml(tous) toutes les réponses


ml(oui) réponse positive


opérateurs modaux


op(neg_krif_auditeur)


op(neg_krif_locuteur)


op(pos_kif_auditeur)


op(pos_kif_locuteur)


op(pos_krif_auditeur)


op(pos_krif_locuteur)


Divers


consulter


dans


peu_importe


retour


mini


maxi


utilisateur_regulier





Les figures 4.6 et 4.7 montrent respectivement la répartition des phrases en fonction du nombre de concepts présents pour le corpus de développement et de test.


PIC


Figure 4.6: Répartition des phrases de référence du corpus de développement Planresto en fonction du nombre de concepts qui les composent



PIC


Figure 4.7: Répartition des phrases de référence du corpus de test Planresto en fonction du nombre de concepts qui les composent


4.3 Évaluation de la qualité de la reconnaissance

4.3.1 Le Taux d’Erreurs Mot

Le taux d’erreurs mot (ou Word Error Rate, WER) est une des mesures les plus utilisées pour estimer les performances d’un reconnaisseur sur la transcription produite. Un alignement est effectué entre une hypothèse de reconnaissance et la phrase de référence 2 et les erreurs sont comptabilisées et utilisées pour calculer le taux d’erreurs suivant la formule 4.1. Généralement un poids identique est accordé à chaque type d’erreur, toutefois il est possible de leur attribuer un poids différent.

               ---(#S-+-#I-+-#O-)∗-100--
Taux d’erreurs = nombre de mots à reconnaître
(4.1)

Un système peut faire trois types d’erreur. Des substitutions, notées « S », correspondent aux mots substitués à d’autres. Des omissions notées « O », c’est-à-dire des mots qui n’ont pas été trouvés par le système. Enfin, des insertions, notées « I », lorsque des mots sont insérés par erreur. Le tableau 4.3 illustre un alignement entre une référence et une hypothèse qui aura comme taux d’erreurs :

       (1S + 1O + 1I)∗100
W ER = ---------5-------- = 60%
Il est à noter qu’en raison des insertions, la mesure utilisée peut dépasser les 100%.


Table 4.3: Alignement entre une phrase de référence et une hypothèse de reconnaissance









Référence : je veux le restaurant indien









Hypothèse : je veux restaurant un lien









Types d’erreur : O I S










4.3.2 Le Taux d’Erreurs Concept, CER

Dans les systèmes de dialogue, l’objectif n’est pas de transcrire sans erreurs, mais de pouvoir comprendre les sens de ce qui est prononcé. Comprendre le sens, nécessite de pouvoir détecter tous les concepts élémentaires présents dans la phrase. Ceci reste possible même avec une transcription erronée, si les erreurs de reconnaissance n’affectent pas les mots porteurs de sens. Dans ce genre d’application le taux d’erreurs mot n’est alors pas le plus pertinent. Nous utilisons alors le taux d’erreurs sur les concepts (ou Concept Error Rate, CER). Il est associé aux étiquettes conceptuelles. Par exemple pour le contexte : un restaurant à Bastille, est associé la séquence de concepts <claRestaurant> <Lieux>. La séquence de concepts reconnue est alors alignée avec la référence et le taux d’erreurs concept est calculé de manière identique au WER, en tenant compte des séquences de concepts plutôt que des mots.

4.3.3 Taux d’Erreurs en Compréhension

Le taux d’erreurs en compréhension (ou Understanding Error Rate, UER) est associé aux valeurs normalisées des concepts détectés. À la différence du CER, les valeurs des concepts sont prises en compte (pour les concepts en possédant). Ces valeurs sont obtenues par un ensemble de règles qui transforme la séquence de mots détectée comme concept en valeur significative. Par exemple pour le contexte : un restaurant à Bastille pour cent francs est associé <claRestaurant> <Lieux:BASTILLE> <Prix:100 F>. Le UER est défini comme suit :

       Sc∕v +-Dc-+Ic
UER  =      T      ×100
(4.2)

Sc∕v indique la substitution d’un attribut de Γ ou de sa valeur, Dc indique la suppression d’un attribut Ic indique une insertion. T est le nombre total de concepts dans la référence. Un UER à 0, donne donc une reconnaissance idéale même si son taux d’erreurs mot est supérieur à 0.