4 Description des données expérimentales

Les expériences dans les travaux présentés dans ce document ont pu être eﬀectuées grâce à France Télécom Recherche et Développement qui a fourni les données. Les données sont celles de deux applications de dialogue homme-machine par téléphone, AGS et PlanResto.

4.1 Application AGS

Le démonstrateur Audiotel Guide des Services (AGS) est une application de dialogue homme-machine par téléphone, elle est décrite dans [Sadek et al., 1996]. Le démonstrateur AGS est utilisé aﬁn de fournir à un utilisateur humain des numéros de téléphone de serveurs vocaux spécialisés dans les prévisions météorologiques ou la recherche d’emploi. Le dialogue qui s’établit par téléphone entre le démonstrateur et l’utilisateur humain a pour but de guider l’utilisateur vers le serveur le plus pertinent vis-à-vis de sa demande de renseignements.

4.1.1 Données d’apprentissage

Les données d’apprentissage se présentent sous la forme d’un corpus de transcriptions de phrases prononcées par des utilisateurs du démonstrateur AGS. Il ne s’agit pas d’un grand corpus, puisqu’il est composé de 9842 phrases, pour 49591 mots, dont 821 diﬀérents. Ces phrases ont été récupérées à partir d’une collecte de données eﬀectuées à l’aide de locuteurs naïfs et de locuteur experts. Les locuteurs naïfs sont des personnes externes ne travaillant pas pour France Télécom R&D et n’ayant pas de connaissances en reconnaissance de la parole. Les locuteurs experts travaillent pour France Télécom R&D. Les 821 mots du corpus d’apprentissage font partie des 880 mots du lexique du démonstrateur AGS. Plus de détails sur l’acquisition des corpora de test et d’apprentissage sont donnés dans [Damnati, 2000].

Les phrases du corpus d’apprentissage sont des questions, des requêtes, des réponses, ou des commandes (“annulation”, par exemple). Elles concernent toutes l’application AGS. Une étude plus précise de ces phrases permet de noter qu’une grande partie d’entre elles (59%) sont des phrases courtes (1 à 4 mots). La ﬁgure 4.1 montre la répartition des phrases en fonction de leur nombre de mots.

Figure 4.1:

Répartition des phrases du corpus d’apprentissage AGS en fonction du nombre de mots qui les composent

4.1.2 Données de test

Les données de test sont des graphes de mots issus du processus de reconnaissance de la parole du démonstrateur AGS. Chacun de ces graphes de mots est associé à une phrase, appelée phrase de référence, qui correspond à la phrase eﬀectivement prononcée par le locuteur. Les scores acoustiques associés aux mots dans un graphe sont calculés lors de la génération du graphe par le module de reconnaissance de la parole du démonstrateur AGS.

Les phrases de référence sont au nombre de 1422, composés de 7014 mots, dont 504 mots diﬀérents. La nature et la longueur de ces phrases sont semblables aux phrases du corpus d’apprentissage : la ﬁgure 4.2 illustre la répartition des phrases de référence en fonction de leur nombre de mots.

Figure 4.2:

Répartition des phrases de référence du corpus de test AGS en fonction du nombre de mots qui les composent

Il est intéressant de noter que sur les 504 mots diﬀérents des phrases de référence du corpus de test, 109 mots n’apparaissent pas dans le corpus d’apprentissage. Certains de ces mots n’appartiennent pas au lexique : ce sont des mots dits hors-vocabulaire. Ces 109 mots aﬀectent 187 phrases du corpus de test, soit 13,15% des phrases de référence. Pour gérer les mots hors-vocabulaire, une entrée lexicale notée <UNK> représentant les mots inconnus est ajoutée au lexique. Au niveau de la modélisation du langage, les événements non vus sont gérés par les techniques de lissage ¹ .

En dehors du problème des mots hors-vocabulaire qui aﬀectent les performances des modèles de langage et qui a donc une incidence sur les performances globales d’un système de reconnaissance, d’autres facteurs peuvent intervenir. Le décodage acoustique, qui génère les graphes de mots, peut connaître quelques diﬃcultés. Dans le cas du démonstrateur AGS, les conditions d’acquisition de la parole sont diﬃciles : utilisation du téléphone, environnements sonores diﬀérents et bruités, locuteurs diﬀérents, ... Ces conditions, associées à un lexique fermé de 880 mots, et à un élagage plus ou moins fort de l’espace de recherche, compliquent la production de graphes de mots contenant des hypothèses acoustiquement ﬁables. Ainsi, pour environ 24,5% des graphes, la phrase de référence n’est pas présente. Dans ce cas, il est impossible de retrouver la phrase prononcée par le locuteur à partir du graphe de mots : les hypothèses issues du processus de reconnaissance seront forcément erronées.

Les phrases du corpus de test peuvent être regroupées en fonction du locuteur qui les a prononcées. Il existe six locuteurs identiﬁés (l₁, l₂, l₃, l₄, l₅ et l₆), et un panel de locuteurs anonymes. Ce panel est nommé p₀. Le tableau 4.1 montre le nombre de phrases prononcées par chaque locuteur, ainsi que le nombre de sessions de dialogue correspondantes. Une session de dialogue correspond à un appel du locuteur et à l’intégralité du dialogue associé à cet appel.

4.2 Application PlanResto

L’application PlanResto est une application de dialogue homme-machine par téléphone permettant à un utilisateur de rechercher un restaurant sur Paris. Il est censé fournir les mêmes services que l’application WEB PlanResto disponible à l’adresse http://paris.planresto.fr/.

4.2.1 Données d’apprentissage

Le corpus d’apprentissage est composé de 6608 transcriptions manuelles pour un total de 27838 mots dont 1130 uniques. La ﬁgure 4.3 illustre la répartition des phrases de référence en fonction de leur nombre de mots.

Figure 4.3:

Répartition des phrases de référence du corpus d’apprentissage PlanResto en fonction du nombre de mots qui les composent

4.2.2 Données de développement

Le corpus de développement est composé de 3997 graphes de mots issus du moteur de reconnaissance de la parole (RAP) de France Telecom. À chaque graphe est associé sa référence, la phrase transcrite manuellement. Elles comportent 16239 mots dont 641 diﬀérents. La ﬁgure 4.4 illustre la répartition des phrases de référence en fonction de leur nombre de mots.

Figure 4.4:

Répartition des phrases de référence du corpus de développement Planresto en fonction du nombre de mots qui les composent

4.2.3 Données de test

Le corpus de test est lui composé de 1557 graphes de mots issu du moteur de reconnaissance de la parole (RAP) de France Telecom. Les phrases de référence comportent 6395 mots dont 439 diﬀérents. La ﬁgure 4.5 illustre la répartition des phrases de référence en fonction de leur nombre de mots.

Figure 4.5:

Répartition des phrases de référence du corpus de test Planresto en fonction du nombre de mots qui les composent

4.2.4 Jeu d’étiquettes conceptuelles utilisé

Les étiquettes conceptuelles représentent les unités sémantiques élémentaires extraites à partir du texte pour permettre la construction de structures sémantiques. Dans l’application PlanResto, le nombre de concepts utilisés par France Télécom est de 59 et sont listés dans la tableau 4.2.

Les ﬁgures 4.6 et 4.7 montrent respectivement la répartition des phrases en fonction du nombre de concepts présents pour le corpus de développement et de test.

Figure 4.6:

Répartition des phrases de référence du corpus de développement Planresto en fonction du nombre de concepts qui les composent

Figure 4.7:

Répartition des phrases de référence du corpus de test Planresto en fonction du nombre de concepts qui les composent

4.3 Évaluation de la qualité de la reconnaissance

4.3.1 Le Taux d’Erreurs Mot

Le taux d’erreurs mot (ou Word Error Rate, WER) est une des mesures les plus utilisées pour estimer les performances d’un reconnaisseur sur la transcription produite. Un alignement est eﬀectué entre une hypothèse de reconnaissance et la phrase de référence ² et les erreurs sont comptabilisées et utilisées pour calculer le taux d’erreurs suivant la formule 4.1. Généralement un poids identique est accordé à chaque type d’erreur, toutefois il est possible de leur attribuer un poids diﬀérent.

Un système peut faire trois types d’erreur. Des substitutions, notées « S », correspondent aux mots substitués à d’autres. Des omissions notées « O », c’est-à-dire des mots qui n’ont pas été trouvés par le système. Enﬁn, des insertions, notées « I », lorsque des mots sont insérés par erreur. Le tableau 4.3 illustre un alignement entre une référence et une hypothèse qui aura comme taux d’erreurs :

4.3.2 Le Taux d’Erreurs Concept, CER

Dans les systèmes de dialogue, l’objectif n’est pas de transcrire sans erreurs, mais de pouvoir comprendre les sens de ce qui est prononcé. Comprendre le sens, nécessite de pouvoir détecter tous les concepts élémentaires présents dans la phrase. Ceci reste possible même avec une transcription erronée, si les erreurs de reconnaissance n’aﬀectent pas les mots porteurs de sens. Dans ce genre d’application le taux d’erreurs mot n’est alors pas le plus pertinent. Nous utilisons alors le taux d’erreurs sur les concepts (ou Concept Error Rate, CER). Il est associé aux étiquettes conceptuelles. Par exemple pour le contexte : un restaurant à Bastille, est associé la séquence de concepts <claRestaurant> <Lieux>. La séquence de concepts reconnue est alors alignée avec la référence et le taux d’erreurs concept est calculé de manière identique au WER, en tenant compte des séquences de concepts plutôt que des mots.

4.3.3 Taux d’Erreurs en Compréhension

Le taux d’erreurs en compréhension (ou Understanding Error Rate, UER) est associé aux valeurs normalisées des concepts détectés. À la diﬀérence du CER, les valeurs des concepts sont prises en compte (pour les concepts en possédant). Ces valeurs sont obtenues par un ensemble de règles qui transforme la séquence de mots détectée comme concept en valeur signiﬁcative. Par exemple pour le contexte : un restaurant à Bastille pour cent francs est associé <claRestaurant> <Lieux:BASTILLE> <Prix:100 F>. Le UER est déﬁni comme suit :

où S_c∕v indique la substitution d’un attribut de Γ ou de sa valeur, D_c indique la suppression d’un attribut I_c indique une insertion. T est le nombre total de concepts dans la référence. Un UER à 0, donne donc une reconnaissance idéale même si son taux d’erreurs mot est supérieur à 0.

Chapitre 4Description des données expérimentales