6 Mesures de conﬁance

Dans les applications de dialogue homme-machine, l’interprétation sémantique de la phrase exprimée par un utilisateur est eﬀectuée sur la transcription générée par le moteur de reconnaissance de la parole. Cette reconnaissance est entachée d’erreurs, et la qualité de l’interprétation sémantique de la phrase est bien sûr très dépendante de la qualité de la reconnaissance. Une mauvaise interprétation peut amener le gestionnaire de dialogue à faire de mauvais choix et donc mécontenter l’utilisateur. Le développement de mesures de conﬁance sur la transcription est alors crucial. Ces mesures de conﬁance sont utiles pour réaliser 2 objectifs :

Typiquement, les mesures de conﬁance dépendent du type de tâche et de l’application. Les mesures populaires (voir par exemple [Falavigna et al., 2002]) sont les scores donnés par le modèle acoustique et de langage, la densité du treillis, le comportement de repli du modèle de langage et les probabilités a posteriori. Dans la plupart, si ce n’est toutes les études, le moyen d’incorporer les informations sémantiques dans le processus de décision est plutôt ad-hoc. Une approche systématique est proposée dans [Sarikaya et al., 2005].

Les mesures de conﬁance peuvent opérer à diﬀérents niveaux : mot, concept ou phrase. Elles peuvent exploiter diﬀérentes sources de connaissance : acoustique, linguistique ou sémantique. Les mesures linguistiques sont plus adaptées à estimer la qualité d’une phrase, tandis que les mesures acoustiques sont plus destinées a être utilisées au niveau du mot. Nous proposons dans ce chapitre un ensemble de mesures de conﬁance faisant intervenir diﬀérentes sources de connaissances permettant d’estimer la qualité de la reconnaissance à plusieurs niveaux : mot, concept et phrase. Ces mesures de conﬁance ne sont pas destinées à être comparées mais à nous donner un ensemble d’outils de diagnostics qui sera utilisé pour établir une stratégie d’aide à la décision présentée dans le chapitre 7.

Nous présenterons dans un premier temps, des mesures linguistiques intervenant au niveau de la phrase. L’observation qui a servi de point de départ à ces mesures est qu’une des raisons des taux d’erreurs mot élevés dans la transcription est que les modèles de langage N-grammes utilisés sont appris avec peu de données. Il en résulte que les probabilités des événements linguistiques sont peu ﬁables et que les méthodes de repli utilisées pour calculer la probabilité des événements non-observés sont parfois source d’erreurs de reconnaissance. Nous avions travaillé sur l’élaboration de techniques d’augmentation de données pour des modèles de langage N-grammes aﬁn d’avoir recours aux méthodes de repli le moins souvent possible. Nous proposons une première mesure linguistique basée sur des situations de conﬁance obtenues par le consensus de diﬀérents décodages utilisant ces modèles, en parallèle avec un modèle classique (section 6.2). En suivant la même idée, (section 6.3), nous présenterons d’autres mesures de conﬁance mesurant la fréquence de l’utilisation des méthodes de repli.

Nous présentons ensuite une mesure acoustique classique permettant d’estimer la qualité de reconnaissance d’un mot, cette mesure est étendue au niveau conceptuel.

Nous présentons dans la dernière partie (section 6.5) une mesure de conﬁance sémantique adaptée pour estimer une conﬁance au niveau conceptuel. Cette méthode est basée sur l’utilisation redondante de classiﬁeur.

6.2 Consensus de décodages en parallèle

6.2.1 Introduction

Si les données d’apprentissage d’un modèle de langage sont limitées, de nombreux Bi-grammes et surtout Tri-grammes qui apparaîtraient plus d’une fois dans un corpus idéalement dimensionné ont une probabilité estimée par un modèle de repli. Cette probabilité est souvent très diﬀérente de celle qui aurait été calculée avec un corpus d’apprentissage plus riche. De plus, dans beaucoup d’applications le corpus d’apprentissage disponible est biaisé par le fait qu’il a été collecté avec un nombre restreint de locuteurs et dans une période de temps limitée. L’eﬀet produit est que la probabilité de certains Bi-grammes ou Tri-grammes est anormalement élevée. Ces considérations suggèrent que les comptes de certains événements plausibles devraient être générés même s’ils ne sont pas observés dans le corpus d’apprentissage. Nous présentons respectivement dans les sections 6.2.2 et 6.2.3, 2 méthodes permettant d’inférer de nouveaux événements et donc de limiter l’utilisation du back-oﬀ.

6.2.2 Augmentation de données par projection dans un espace réduit

La représentation des mots par des vecteurs dans un espace réduit peut être obtenue [Bellegarda, 1998], [Berry, 1992], [Searle, 1982] par décomposition en valeurs singulières (SVD)

Soit c_ij le nombre de fois où le mot w_i a été réellement observé dans le corpus d’apprentissage avec l’historique h_j. Soit a_ij le compte pour le même mot et historique obtenu par augmentation de données. Prenons d_jk la distance entre les vecteurs représentant les historiques h_j and h_k dans l’espace réduit. Notons Γ_j(Θ) l’ensemble des historiques dont les vecteurs sont proches du vecteur représentant h_j dans l’espace réduit. Le compte augmenté a_ij de la séquence [(h_j = w_j)w_i] est obtenu, supposant que l’historique h_k contribue aux comptes de la séquence [(h_j = w_j)w_i], en fonction du degré de similarité entre les deux historiques h_j et h_k :

Ce degré de similarité est représenté par une fonction f(d_ik) de la distance entre la représentation des deux historiques. La fonction f(d_ik) doit être égale à 1 quand d_ik = 0 et doit diminuer avec d_ik. Une fonction acceptable peut être celle de l’équation 6.2.

où D est un paramètre pour régler le système. Dans le modèle utilisé dans les évaluations, D a été ﬁxé à 1. La distance ([Janiszek et al., 2000]) Euclidienne entre chaque paire de vecteurs d’historique est calculée dans l’espace réduit. Il est intéressant de noter que le calcul de ces distances peut être obtenu sur un corpus diﬀérent de celui de l’application visée. Le modèle B_a utilisé dans la section 6.2.5 a été créé à partir des distances calculées sur un corpus généraliste composé d’articles du journal "Le Monde" de 40 millions de mots. Les distances peuvent être obtenues ou modiﬁées en utilisant d’autres critères comme la synonymie.

Cette augmentation de données accroît le nombre de Bi-grammes avec un compte supérieur à zéro. Néanmoins, un compte augmenté reste égal à zéro quand son compte avant augmentation était nul et qu’aucun historique proche du sien n’a été trouvé. Dans ce cas, les Bi-grammes peuvent être augmentés par d’autres techniques. En pratique, l’ensemble Γ_j(Θ) est construit en considérant uniquement les distances inférieures à un seuil.

6.2.3 Augmentation de données par similarité

Prenons t_g = xw_cw_d, t_c = w_gxw_d, t_d = w_gw_cx, 3 Tri-grammes dans lequel le mot x apparaît. Considérons c(t_q) étant le compte du Tri-gramme t_q(q=g,c,d). Nous souhaitons dériver par analogie le compte pour les Tri-grammes t_g^′ = yw_cw_d, t_c^′ = w_gyw_d, t_d^′ = w_gw_cy si x et y satisfont le prédicat Analogue(x,y) déﬁni dans la formule 6.3 :

où POS(w) indique la classe syntaxique (POS) du mot w. SemComp(x,y) indique que x et y sont des mots sémantiquement compatibles. La compatibilité sémantique a été déﬁnie comme suit :

où d(x,y) est la distance entre les mots x et y déﬁnie dans [Janiszek et al., 2000]. δ est un seuil ﬁxé empiriquement.

La possibilité d’acquérir de nouvelles connaissances par analogie a été proposée dans [Evans, 1968, Polya, 1954, Brown, 1977, Yvon, 1996]. Le compte c(t_q^′) peut être obtenu de plusieurs manières.

Solution 1

Une solution simple consiste à positionner le compte à 𝜗 quand le compte original est inférieur à ce seuil ou que le Tri-gramme généré n’avait pas été observé, comme décrit dans la suite avec t = hw :

R (hw) = ∑---ρhc(hw)-----= ----R(hw)---- (6.5) a ρhc(hj)+ 𝜗Nh 1 + ∑-𝜗Nρhc(hj) j∈Jh j∈J h h

J_h est l’ensemble des Tri-grammes dont le compte avant augmentation était supérieur à 𝜗, R_a(hw) est la fréquence des comptes augmentés et N_h est le nombre de Tri-grammes dans J_qh. Dans le but d’être le plus proche de la condition désirée R_a(hw) ≈ R(hw) pour les Tri-grammes dans J_h, l’inégalité suivante doit être observée :

Solution 2

Le compte des nouveaux Tri-grammes ou des Tri-grammes dont le compte est inférieur à 𝜗 peut également être positionné ou réévalué en fonction du compte des Tri-grammes existants à partir desquels ils ont été générés (équation 6.7).

Où d est la mesure de distance proposée dans [Janiszek et al., 2000] et α un paramètre choisi empiriquement pour régler le système.

On pourrait croire que l’augmentation des comptes des Tri-grammes selon ce principe revient à utiliser des classes de mots, comme pour les modèles N-classes. Mais ce n’est pas le cas, puisque les comptes modiﬁés des mots y analogues à x ne sont pas toujours les mêmes et dépendent du contexte. De plus, les probabilités obtenues sont diﬀérentes de celles obtenues avec des modèles à base de classes existants. Elles varient selon la distribution initiale des comptes des Tri-grammes et la distance entre les mots.

6.2.4 Évaluation

L’augmentation de données a été expérimentée pour construire des modèles de langage dans le but de générer automatiquement à partir du corpus d’apprentissage complet des événements manquants sur le corpus de test. Deux modèles de langage augmentés ont été créés à partir du corpus d’apprentissage de l’application AGS :

et ont été comparés à l’utilisation d’un modèle général Tri-grammes classique (T_g). Les expériences suivantes ont été menées sur les 1422 graphes du corpus AGS (voir section 4.1). Malgré diﬀérents tests, le modèle général reste le plus performant globalement avec un WER de 23% en moyenne sur les 1422 phrases de test, les deux autres modèles ne permettent pas d’améliorer globalement le WER sur ces 1422 phrases, avec un WER de 24% avec l’utilisation de T_a et 25% avec B_a. Toutefois, grâce à leur spéciﬁcité ils permettent ponctuellement de meilleures performances que le modèle général sur certaines instances, et notamment des phrases possédant des événements dont la probabilité est calculée par back-oﬀ dans l’utilisation de T_g. Si globalement les modèles de langages augmentés ne permettent pas d’améliorer le décodage, leur diﬀérence de comportement est exploitée dans la section suivante pour isoler des situations de conﬁance en fonction des résultats donnés par un décodage en parallèle eﬀectué avec ces 3 modèles.

Des expériences ont également été menées avec des modèles Bi-grammes construits suivant la méthode présentée dans la section 6.2.2 à partir de corpus de tailles diﬀérentes et comparées avec un modèle Bi-grammes classique construit à partir du même corpus. L’augmentation de données permet dans un premier temps un meilleur décodage que le modèle classique associé, mais il montre vite ses limites lors de l’utilisation d’un corpus de taille plus élevée.

6.2.5 Raisonnement sur des situations de consensus

Appelons H(LM) la meilleure hypothèse de transcription obtenue en utilisant le modèle de langage LM. La comparaison des trois hypothèses obtenues lors de trois décodages en parallèle avec les modèles de langage T_g, T_a et B_a, nous permet d’isoler 3 situations de conﬁance diﬀérentes :

Table 6.1:

Résultat Concordance sur le corpus de test de l’application AGS


Situation			Nombre	WER
			de Phrases	avec T_g

1	H(T_g) = H(T_a) = H(B_a)		980	12.86%

		H(T_g) = H(T_a)
2	∪	H(T_g) = H(B_a)	321	32.83%
	∪	H(T_a) = H(B_a)

3	H(T_g)≠H(T_a)≠H(B_a)		121	39.33%


WER Total avec H(T_g) : 22.92 % (1422 phrases)

Le tableau 6.1 montre l’eﬃcacité de la méthode à travers la situation de conﬁance (la situation n^o1) qui regroupe 69% des hypothèses pour un WER presque deux fois plus faible que la moyenne sur la totalité des 1422 hypothèses. Il est intéressant de noter que dans la situation n^o2, même si le modèle T_g donne des résultats globaux meilleurs que les modèles T_a et B_a, sur certaines hypothèses, ces derniers modèles assurent un meilleur décodage. En choisissant la meilleure hypothèse parmi les trois hypothèses produites en utilisant les trois modèles T_g, T_a et B_a, le WER dans la situation n^o2 passe de 32.83% à 26.65%. 90 hypothèses sur 321 sont concernées (49% à 26%), et 31 sont totalement correctes. Cette stratégie ouvre donc la voie à l’application de stratégie de corrections d’erreurs.

On peut noter également, qu’en augmentant B de l’équation 6.6 pour la génération de T_a, le nombre de phrases dans la situation 1 diminue ainsi que le WER. La situation 1 est donnée pour B = 5, par exemple, avec B = 1000, la situation 1 contient 898 phrases avec un WER de 10.73%.

6.3 CONS(LM) :une mesure linguistique

Peu de mesures de conﬁance purement linguistiques sont utilisées. [Eide et al., 1995] et [Rayner et al., 1994] en proposent certaines, mais pour être utilisées conjointement avec d’autres méthodes. Nous sommes partis dans une approche de ce type en raison de la constatation suivante : de nombreuses erreurs de reconnaissance sont dues à l’estimation incorrecte des probabilités des événements non observés dans le corpus d’apprentissage. Il est donc intéressant de vériﬁer si dans les hypothèses apparaissent de tels événements [Uhrik et Ward, 1997], et dans quelle proportion. Nous proposons dans la formule 6.8, une mesure appelée CONS(LM), pour évaluer la consistance d’une hypothèse H_i par rapport au modèle de langage Tri-grammes LM utilisé, i représentant la i^ieme phrase du corpus de test.

où n_3g(app_LM ∩H_i) est le nombre de Tri-grammes de l’hypothèse H_i qui ont été observés au moins une fois dans le corpus d’apprentissage du modèle LM, et n_3g(H_i) est le nombre de Tri-grammes que contient l’hypothèse H_i. Cette mesure de consistance est comprise entre 0 et 1 : 1 correspond à la mesure de consistance optimale. Cette mesure, simple à calculer, donne des résultats très intéressants pour la détection des hypothèses de reconnaissance erronées. Les résultats sur les hypothèses issues de l’utilisation du modèle général Tri-grammes T_g sont visibles dans le tableau 6.2. Ces résultats montrent que la mesure de consistance CONS(LM) est très intéressante pour prédire le taux d’erreurs sur les mots des hypothèses de reconnaissance. Le second intérêt de cette mesure de consistance réside donc dans le type d’erreurs que cette mesure permet de détecter : il s’agit principalement d’erreurs dues au manque de données d’apprentissage caractérisées par la présence de Tri-grammes non vus dans l’hypothèse de reconnaissance ² , ou bien de graphes de mots ne proposant pas d’hypothèses de vraisemblance acoustique élevée contenant des Tri-grammes observés dans le corpus d’apprentissage.

Table 6.2:

Résultat de CONS(T_g) sur le corpus de test de l’application AGS


CONS(T_g)	WER	Nb	cumul


		Phrases	WER	Nb Phrases

= 1	12.17 %	1011	12.17 %	1011

]1.00, 0.75]	29.65 %	222	17.08 %	1233

]0.75, 0.50]	45.57 %	160	21.67 %	1393

]0.50, 0.25]	69.89 %	27	22.89 %	1420

]0.25, 0.00]	75.00 %	2	22.92 %	1422


Taux Erreurs Mots Total : 22.92 % (1422 phrases)

6.3.1 Variante : critère de consistance sur des étiquettes morpho-syntaxiques

Le même critère peut être appliqué au niveau d’étiquettes morpho-syntaxiques (POS). Les hypothèses reconnues sont préalablement étiquetées de façon automatique, comme illustré dans le tableau 6.3 :

Table 6.3:

Exemple d’étiquetage morpho-syntaxique


je voudrais un serveur → PPER1S VREQ DETMS NMS

avec :

PPER1S	→	pronom personnel
		première personne du singulier
VREQ	→	verbe de requête
DETMS	→	déterminant masculin singulier
NMS	→	nom masculin singulier

Le corpus d’apprentissage est étiqueté de la même manière, et la mesure de consistance appelée CONSPOS(LM) est déﬁnie comme CONS(LM) explicité dans l’équation 6.8. Cette mesure permet de généraliser la détection de Tri-grammes incorrects au niveau grammatical. Un corpus, une fois transposé dans sa version grammaticale, même de taille limitée assure une couverture supérieure des événements, par rapport à sa version lexicale. Pour cette raison, le procédé permet d’être moins sévère, les hypothèses acceptées suivant cette méthode sont plus nombreuses, mais celles rejetées ont une grande chance d’être incorrectes. Les résultats sont présentés dans le tableau 6.4.

Table 6.4:

Résultat de CONSPOS(T_g) sur le corpus de test de l’application AGS


CONS	WER	Nb	cumul


POS(LM)		Phrases	WER	Nb Phrases

= 1	15.86 %	1174	15.86 %	1174

]1.00, 0.75]	36.03 %	154	19.85 %	1328

]0.75, 0.50]	52.74 %	83	22.52 %	1411

]0.50, 0.25]	97.06 %	10	22.89 %	1421

]0.25, 0.00]	150.00 %	1	22.92 %	1422


Taux Erreurs Mots Total : 22.92 % (1422 phrases)

6.3.2 La dépréciation des Tri-grammes peu plausibles

L’hypothèse de reconnaissance est parfois composée de Tri-grammes incohérents. Ceci est dû à un repli trop favorable : il arrive ainsi que des Tri-grammes non vus dans le corpus d’apprentissage soient favorisés au détriment de Tri-grammes observés dans une très faible mesure dans le corpus d’apprentissage. Ce phénomène est dû, comme énoncé par avant, à des techniques de repli peu ﬁables. Les critères de CONS(LM) et notamment de CONSPOS(LM) permettent d’identiﬁer ces Tri-grammes peu plausibles. En eﬀet, en faisant l’hypothèse que l’ensemble des Tri-grammes d’étiquette grammaticale observé sur un corpus d’apprentissage de très grande taille est très proche de l’ensemble des Tri-grammes d’étiquette grammaticale acceptable dans ce langage, il est alors possible de considérer que tout Tri-gramme d’étiquette grammaticale n’apparaissant pas dans cet ensemble est peu plausible [Langlois et al., 2003]. Cette hypothèse semble vraisemblable en raison de la relative stabilité des structures grammaticales d’un langage. La méthode proposée est donc la suivante : Lorsqu’une hypothèse de reconnaissance de première passe est associée à une mesure de consistance du modèle de langage CONS(LM) inférieure à 1, nous vériﬁons la valeur de CONSPOS(LM) et identiﬁons les Tri-grammes qui impliquent que CONSPOS(LM) < 1, qui sont alors considérés comme peu plausibles. Dès lors, une phase de rescoring est eﬀectuée avec un modèle adapté où ces Tri-grammes sont fortement pénalisés. La nouvelle hypothèse est soumise à la même procédure, et sera validée si CONS(LM) = 1, sinon il est possible d’itérer la procédure. Cette stratégie permet de baisser le WER de 38% à 32% sur un ensemble de 45 phrases concernées du corpus de test de l’application AGS. Il est intéressant de noter que certaines phrases sont totalement corrigées après l’opération (WER=0%).

Les mesures de conﬁance linguistiques précédentes ont de bonnes capacités pour diagnostiquer la qualité d’une phrase en terme de mots reconnus. L’utilisation conjuguée des diﬀérentes situations de conﬁance déduites de ces mesures peut amener à la construction d’une stratégie plus complexe de validation/rejet. Une stratégie élaborée faisant intervenir les notions précédentes a été développée au début de cette thèse [Estève et al., 2003], elle n’est pas présentée dans ce document.

6.4 Mesure de conﬁance acoustique conceptuelle

Cette mesure de conﬁance fait la comparaison de la probabilité donnée par le modèle de reconnaissance de la parole pour une hypothèse donnée à celle qui aurait été obtenue par un modèle sans contrainte sur les boucles de phonèmes. Dans le but de rester consistant avec le modèle général, les unités acoustiques sont gardées identiques et la boucle est sur les phonèmes contexte dépendant, à savoir les allophones [Bartkova et Jouvet, 1991].

6.4.1 Probabilité au niveau des mots

Pour une hypothèse W identiﬁée par le modèle général (λ_G) de la trame t₀ à la trame t_n, la probabilité du signal de parole Y est comparée à la probabilité de la même portion de signal sur une boucle non-contrainte d’allophones. La probabilité est déﬁnie comme suit :

Dans le but de pouvoir comparer les mesures pour des mots diﬀérents, nous comparons actuellement les log-prob et nous normalisons la diﬀérence par le nombre de trames sur lesquelles elles sont calculées.

En pratique, Δloop(Y ∣W) est calculé à partir des scores acoustiques bruts produits par le processus de reconnaissance et :

Du fait du relâchement des contraintes, la probabilité du signal de parole sur λ_loop est supérieure à celle sur λ_G. Cela peut être vu comme une borne supérieure pour P(Y ∣λ_G). Ainsi, Δ_loop(Y |W) est négatif et doit être interprété comme suit : au plus proche de zéro est la valeur, plus ﬁable est l’hypothèse W pour Y.

6.4.2 Probabilité au niveau conceptuel

Dans le but, de donner un score aux diﬀérents concepts d’une hypothèse, la mesure précédente peut être facilement étendue au niveau conceptuel. En fait, le Δ_loop pour une séquence de mots est dérivé du Δ_loop de chaque mot la composant. Soit Γ une structure conceptuelle composée de n mots W₁,...W_n, Δ_loop(Y ∣Γ) est approximée par :

Cette mesure n’est pas évaluée ici, mais des résultats seront présentés dans le chapitre 7.

6.5 Mesure de conﬁance conceptuelle

6.5.1 Introduction

Lors de notre processus de décodage, un concept est détecté par notre modèle conceptuel lorsque une règle de grammaire reconnaît un certain patron. Nos grammaires tentent de récupérer la plus longue séquence de mots correspondant au concept détecté. Toutefois, en cas d’erreurs de reconnaissance, la grammaire peut ne pas détecter le concept si ces erreurs sont sur les mots-clefs, ou ne reconnaître qu’une séquence de mots limitée, si ces erreurs sont sur les mots autres que les mots-clefs. Dans le premier cas le concept n’est pas détecté par la grammaire (car dans ce cas il n’est pas possible d’en extraire une valeur), mais la présence d’autres types de mots peut inﬁrmer ce résultat. Dans le second cas, si le concept est détecté avec une séquence de mots plus courte (et donc moins ﬁable car il peut s’agir d’un mot erroné isolé), la présence ou l’absence de certains mots contextuels peut également conﬁrmer cette détection ou l’inﬁrmer.

Comme nous le disions dans le chapitre 3.1, des méthodes à base de classiﬁeurs peuvent être utilisées pour détecter des concepts dans une phrase. Nous proposons ici d’entraîner des classiﬁeurs automatiques pour détecter la présence des concepts de l’application dans une intervention utilisateur. La détection conceptuelle faite par nos grammaires peut alors être conﬁrmée ou inﬁrmée en fonction de la décision du classiﬁeur.

6.5.2 Méthodes de classiﬁcation textuelle

Les outils de classiﬁcation de texte peuvent se diﬀérencier par la méthode de classiﬁcation utilisée et par les éléments choisis aﬁn de représenter l’information textuelle (mot, étiquette de Part Of Speech, lemme, stemme, sac de mots, sac de n-grams, longueur de phrase, etc.). L’objectif est d’entraîner des classiﬁeurs à détecter les occurrences de chaque concept dans les interventions. À chaque concept détecté par nos grammaires, le classiﬁeur ainsi entraîné peut donner son avis sur la présence de ce concept dans l’intervention. L’avis du classiﬁeur sur la présence du concept devient une mesure de conﬁance pour ce concept.

Le corpus utilisé pour entraîner les classiﬁeurs, est composé d’interventions utilisateur sous leur forme transcrite. Chaque transcription est étiquetée par son interprétation conceptuelle représentée par une séquence de constituants conceptuels basiques (ou concepts).

Dans les expériences menées sont utilisées les transcriptions manuelles du corpus d’apprentissage et les transcriptions manuelles et automatique du corpus de développement de l’application PlanResto. Chaque intervention est représentée sur plusieurs niveaux. Trois niveaux ont été utilisés :

Table 6.5:

Exemple de données d’apprentissage pour les classiﬁeurs


Niveau 1	Niveau 2	Niveau 3

des	DETMP	OTHER
restaurants	NMP	OTHER
italiens	NMP	SPECIALITE
pour	PREP	OTHER
des	DETMP	OTHER
menus	NMP	OTHER
inférieurs	AMP	OTHER
à	PREPADE	OTHER
deux	CHIF	UNITE
cent	CHIF	CENTAINE
cinquante	CHIF	DIZAINE
francs	NMP	DEVISE


Concepts présents

claRestaurant
Specialite
Prix

À chaque intervention est alors associé l’ensemble des concepts présents, un exemple est disponible dans le tableau 6.5. À chaque exemple du corpus, et pour chaque concept de l’application, est noté la présence ou l’absence de ce concept. Un classiﬁeur par concept est alors entraîné pour apprendre automatiquement des règles aﬁn de pouvoir décider de la présence ou non d’un concept dans une phrase. Les scores donnés par le classiﬁeur sont utilisés comme score de conﬁance.

Trois classiﬁeurs sont utilisés dans les expériences suivantes : un basé sur les arbres de décisions LIA-SCT et deux autres sont des classiﬁeurs à large-marge : BoosTexter et SVM-Torch.

LIA-SCT

LIA-SCT [Béchet et al., 2000] est un logiciel libre développé par le Laboratoire Informatique d’Avignon et disponible à l’adresse suivante : http://www.lia.univ-avignon.fr/chercheurs/bechet/. L’avantage principal de ce classiﬁeur est de prendre en entrée une séquence de composants (qui peuvent être des descriptions de diﬀérents niveaux d’abstraction, comme des mots et des étiquettes morpho-syntaxiques, par exemple) aﬁn de construire automatiquement, à chaque nœud de l’arbre, une expression régulière incluant ces composants qui peuvent s’appliquer à la globalité du tour de parole. À chaque feuille, les hypothèses conceptuelles sont associées à une probabilité.

BoosTexter

BoosTexter [Schapire et Singer, 2000] est un classiﬁeur basé sur une méthode de boosting de classiﬁeurs à faible performance. Le but de cette méthode de classiﬁcation à large-marge est de trouver une fonction qui maximise la marge entre les diﬀérents exemples à classer. Les classiﬁeurs à faible performance sont passés en entrée. Ils peuvent être l’absence ou la présence d’un mot ou d’un n-gram spéciﬁque, une valeur numérique (comme la longueur de la phrase prononcée) ou une combinaison de cela. À la ﬁn du processus d’entraînement, la liste des classiﬁeurs sélectionnés est obtenue ainsi que les poids de chacun d’entre eux dans le calcul du score ﬁnal pour chaque constituant de la liste des concepts. Les éléments choisis dans nos expériences sont des 1-gram, 2-gram et 3-gram sur les trois niveaux présentés dans la section 6.5.2.

SVM-Torch

SVM-Torch [Collobert et al., 2002] est un classiﬁeur basé sur les SVMs dont l’entrée est un vecteur d’éléments numériques. Dans nos expériences, la technique la plus simple du sac de mots est utilisée : un tour de parole est représenté comme un vecteur dont chaque composante correspond à un élément appartenant à un des trois niveaux présenté dans la section 6.5.2 et chaque composante a pour valeur le nombre d’occurrence de l’élément correspondant dans le tour de parole.

6.5.3 Quelques résultats

Table 6.6:

Exemple sur la mesure de conﬁance donnée par LIA-SCT sur la détection des concepts


Hypothèse	syntagme conceptuel	Proba. donnée par le classiﬁeur
		que le concept soit présent

X	moins de <Lieux> Sens </Lieux> francs	0.17

Y	<Prix> moins de cent francs </Prix>	0.90

Référence	<Prix> moins de cent francs </Prix>

Dans l’exemple du tableau 6.6, on peut voir que le système de reconnaissance propose comme candidat, une hypothèse X où le mot-clef est erroné. La grammaire détecte alors un LIEU, à la place d’un PRIX. Pourtant il paraît évident que dans ce contexte c’est un PRIX qui a été prononcé. En s’appuyant sur ce contexte l’arbre de classiﬁcation nous donne une probabilité très faible que le concept LIEU soit présent dans l’hypothèse X (0.17) et très forte que le concept PRIX y soit (0.90), la mesure de conﬁance nous permet d’inﬁrmer ici, la détection faite par la grammaire sur l’hypothèse X et conﬁrme au contraire celle sur l’hypothèse Y.

6.6 Conclusion

Nous avons présenté dans ce chapitre des travaux sur un panel de mesures de conﬁance. Ces mesures de conﬁance permettent de diagnostiquer la sortie de reconnaissance à diﬀérents niveaux (mot, phrase, concept) et avec diﬀérents critères (linguistique, acoustique, sémantique). Au niveau de la phrase, deux mesures de conﬁance linguistiques ont été présentées. Elles sont fondées autour de l’idée que l’utilisation de méthodes de repli peut être source d’erreurs de reconnaissance. La première exploite des situations consensuelles obtenues par des décodages en parallèle eﬀectués avec des modèles de langage « augmentés » créés pour pallier le manque de données d’apprentissage. La seconde mesure l’impact négatif d’utilisation de ces méthodes en identiﬁant la proportion d’événements dans la phrase reconnue ayant une probabilité calculée par une méthode de repli. Une mesure de conﬁance acoustique intervenant au niveau des mots a été présentée et étendue au niveau conceptuel (i.e. à la séquence de mots relative à un concept). Nous avons présenté une mesure de conﬁance fonctionnant au niveau conceptuel qui utilise des méthodes de classiﬁcation automatiques pour détecter des concepts dans une transcription aﬁn de valider les détections faites par les grammaires. Ce chapitre a mis en évidence un ensemble d’outils pour diagnostiquer des hypothèses de sortie du module RAP. Nous nous proposons dans le chapitre suivant de mettre en place une stratégie d’aide à la décision pour le gestionnaire de dialogue en utilisant ces mesures de conﬁance sur notre liste structurée.

Chapitre 6
Mesures de conﬁance

6.1 Introduction

6.2 Consensus de décodages en parallèle

6.2.1 Introduction

6.2.2 Augmentation de données par projection dans un espace réduit

6.2.3 Augmentation de données par similarité

Solution 1

Solution 2

6.2.4 Évaluation

6.2.5 Raisonnement sur des situations de consensus

6.3 CONS(LM) :une mesure linguistique

6.3.1 Variante : critère de consistance sur des étiquettes morpho-syntaxiques

6.3.2 La dépréciation des Tri-grammes peu plausibles

6.4 Mesure de conﬁance acoustique conceptuelle

6.4.1 Probabilité au niveau des mots

6.4.2 Probabilité au niveau conceptuel

6.5 Mesure de conﬁance conceptuelle

6.5.1 Introduction

6.5.2 Méthodes de classiﬁcation textuelle

LIA-SCT

BoosTexter

SVM-Torch

6.5.3 Quelques résultats

6.6 Conclusion

Chapitre 6Mesures de conﬁance

6.1 Introduction

6.2 Consensus de décodages en parallèle

6.2.1 Introduction

6.2.2 Augmentation de données par projection dans un espace réduit

6.2.3 Augmentation de données par similarité

Solution 1

Solution 2

6.2.4 Évaluation

6.2.5 Raisonnement sur des situations de consensus

6.3 CONS(LM) :une mesure linguistique

6.3.1 Variante : critère de consistance sur des étiquettes morpho-syntaxiques

6.3.2 La dépréciation des Tri-grammes peu plausibles

6.4 Mesure de conﬁance acoustique conceptuelle

6.4.1 Probabilité au niveau des mots

6.4.2 Probabilité au niveau conceptuel

6.5 Mesure de conﬁance conceptuelle

6.5.1 Introduction

6.5.2 Méthodes de classiﬁcation textuelle

LIA-SCT

BoosTexter

SVM-Torch

6.5.3 Quelques résultats

6.6 Conclusion

Chapitre 6
Mesures de conﬁance