7 Stratégie de validation

Chapitre 7
Stratégie de validation

Sommaire

7.1 Stratégie par arbre de décision
7.2 DU₁ : validation d’interprétation conceptuelle
7.2.1 Objectif
7.2.2 Règle de décision consensuelle avec situations de conﬁance
7.3 DU₂ : validation conceptuelle
7.3.1 Objectif
7.3.2 Mesures de conﬁance
LC, Mesure de conﬁance linguistique
AC, Mesure de conﬁance acoustique
R, Mesure de conﬁance sur le rang
SC, un descripteur de conﬁance sémantique
DC, un descripteur du contexte de dialogue
Paramètres divers
7.3.3 Application de méthodes de classiﬁcation avec score de conﬁance
7.3.4 Validation de consensus
7.4 Résultats de la stratégie
7.5 Correction d’erreurs
7.5.1 Correction d’erreurs basée sur des règles
7.5.2 Corrections d’erreurs basées sur un arbre de décision
7.6 Conclusion

7.1 Stratégie par arbre de décision

Le gestionnaire de dialogue guide les échanges avec l’utilisateur en fonction de son état actuel, et de la représentation sémantique que lui a fourni le module de compréhension en rapport avec la dernière intervention de l’utilisateur. La représentation sémantique peut être entachée d’erreurs et notamment si le processus de transcription n’a pas été ﬁable. Ces erreurs peuvent amener le gestionnaire de dialogue à prendre de mauvaises décisions sur le choix de la continuité à donner au dialogue. Des mesures de conﬁance sont généralement associées aux éléments de la représentation sémantique. Elles aident le gestionnaire à prendre une décision sur la suite à donner au dialogue : faire totalement conﬁance à cette représentation et continuer le dialogue ou demander une conﬁrmation partielle, voire une répétition. Le gestionnaire de dialogue fait ce choix en vue d’assurer la satisfaction maximale de l’utilisateur.

Nous proposons dans ce chapitre une stratégie d’aide à la décision destinée au gestionnaire de dialogue. Cette stratégie va permettre de l’informer sur la qualité du processus de reconnaissance transcription/interprétation obtenu par notre stratégie de décodage présentée dans la section 5.6 aﬁn de lui donner les moyens de prendre la décision optimale sur le choix à faire dans la gestion du dialogue.

Notre processus de reconnaissance génère une liste structurée des N-meilleures hypothèses L_nbest. Ces hypothèses correspondent aux N-meilleures interprétations trouvées dans le graphe de mots. Une interprétation est une séquence de concepts. Ce travail considère que le calcul de la probabilité qu’une interprétation soit correcte est basé sur un ensemble suﬃsant d’indicateurs de conﬁance qui peuvent utiliser de multiples sources de connaissances sur L_nbest. Dans un premier temps, il est nécessaire de vériﬁer la plausabilité de l’interprétation Γ_1,1^w.

Nous proposons une stratégie d’interprétation implémentée par un arbre de décision. Au nœud j de l’arbre est appliquée une Unité de Décision DU_j sur L_nbest. Les unités de décision font de la validation dans le but de mener à des états dans lesquels les erreurs de compréhension sont peu probables. Quand les résultats d’interprétation sont dans un de ces états, le gestionnaire de dialogue n’a pas à eﬀectuer des demandes de clariﬁcation ou des demandes de répétitions. Un chemin dans l’arbre de décision stratégique déﬁni alors un état de ﬁabilité de l’interprétation.

L’arbre de décision peut être automatiquement appris ou construit manuellement (comme c’est le cas dans nos expériences). Son objectif est de maximiser la couverture de cas pour lesquels l’erreur d’interprétation est en dessous d’un seuil donné. Ce seuil est choisi pour assurer la satisfaction de l’utilisateur en évitant un taux inacceptable de fausses directions dans le dialogue.

À chaque nœud de l’arbre de décision, le taux d’erreurs et la couverture sont calculées. Si une interprétation Γ est acceptée par la DU correspondant au nœud, Γ peut être traitée par une autre DU ou être transférée au gestionnaire de dialogue. Si l’interprétation est rejetée, elle peut aussi être traitée par une autre DU ou envoyée vers une unité de correction qui cherche dans L_nbest une correction Γ^′ à Γ. Γ^′ est alors transférée au gestionnaire de dialogue avec l’état de ﬁabilité attaché au dernier nœud traversé dans l’arbre, ou l’intervention de l’utilisateur est rejetée si aucune correction ﬁable de Γ n’est trouvée dans L_nbest. Cette stratégie est illustrée par la ﬁgure 7.1 avec une DU.

Figure 7.1:

Stratégie d’interprétation par arbre de décision avec une Unité de Décision (DU_i) validant l’interprétation Γ en accord avec L_nbest et le contexte du dialogue Dc

Nous présentons ici une stratégie qui s’appuie sur deux unités de décision. La première, DU₁, est une unité de décision qui s’eﬀorcera de diagnostiquer si l’interprétation Γ_1,1 (séquence de concepts) supportée par l’hypothèse W_1,1 produite par notre décodage est correcte. La seconde, DU₂, va s’attacher à valider de manière indépendante les concepts présents dans une hypothèse. Ces deux unités de décision utilisent diﬀérents classiﬁeurs appris sur diﬀérents paramètres pour prendre une décision.

7.2 DU₁ : validation d’interprétation conceptuelle

7.2.1 Objectif

Nous désirons mettre en place une mesure de conﬁance conceptuelle permettant d’estimer la qualité d’une interprétation. C’est à dire, vériﬁer si la séquence de concepts donnée par notre modèle est correcte. Nous avons présenté dans la section 6.5 une mesure de conﬁance permettant de conﬁrmer ou d’inﬁrmer la présence d’un concept dans une phrase. La première unité de décision DU₁ va étendre cette mesure au niveau d’une interprétation.

7.2.2 Règle de décision consensuelle avec situations de conﬁance

La mesure de conﬁance présentée dans la section 6.5 permet de valider ou non un concept en demandant l’avis d’un classiﬁeur entraîné à détecter sa présence selon un certain contexte. Le contexte dans ces expériences est la transcription complète. Nous interrogeons le classiﬁeur sur tous les concepts de l’application avec la transcription complète. Il est alors possible pour chaque phrase de construire une interprétation conceptuelle associée au classiﬁeur. Cette interprétation est la séquence de tous les concepts qui ont été détectés comme présents dans la phrase par un classiﬁeur. Un concept est détecté présent par un classiﬁeur, si la probabilité d’être présent donnée par le classiﬁeur est supérieure à un seuil ¹ . Ainsi nous avons 3 interprétations en plus de celle émise par notre processus de reconnaissance. Celle émise par LIA-SCT, Γ^SCT, celle émise par BoosTexter, Γ^BoosT, et celle émise par SVM-TORCH, Γ^{SV M}. Ces interprétations nous donnent une idée générale de l’interprétation réelle qui existe dans la phrase. Certaines informations que renferme l’interprétation produite par notre décodage n’existent pas ici : les classiﬁeurs ne permettent pas l’association mots/concepts, alors ces interprétations ne donnent pas d’informations sur la valeur d’un concept et la relation temporelle entre les concepts est perdue. La présence multiple d’un concept dans une phrase n’est également pas détectée.

L’interrogation des classiﬁeurs s’appuie pour chaque intervention sur W_1,1 la chaîne de mots la plus probable qui supporte Γ_1,1 dans le graphe de mots. Si Γ_1,1 est incorrecte parce que W_1,1 contient des erreurs de reconnaissance ou des expressions qui ne sont pas générées par notre décodage mais qui supportent des concepts, alors il est probable que les classiﬁeurs ne soient pas en accord avec notre décodage. Dans ce cas, il est possible que l’interprétation correcte doit être trouvée dans une autre candidate de L_nbest. Au contraire, si tous les classiﬁeurs sont en accord avec l’hypothèse W_1,1 générée par notre décodage, alors il est probable que l’interprétation suggérée soit correcte.

Si Γ^SCT(w) est l’interprétation estimée par LIA−SCT sur l’hypothèse de mots w, Γ^BOOST(w) celle donnée par BoosTexter et Γ^TORCH(w) celle fournie par SV M − Torch, la situation de conﬁance considérée est celle représentée par l’expression logique suivante :

HC (Γ 1,1,W1,1) : Γ 1,1 = Γ SCT(W1,1) = Γ BOOST (W1,1) = Γ TORCH (W1,1)

Cette condition appelée HC pour Haute Conﬁance, correspond à l’unité de décision DU₁ choisie pour être à la racine de l’arbre de décision stratégique. La règle de consensus utilisée est motivée par la conjecture que diﬀérentes observations du même phénomène fournissent une interprétation plus sûre que chaque observation séparément. La ﬁgure 7.2 illustre ce procédé.

Figure 7.2:

Procédé de validation de l’unité de décision DU₁

Cette unité de décision donne son avis sur la cohérence de l’interprétation fournie par notre processus de décodage en fonction de la meilleure chaîne de mots. En cas de non validation, cette unité permet également de fournir les informations suivantes :

un classiﬁeur peut avoir détecté la présence d’un concept dans W_1,1 qui n’a pas été détecté par notre décodage. Dans ce cas, et notamment si tous les classiﬁeurs ont détecté sa présence, il est probable que l’interprétation Γ_1,1 ait subi une suppression :
les classiﬁeurs peuvent ne pas avoir détecté dans W_1,1 un concept présent dans Γ_1,1, dans ce cas il est fortement probable que l’interprétation Γ_1,1 ait généré une fausse insertion.

Par contre, cette unité ne peut pas nous renseigner sur la cohérence d’une apparition multiple d’un concept.

7.3 DU₂ : validation conceptuelle

7.3.1 Objectif

L’unité de décision DU₁ valide les concepts détectés sur W_1,1. Cette unité de décision ne fournit pas d’informations sur le nombre d’occurrences d’un concept (en cas de d’apparition multiple), ni sur la valeur des concepts. Elle s’appuie sur des paramètres issus de W_1,1 qui peuvent être erronés et auxquels aucune information de conﬁance n’est passée. C’est pourquoi les entités conceptuelles dans Γ_1,1 sont validées à nouveau par une unité de décision DU₂ qui se charge de valider les concepts reconnus indépendamment en tenant compte de divers paramètres de ﬁabilité associés.

L’unité de décision DU₂ va s’eﬀorcer de reconnaître un concept bien reconnu d’un mauvais. Cette distinction va se faire au moyen de diﬀérentes mesures de conﬁance. Les mesures de conﬁance qui peuvent être associées à un concept sont nombreuses. Certaines ont des performances globales bien meilleures que d’autres mais sont ineﬃcaces dans certaines situations, e.g. la mesure acoustique AC qui globalement est une des plus performantes est ineﬃcace pour estimer la conﬁance de concepts basés sur des mots homonymes (<Lieu:Sens> et <Prix:cent>), d’autres mesures sont alors plus pertinentes. L’idée est de combiner plusieurs mesures de conﬁance aﬁn de tirer parti de leur potentiel spéciﬁque. Cette combinaison sera faite en utilisant des classiﬁeurs automatiques, les mêmes que ceux utilisés pour DU₁, autour des indices de conﬁance présentés dans la section 7.3.2.

7.3.2 Mesures de conﬁance

Les indicateurs de conﬁance suivants sont proposés :

LC, Mesure de conﬁance linguistique

La mesure utilisée est le CONSLM présenté dans la section 6.3.

AC, Mesure de conﬁance acoustique

La mesure conceptuelle présentée dans la section 6.4.2

R, Mesure de conﬁance sur le rang

Aﬁn de prendre en compte le classement donné par le moteur de reconnaissance, le rang de l’hypothèse est considéré comme une mesure de conﬁance. Dans le cas d’une liste des N-meilleures standard, c’est le rang de l’hypothèse dans la liste. Dans le cas d’une liste structurée, le rang comporte deux nombres, le premier est le rang de l’interprétation, le deuxième est le rang de l’hypothèse pour cette interprétation.

SC, un descripteur de conﬁance sémantique

Cette mesure est dérivée des scores de classiﬁcation donnés par les diﬀérents classiﬁeurs (section 7.2) pour une phrase de contenir un concept spéciﬁque. Il correspond au nombre de classiﬁeurs utilisés dans DU₁ qui ont fait l’hypothèse qu’un concept était présent.

DC, un descripteur du contexte de dialogue

Ce contexte est représenté par le prompt du système énoncé avant l’intervention utilisateur. Chaque prompt est étiqueté avec une étiquette correspondant au type de message donné à l’utilisateur (requête spéciﬁque, conﬁrmation, …). Une distribution a priori de toutes les étiquettes conceptuelles pour chaque prompt est obtenue sur le corpus d’apprentissage. Pendant le décodage, la distribution attachée au prompt du système est comparée à celle détectée dans Γ_1,1.

Paramètres divers

Sont également ajoutés à l’apprentissage, le nombre de mots de la phrase, le nombre de concepts reconnus, la probabilité a posteriori de la phrase, ...

7.3.3 Application de méthodes de classiﬁcation avec score de conﬁance

Le but est de valider chaque paire concept/valeur indépendamment des autres. L’unité de décision DU₂ calcule la probabilité que chaque constituant conceptuel γ_i (Γ_1,1 = γ₁,γ₂,…,γ_i,…) est correct étant donnée une fonction de mesures de conﬁance pertinente, en accord avec le processus suivant :

un corpus d’apprentissage est construit où chaque exemple correspond à un concept γ_i détecté par notre processus de décodage sur le corpus de développement ;
à chaque exemple, est attaché l’ensemble des mesures de conﬁance introduit plus tôt ;
si le concept γ_i est correct, l’exemple est étiqueté correct, sinon il est étiqueté incorrect ;
les 3 outils de classiﬁcation présentés dans la section 6.5.2 sont appliqués sur ce corpus d’apprentissage dans le but de discriminer les exemples corrects des incorrects.

Certains concepts ont des comportements diﬀérents : certains paramètres de conﬁance sont plus ou moins pertinents pour déterminer leur ﬁabilité. Il est alors plus judicieux, si les données d’apprentissage sont en nombre suﬃsant, d’entraîner un classiﬁeur par concept. C’est ce qui a été réalisé dans nos expériences. Il est à noter que les données d’apprentissage font appel aux résultats de notre processus de reconnaissance sur le corpus de développement. Ce processus générant un liste structurée des N-meilleures hypothèses, les concepts ainsi que les mesures de conﬁance qui y sont attachés ne sont pas extraites que de W_1,1, mais de toutes ou partie de L_nbest. Ce qui permet d’augmenter le nombre d’exemples servant à l’apprentissage des classiﬁeurs. Dans tous les cas, il est possible d’entraîner un classiﬁeur pour tous les concepts ou par regroupement de concepts ayant le même comportement, si les données d’apprentissage sont en nombre insuﬃsant pour apprendre un classiﬁeur par concept. Les résultats de cette classiﬁcation ont été obtenus en considérant les concepts extraits d’une liste structurée élaguée à l’hypothèse W_3,5 et sont visibles dans le tableau 7.1. Dans ce tableau, la dernière colonne indique en choisissant le seuil optimal sur le corpus de développement le résultat de ce que l’on peut espérer de mieux de la discrimination des concepts OK ou NOK utilisant le score conceptuel acoustique AC présenté en section 6.4.2.

Table 7.1:

Résultats pour les corpus de développement et test de la classiﬁcation correct/incorrect eﬀectuée par les trois classiﬁeurs


CORPUS	type	#exemples	LIA-SCT	BoosTexter	SVM-Torch	AC

Développement	NOK	13204	90.51	96.35	95.42	35.35


	OK	25895	95.65	98.38	97.86	93.06

Test	NOK	5236	85.19	86.45	85.37	46.21


	OK	9668	87.54	89.30	88.22	91.42

7.3.4 Validation de consensus

Comme dans l’unité de décision DU₁, le consensus des classiﬁeurs donne un gain de garantie sur la validité d’un concept. Une validation de consensus sur les concepts γ_i est une variable binaire qui est vraie si γ_i est étiqueté correct par tous les classiﬁeurs V _boost(γ_i), V _tree(γ_i) et V _{SV M}(γ_i). Ce consensus est donc l’unité de décision DU₂. La fonction associée à DU₂ est la suivante :

F2[Lnbest,Dc, Γ 1,1] : ∀γi ∈ Γ 1,1,Vboost(γi) = Vtree(γi) = VSV M(γi) = correct

la ﬁgure 7.4 illustre ce procédé. L’unité de décision DU₂ a été choisie pour être exécutée à la suite de l’unité DU₁ dans notre arbre de décision stratégique.

En guise d’observation, un score S_du₂ de validité de concept est calculé à partir des scores donnés par les 3 classiﬁeurs. Ce score est comparé à la mesure de conﬁance AC au travers d’une courbe ROC (Receiver Operating Characteristic) dans la ﬁgure 7.3 sur le corpus de test. La courbe ROC compare, en fonction des valeurs de la mesure de conﬁance, les Fausses et les Correctes Acceptations d’un concept calculées de la manière suivante :

#-de-concepts accepté à-tort Fausses Acceptations = Total # de concepts erronés # de concepts corrects accepté Correctes Acceptations = -Total #-de concepts corrects

Figure 7.3:

Comparaison du score S_du₂ avec la mesure AC sur leur capacité à diagnostiquer un concept

Figure 7.4:

Procédé de validation de l’unité de décision DU₂

7.4 Résultats de la stratégie

La stratégie utilisée est maintenant un arbre de décision de profondeur 2 avec en racine l’unité de décision DU₁ suivie par l’unité de décision DU₂, illustrée dans la ﬁgure 7.5. Cette stratégie permet d’isoler 4 situations de conﬁance :
RS₁ : DU₁ ∧ DU₂
RS₂ : DU₁ ∧DU₂
RS₃ : DU₁ ∧ DU₂
RS₄ : DU₁ ∧DU₂

Figure 7.5:

Stratégie d’interprétation avec les unités de décision DU₁ et DU₂

RS₁ correspond à la situation de validation totale, RS₂ et RS₃ des situations de validations intermédiaires, et RS₄ une situation d’invalidation totale. Ces situations de conﬁance engendrées par notre stratégie sur les corpus présentés dans la section 4.2 de l’application PlanResto, sont présentées dans les arbres des ﬁgures 7.6 pour le corpus de développement et 7.7 pour le corpus de test à travers 3 mesures :

le Taux d’Erreurs en Compréhension (UER), similaire au word error rate mais au niveau des concepts. Un concept est considéré correct seulement si l’étiquette et sa valeur sont correctes ;
le Taux d’Erreurs d’Interprétation Phrase (SIER), qui indique le pourcentage d’interventions contenant au moins une erreur au niveau concept (étiquette ou valeur) ;
la Couverture (Couv), qui indique le pourcentage d’interventions accepté par une unité de décision DU_i.

Figure 7.6:

Résultats de la stratégie d’interprétation pour les unités de décision DU₁ et DU₂ sur le corpus de développement

Figure 7.7:

Résultats de la stratégie d’interprétation pour les unités de décision DU₁ et DU₂ sur le corpus de test

Nous pouvons eﬀectivement remarquer que la situation de conﬁance optimale RS₁ est un ensemble contenant des hypothèses ﬁables. Comme nous pouvons le voir, en validant les deux unités de décision DU₁ et DU₂ sur le corpus de test l’UER chute vraiment signiﬁcativement de 16.99% à moins de 6%, tandis que la couverture chute seulement à 58.44%. Cette situation optimale de conﬁance est comparée dans le tableau 7.3 avec la situation optimale que l’on pourrait obtenir avec la mesure de conﬁance acoustique AC (qui est la plus performante individuellement) pour une couverture identique. Le tableau 7.2 montre l’intérêt d’appliquer le consensus de diﬀérents classiﬁeurs dans les unités de décision en présentant le gain en ﬁabilité apporté par chaque classiﬁeur.

Table 7.2:

Performance des unités de décision DU₁ et DU₂ en fonction du nombre de classiﬁeurs invoqué


DU	classiﬁeur	couverture	UER

aucune	aucun	100%	17.0


DU₁	+SCT	86.5%	14.6

	+BOOST	76.1%	11.5

	+SVM	74.6%	11.4


+DU₂	+SCT	65.6%	9.1

	+BOOST	61.5%	6.9

	+SVM	58.4%	5.9

Table 7.3:

Comparaison des situations de conﬁance RS1 et celle obtenue avec la mesure de conﬁance AC


CORPUS	Couverture	Mesure	RS1	AC


Développement	67.92	UER	2.34	9
		SIER	3.97	14

Test	58.44	UER	5.93	10
		SIER	8.69	15.46

7.5 Correction d’erreurs

Les 4 situations de conﬁance RS_x présentées dans les ﬁgures 7.6 et 7.7 après applications des 2 unités de décision DU₁ et DU₂ peuvent logiquement être interprétées de la manière suivante :

la situation RS₁ ne contient a priori pas d’erreurs, les erreurs résiduelles qui peuvent persister peuvent être dues à des concepts non-détectés ni par la grammaire, ni par les classiﬁeurs, à cause d’erreurs de reconnaissance sur les mots, probablement des suppressions ;
la situation RS₂ contient les hypothèses validées par DU₁ mais invalidées par DU₂. Dans ce cas il est probable que les erreurs produites sur les mots dans W_1,1 aient généré un concept validé dans l’interprétation par DU₁. Nous pouvons supposer que la majorité des erreurs sont des substitutions si ces mots non-erronés sont porteurs de sens et correspondent à un autre concept, ou a une fausse insertion s’ils ne sont pas porteurs de sens ;
dans la situation RS₃, les hypothèses sont invalidées par DU₁ mais validées par DU₂. Normalement, les concepts composant l’interprétation sont corrects, mais pas l’interprétation. Il est raisonnable de penser que les erreurs soient en majorité des suppressions ;
la situation RS₄ contient des hypothèses très peu ﬁables qui sont susceptibles d’être incorrectes vis à vis de leur interprétation ainsi que des concepts qui la composent.

Dans un cadre de fonctionnement plus ou moins idéal comme sur le corpus de développement, les réﬂexions précédentes semblent justiﬁées comme en atteste le tableau 7.4 qui présente les proportions de type d’erreurs commises en fonction des situations de conﬁance. Les expériences sur le test (tableau 7.5) montrent que ces réﬂexions dans une moindre mesure se conﬁrment.

Table 7.4:

Type d’erreurs en fonction des situations de conﬁance RS_x sur le corpus de développement


Situation	Suppressions	Insertions	Substitution


RS₁	84,03	6,72	9,24

RS₂	10,34	21,67	67,98

RS₃	98,06	0,49	1,46

RS₄	13,04	32,00	54,96

Table 7.5:

Type d’erreurs en fonction des situations de conﬁance RS_x sur le corpus de test


Situation	Suppressions	Insertions	Substitution


RS₁	54,84	10,75	34,41

RS₂	31,94	18,06	50,00

RS₃	62,26	5,66	32,08

RS₄	22,31	22,31	55,38

En fonction de ces considérations des stratégies de corrections d’erreurs spéciﬁques peuvent être mises en place. Dans tous les cas, la solution a une forte probabilité d’être présente dans L_nbest. La correction revient alors à trouver une hypothèse Γ_x,y ∈ L_nbest : Γ_x,y soit une correction pour Γ_1,1. Si une hypothèse Γ_1,1 est étiquetée avec un fort état de ﬁabilité tel RS₁, il peut être hasardeux de chercher une correction dans L_nbest, sinon il est intéressant de tenter de la corriger.

Pour évaluer le potentiel de cette méthode, il est intéressant d’estimer la limite inférieure de l’UER qui peut être trouvée dans la liste L_nbest. Cette limite est appelée taux UER Oracle. Il est obtenu à partir de la liste d’hypothèses en sélectionnant l’hypothèse avec le plus faible UER par rapport à la référence. Le taux UER Oracle est donné dans le tableau 7.6 pour chaque état de ﬁabilité RS_1,2,3,4 et pour deux types de liste d’hypothèses : une liste standard des N-meilleures hypothèses généré par un module de RAP et la liste structurée L_nbest. Nous pouvons observer que la L_nbest surpasse signiﬁcativement la liste standard : en gardant les 10 meilleures hypothèses, l’UER Oracle est atteint pour les 4 états. Il est intéressant de noter que le taux Oracle UER est bien corrélé avec les états de ﬁabilité : environ 1% pour l’état de haute ﬁabilité RS₁ à 20% pour l’état de faible ﬁabilité RS₄.

Table 7.6:

Taux Oracle moyen en UER dans la liste d’hypothèses attachée à chaque intervention avec le nombre minimum moyen d’hypothèses (n) qui doivent être conservées pour approcher cet UER dans les cas d’une liste standard et structurée des N-meilleures hypothèses


n-best	RS₁	RS₂	RS₃	RS₄

Oracle UER (%)	0.9	7.7	7.6	20.4

n liste standard	26	48	>50	>50

n dans L_nbest	6	9	9	10

La correction d’erreur I_q peut être vue comme un type spécial d’inférence dans laquelle une nouvelle interprétation T_q(Γ_i,j^w) est obtenue à partir de l’interpretation Γ_i,j^w quand un certain pre-requis F_q[L_nbest,Γ_i] est vrai. La forme générale du q^ième type de correction est :

w w Iq : Γi,j ∧ Fq[Lnbest,Γ i] − → Tq(Γi,j)

(7.1)

où F_q[L_nbest,Γ_i] sont des expressions logiques conditionnant l’application d’une correction. Si les corrections ne s’appliquent que sur Γ_1,1^w, alors : Γ_i,j^w = Γ_1,1^w. Comme ces corrections sont cherchées dans L_nbest, nous avons : T_q(Γ_1,1^w) = Γ_c,r^w avec Γ_c,r^w ∈ L_nbest.

Les types d’erreurs probables étant connus dans les situations RS₂₋₃, il est judicieux de mettre en place des règles de correction adaptées au type d’erreurs. Des propositions de méthodes de correction sont présentées dans la section 7.5.1. Dans la situation RS₄, se trouvent les hypothèses dont les erreurs sont les plus anarchiques, nous proposons une méthode de correction d’erreurs automatique dans la section 7.5.2.

7.5.1 Correction d’erreurs basée sur des règles

Dans les situations, RS₂₋₃, si une inconsistence sémantique est détectée dans Γ_1,1 il est intéressant de tenter de la corriger. 2 types de correction sont considérés pour les situations suivantes :

l’absence d’un concept qui peut être retrouvé par inférence logique : ceci s’applique quand il y a une relation d’implication entre 2 concepts. Par exemple, si une instance d’un menu a été détectée , il est possible d’inférer en se basant sur le type de service et le contexte du dialogue que le menu est celui d’un restaurant ;
l’incohérence d’une valeur : quand un concept γ_j apparaissant dans Γ₁ n’a pas de valeur ou une valeur incohérente dans Γ_1,1, il est intéressant de chercher une autre valeur pour γ_j dans Γ_1,x avec x > 1, ou pour un autre concept corrigeant γ_j dans L_nbest.

Des exemples de correction de valeurs sont :

si Γ_1,1 contient un concept γ_e pour lequel aucune valeur n’a été détectée, cela peut être parce que des mots-clefs sont présents, e.g. « quartier » dans W_1,1, mais pas de nom de lieu valide. Cependant une interprétation complète contenant un nom de lieu valide apparaît très probablement dans Γ_1,x.
un autre exemple est la reconnaissance d’un nombre en réponse à une liste proposée par le système, qui est plus grand que la taille de la liste. Il est improbable que ce nombre réfère à un élément de la liste et il est judicieux alors de chercher un autre nombre dans la liste des N-meilleures valeurs ou un autre concept référant à un autre type de nombre.

Il est utile pour établir des règles de correction d’avoir des informations liées au gestionnaire de dialogue : état du dialogue, concepts attendus, etc. Nous ne disposons pas de ces informations mais à titre d’exemple une correction possible est la suivante : sur notre corpus de développement, des inconsistances linguistiques ont été observées en utilisant une approche de type explanation based learning. Chaque exemple a été généralisé manuellement aﬁn de construire un patron pour détecter cette inconsistance et un patron représentant la correction. Si l’inconsistance est trouvée dans Γ_1,1 et la correction correspondante est trouvée dans L_nbest la correction est appliquée. Les patrons suivants ont été considérés pour corriger certaines suppressions :

un verbe manquant au début de la phrase ;
ajout d’un concept ou d’une valeur à la ﬁn de la phrase.

Ces types de corrections sont appliqués au corpus de test dans l’état RS₃ où un nombre important de suppressions est observé dans le corpus de développement. Les résultats suivants sont observés :

nombre de phrases= 119
nombre d’erreurs avant correction= 45
nombre d’erreurs après correction= 33

7.5.2 Corrections d’erreurs basées sur un arbre de décision

Si aucun de DU₁ ou DU₂ ne valide Γ_1,1, cela veut dire que Γ_1,1 est probablement au moins partiellement incorrecte. Dans cette situation les erreurs sont plus anarchiques et il est plus diﬃcile de trouver des règles de correction manuelles. Nous proposons une méthode automatique pour trouver des règles de correction.
Toutes les corrections possibles sont considérées. Elles peuvent être exprimées comme :

insertion : I_ins : Γ_1,1^w ∧ F_ins−→T_ins(Γ_1,1^w) = Γ_c,r^w
Γ_c,r^w ∈ L_nbest contient au moins un concept de plus que Γ_1,1^w.
suppression : I_del : Γ_1,1^w ∧ F_sup−→T_del(Γ_1,1^w) = Γ_c,r^w
Γ_c,r^w ∈ L_nbest contient moins de concepts que Γ_1,1^w.
substitution : I_sub : Γ_1,1^w ∧ F_sub−→T_sub(Γ_1,1^w) = Γ_c,r^w
Γ_c,r^w ∈ L_nbest contient le même nombre de concepts que Γ_1,1^w.

Les fonctions des scores de conﬁance associées à F_q sont apprises au moyen d’arbres de décision avec la méthode suivante :

toutes les interventions du corpus de développement sont traitées par notre module de décodage et notre liste structurée des N-meilleures hypothèses L_nbest est attachée à chacune d’entre elles ;
un corpus d’exemples contenant chaque paire (Γ_1,1,Γ_c,r) de toute la liste L_nbest obtenue sur le corpus de développement est construit ;
à chaque exemple est attaché l’ensemble des mesures de conﬁance présentées dans la section 7.3.2 associé aux deux hypothèses Γ_1,1 et Γ_c,r ainsi que le type de modiﬁcation (insertion, substitution, suppression) qui diﬀérencie les deux interprétations ;
une étiquette, correct ou incorrect, est donnée à chaque paire ; correct signiﬁe que les erreurs dans Γ_1,1 sont corrigés par Γ_c,r ; incorrect signiﬁe que Γ_c,r n’est pas une correction pour Γ_1,1 ;
ﬁnalement, un arbre de décision est entraîné sur ce corpus, les questions sont en relation avec les mesures de conﬁance sur (Γ_1,1,Γ_c,r) et le but du processus d’apprentissage est de réduire l’impureté entre les exemples corrects des incorrects attachés à chaque nœud.

Après la procédure d’apprentissage, les fonctions F_ins, F_sup et F_sub sont représentées par les diﬀérents chemins dans l’arbre. Chaque chemin est une expression logique composée de toutes les questions sur les mesures de conﬁance attachées aux nœuds traversés. Les probabilités de chaque correction P{q|F_j[L_nbest,Γ]} (avec q ∈ {ins,sup,sub}) sont estimées en accord avec la distribution des exemples du corpus de développement parmi les diﬀérentes feuilles de l’arbre.

Durant le processus de décodage, cette stratégie de correction d’erreurs est utilisée seulement dans les états de faible ﬁabilité (RS₄) : toutes les paires (Γ_1,1^w,Γ_c,r^w) de L_nbest sont appliquées à l’arbre et celle avec la plus forte probabilité d’être correcte est passée à la stratégie de dialogue. Cette stratégie peut décider de rejeter la phrase si aucune solution alternative à Γ_1,1^w n’est trouvée dans L_nbest avec une probabilité ﬁable. Le tableau 7.7 montre les résultats de cette correction d’erreur.

Table 7.7:

Résultats de la correction d’erreurs apprise automatiquement sur les corpus de développement et de test


Corpus	Mesure	Avant correction	Après correction


Développement	# Phrases corrigées	0	82


	UER(%)	49.74	43.74

Test	# Phrase corrigées	0	14


	UER(%)	30.75	28.96

7.6 Conclusion

Une stratégie d’interprétation séquentielle est proposée, basée sur un arbre de décision où les nœuds sont des unités de décisions eﬀectuant des opérations de validation. La stratégie suit la conjecture que l’hypothèse faite à partir d’une intervention utilisateur doit être interprétée avec diﬀérents types de connaissances sémantiques. Nous avons proposé deux unités de décision, une pour vériﬁer une interprétation (séquence de concepts) extraite d’une intervention utilisateur, une autre permettant de valider un à un les diﬀérents concepts reconnus. Ces unités utilisent le consensus exprimé par diﬀérents classiﬁeurs appris sur diﬀérentes sources de connaissances ( i.e. mots, étiquettes morpho-syntaxiques, indices de conﬁance, etc.) pour donner une décision. La stratégie de validation proposée permet d’isoler des situations de conﬁance dans lesquelles nous pouvons prédire la qualité de la reconnaissance. Ceci est une information primordiale pour le gestionnaire de dialogue aﬁn de guider ses choix sur la poursuite du dialogue. Dans l’état de haute ﬁabilité, les expériences ont montré que la probabilité d’exactitude est très haute, ce qui suggère que le gestionnaire de dialogue n’a pas à demander conﬁrmation. Dans d’autres états, l’hypothèse est incertaine et le gestionnaire de dialogue devrait demander conﬁrmation, voire une répétition. La prédiction de la probabilité des types d’erreurs en termes d’insertions, suppressions et substitutions est également utile pour le gestionnaire de dialogue. Nous introduisons, pour les états de moindre ﬁabilité, des méthodes de correction d’erreurs basées sur l’utilisation de notre liste structurée qui contient toutes les corrections possibles qui existent dans le graphe de mots. Ces méthodes exploitent cette liste à travers des règles de correction manuelles ou automatiques.

[next] [prev] [prev-tail] [front] [up]

Chapitre 7Stratégie de validation