Depuis très longtemps, converser avec une machine est chose possible... dans les films de science-fiction. Mais ceux qui travaillent à l’élaboration des méthodes qui rendent ce genre d’applications possibles ou les utilisateurs de ces systèmes se rendent compte que le jour où l’on pourra tenir une conversation ouverte avec un ordinateur n’est pas encore arrivé. Les méthodes actuelles comme la reconnaissance automatique de la parole (i.e. conversion d’un signal de parole en texte) et l’analyse en compréhension (i.e. extraction du sens à partir du texte) rendent possible un dialogue homme-machine, dans des circonstances bien particulières : milieu non bruité, vocabulaire réduit et surtout une sémantique restreinte.
La reconnaissance automatique de la parole utilise le plus souvent une approche statistique ; qu’il
s’agisse d’applications de dictée vocale ou de systèmes de dialogue. Mais dans le cas de dictée
vocale, le langage parlé est similaire au langage écrit, les modèles de langage statistiques
N-grammes utilisés peuvent donc être construits sur la base de corpus de taille conséquente (e.g.
corpus journalistiques). Le langage utilisé dans des applications de dialogue est soumis aux
caractéristiques du langage parlé naturel, c’est à dire la présence d’hésitations, de reprises, de fautes
grammaticales, ainsi qu’à un vocabulaire bien spécifique à l’application. Les modèles de langage
pour ce genre d’applications doivent être établis sur la base de corpus spécialisés qui sont
longs et coûteux à construire. Il en résulte des taux d’erreurs de reconnaissance assez élevés.
Dans les applications de dialogue, l’objectif n’est pas de transcrire mais de comprendre le
message porté par le signal. La transcription n’est qu’une étape intermédiaire nécessaire. La
compréhension d’un message se fait par l’analyse de cette transcription, généralement par des
grammaires sémantiques modélisant des relations entre les concepts élémentaires présents dans la
phrase. Ces concepts élémentaires sont des mots ou des séquences de mots ayant un sens pour
le système (e.g. lieu, date, prix, etc.). Or la transcription est effectuée à l’aide de modèles
acoustiques et linguistiques à contraintes réduites (N-grammes), ceci entraîne que le processus de
reconnaissance peut générer des phrases hors-domaine. Si la transcription est utilisée pour établir la
compréhension du message, la compréhension peut être utilisée pour guider le processus de
transcription vers des phrases ayant un sens vis à vis du système. Les systèmes de dialogue
auxquels nous nous intéressons sont ceux, tels les serveurs vocaux, fonctionnant sur une tâche
finalisée dans un domaine particulier. Dans ces systèmes, le langage est limité au domaine de
l’application et la sémantique est définie et restreinte. Afin de tenter d’améliorer la qualité de
la transcription et de se concentrer sur les zones porteuses de sens, nous proposons dans le
chapitre 5 un modèle de langage de niveau conceptuel assurant la correspondance mots/concept,
permettant d’enrichir l’espace de recherche de la meilleure transcription par des informations
utiles à la compréhension. Un processus de décodage y est présenté qui aboutit à une liste
structurée des N-meilleures interprétations possibles (i.e. ensemble de concepts) associées à leur
meilleure transcription qui ne sont pas redondantes pour le système du point de vue du sens
exprimé.
Il est primordial dans les systèmes de dialogue, à cause des erreurs fréquentes de reconnaissance, de
pouvoir diagnostiquer la qualité de cette reconnaissance afin de ne pas orienter le dialogue dans un
mauvais sens et d’éviter le mécontentement de l’utilisateur. Nous proposons dans le chapitre
6 différentes mesures de confiance applicables sur la sortie de reconnaissance. Ces mesures
faisant appel à différentes sources de connaissances, linguistiques, acoustiques ou sémantiques,
permettent de diagnostiquer la sortie du module de RAP à différents niveaux : mot, concept et
phrase.
Dans le chapitre 7 nous proposons une stratégie de validation de notre sortie de décodage (i.e. notre liste
structurée) basée sur des consensus de classifieurs automatiques entraînés sur les différentes
mesures de confiance présentées. Cette stratégie permet d’isoler des situations de confiance
permettant de guider le gestionnaire de dialogue dans les choix à effectuer pour la gestion du
dialogue.
Ce document est divisé en deux grandes parties.
La première partie propose un survol des notions qui gravitent autour des systèmes de dialogue oraux.
Après avoir présenté brièvement le fonctionnement de tels systèmes :
La seconde partie du document concerne les travaux réalisés durant cette thèse :
Les travaux présentés dans cette thèse, illustrations, expériences et résultats, sont en rapport avec des applications de dialogue oral homme-machine concrètes créées par France Télécom Recherche & Développement.