Introduction

Depuis très longtemps, converser avec une machine est chose possible... dans les ﬁlms de science-ﬁction. Mais ceux qui travaillent à l’élaboration des méthodes qui rendent ce genre d’applications possibles ou les utilisateurs de ces systèmes se rendent compte que le jour où l’on pourra tenir une conversation ouverte avec un ordinateur n’est pas encore arrivé. Les méthodes actuelles comme la reconnaissance automatique de la parole (i.e. conversion d’un signal de parole en texte) et l’analyse en compréhension (i.e. extraction du sens à partir du texte) rendent possible un dialogue homme-machine, dans des circonstances bien particulières : milieu non bruité, vocabulaire réduit et surtout une sémantique restreinte.

Objet de la thèse

La reconnaissance automatique de la parole utilise le plus souvent une approche statistique ; qu’il s’agisse d’applications de dictée vocale ou de systèmes de dialogue. Mais dans le cas de dictée vocale, le langage parlé est similaire au langage écrit, les modèles de langage statistiques N-grammes utilisés peuvent donc être construits sur la base de corpus de taille conséquente (e.g. corpus journalistiques). Le langage utilisé dans des applications de dialogue est soumis aux caractéristiques du langage parlé naturel, c’est à dire la présence d’hésitations, de reprises, de fautes grammaticales, ainsi qu’à un vocabulaire bien spéciﬁque à l’application. Les modèles de langage pour ce genre d’applications doivent être établis sur la base de corpus spécialisés qui sont longs et coûteux à construire. Il en résulte des taux d’erreurs de reconnaissance assez élevés. Dans les applications de dialogue, l’objectif n’est pas de transcrire mais de comprendre le message porté par le signal. La transcription n’est qu’une étape intermédiaire nécessaire. La compréhension d’un message se fait par l’analyse de cette transcription, généralement par des grammaires sémantiques modélisant des relations entre les concepts élémentaires présents dans la phrase. Ces concepts élémentaires sont des mots ou des séquences de mots ayant un sens pour le système (e.g. lieu, date, prix, etc.). Or la transcription est eﬀectuée à l’aide de modèles acoustiques et linguistiques à contraintes réduites (N-grammes), ceci entraîne que le processus de reconnaissance peut générer des phrases hors-domaine. Si la transcription est utilisée pour établir la compréhension du message, la compréhension peut être utilisée pour guider le processus de transcription vers des phrases ayant un sens vis à vis du système. Les systèmes de dialogue auxquels nous nous intéressons sont ceux, tels les serveurs vocaux, fonctionnant sur une tâche ﬁnalisée dans un domaine particulier. Dans ces systèmes, le langage est limité au domaine de l’application et la sémantique est déﬁnie et restreinte. Aﬁn de tenter d’améliorer la qualité de la transcription et de se concentrer sur les zones porteuses de sens, nous proposons dans le chapitre 5 un modèle de langage de niveau conceptuel assurant la correspondance mots/concept, permettant d’enrichir l’espace de recherche de la meilleure transcription par des informations utiles à la compréhension. Un processus de décodage y est présenté qui aboutit à une liste structurée des N-meilleures interprétations possibles (i.e. ensemble de concepts) associées à leur meilleure transcription qui ne sont pas redondantes pour le système du point de vue du sens exprimé.
Il est primordial dans les systèmes de dialogue, à cause des erreurs fréquentes de reconnaissance, de pouvoir diagnostiquer la qualité de cette reconnaissance aﬁn de ne pas orienter le dialogue dans un mauvais sens et d’éviter le mécontentement de l’utilisateur. Nous proposons dans le chapitre 6 diﬀérentes mesures de conﬁance applicables sur la sortie de reconnaissance. Ces mesures faisant appel à diﬀérentes sources de connaissances, linguistiques, acoustiques ou sémantiques, permettent de diagnostiquer la sortie du module de RAP à diﬀérents niveaux : mot, concept et phrase.
Dans le chapitre 7 nous proposons une stratégie de validation de notre sortie de décodage (i.e. notre liste structurée) basée sur des consensus de classiﬁeurs automatiques entraînés sur les diﬀérentes mesures de conﬁance présentées. Cette stratégie permet d’isoler des situations de conﬁance permettant de guider le gestionnaire de dialogue dans les choix à eﬀectuer pour la gestion du dialogue.

Organisation du document

Ce document est divisé en deux grandes parties.
La première partie propose un survol des notions qui gravitent autour des systèmes de dialogue oraux. Après avoir présenté brièvement le fonctionnement de tels systèmes :

le premier chapitre présente le fonctionnement général d’un système de dialogue pour produire la transcription du signal de parole ;
le deuxième chapitre donne un aperçu du processus de compréhension de ce type de système basé sur l’analyse de la transcription.
le chapitre trois, présente les outils qui seront utilisés dans cette thèse pour mener nos travaux : les méthodes formelles de description d’un langage, les machines d’analyse associées que sont les automates à états ﬁni. Seront présentées également des méthodes de classiﬁcations textuelles utiles pour extraire des unités de sens à partir d’un texte.

La seconde partie du document concerne les travaux réalisés durant cette thèse :

le chapitre 5 détaille l’implémentation d’un modèle de langage conceptuel sous la forme d’un transducteur à états ﬁni qui permet d’inclure dans le processus de transcription des informations liées à la compréhension, ainsi que son utilisation lors d’un processus de décodage qui abouti à une liste structurée des N-meilleures hypothèses mots/interprétation qui existent dans le signal de parole ;
le chapitre 6 propose un panel de mesures de conﬁance faisant intervenir plusieurs sources de connaissances, acoustique, linguistique et sémantique permettant d’estimer la qualité du processus de reconnaissance.
nous proposons dans le chapitre 7 une stratégie basée sur les mesures présentées dans le chapitre précédent. Cette stratégie basée sur l’utilisation redondantes de classiﬁeurs permet de déterminer des situations de conﬁance en fonction desquelles le gestionnaire de dialogue peut determiner le choix à eﬀectuer pour la suite du dialogue.

Les travaux présentés dans cette thèse, illustrations, expériences et résultats, sont en rapport avec des applications de dialogue oral homme-machine concrètes créées par France Télécom Recherche & Développement.

[next] [prev] [prev-tail] [front] [up]