Introduction

Un système de dialogue oral, est un système informatique qui répond à un service. Le demandeur du service est un utilisateur humain, et le système doit interagir avec cet utilisateur comme aurait pu le faire un être humain ou du moins le plus naturellement possible. La communication est orale. Le système doit alors comprendre le sens des paroles de l’utilisateur, trouver une réponse et lui communiquer oralement. La majorité des systèmes de dialogue de ce type gère ce processus de manière séquentielle en enchaînant l’appel à des modules spécialisés dans le traitement des diverses tâches nécessaires pour la réalisation de ce processus. La ﬁgure 1 illustre le traitement opéré par un système de dialogue. Dans ce traitement, on peut comptabiliser 4 modules :

Le module de transcription : le processus de compréhension de la parole de l’être humain est complexe. Les systèmes informatiques qui tentent de le reproduire font ce processus en 2 étapes. Ils tentent tout d’abord de générer une transcription et ensuite eﬀectue une analyse textuelle de cette transcription pour en trouver un sens. Le module de transcription ou de reconnaissance de la parole (RAP), assure le passage du signal de parole à une version textuelle du message utilisateur. Le fonctionnement de ce module sera décrit plus en détail dans le chapitre 1 ;

le module de compréhension : il se base sur la transcription générée par le module précédent pour trouver un sens aux paroles de l’utilisateur. Il doit alors mettre en œuvre des méthodes permettant de passer des mots au sens. Dans un premier temps, il fait une association mots/concepts et à partir des concepts, ainsi que de la connaissance du dialogue en cours construit une représentation sémantique qui sera exploitée par le gestionnaire de dialogue. Son fonctionnement sera détaillé dans le chapitre 2 ;

le gestionnaire de dialogue : il est chargé d’assurer le bon déroulement de la conversation. Il se base sur les interprétations sémantiques fournies par le module de compréhension et l’historique du dialogue pour prendre les décisions sur l’action à entreprendre. L’action peut être d’interroger une base de données si l’utilisateur a émis une requête, ou bien de demander à l’utilisateur de répéter si le système ne comprend pas l’énoncé de l’utilisateur. Le travail présenté dans cette thèse ne s’intéresse pas à ce niveau du traitement, pour plus de détails voir par exemple [Sadek et De Mori, 1998] ;

le module de synthèse de parole : le synthétiseur de parole doit transformer la réponse textuelle générée par le gestionnaire de dialogue en signal de parole aﬁn de converser oralement avec l’utilisateur de manière naturelle. Cette partie ne rentre pas dans les considérations de cette thèse, pour plus d’informations voir [Sorin et De Mori, 1998].

Figure 1:

Architecture générale d’un système de dialogue