Introduction
Un système de dialogue oral, est un système informatique qui répond à un service. Le demandeur du
service est un utilisateur humain, et le système doit interagir avec cet utilisateur comme aurait
pu le faire un être humain ou du moins le plus naturellement possible. La communication
est orale. Le système doit alors comprendre le sens des paroles de l’utilisateur, trouver une
réponse et lui communiquer oralement. La majorité des systèmes de dialogue de ce type gère ce
processus de manière séquentielle en enchaînant l’appel à des modules spécialisés dans le
traitement des diverses tâches nécessaires pour la réalisation de ce processus. La figure 1 illustre le
traitement opéré par un système de dialogue. Dans ce traitement, on peut comptabiliser 4
modules :
- Le module de transcription : le processus de compréhension de la parole de l’être humain
est complexe. Les systèmes informatiques qui tentent de le reproduire font ce processus en 2
étapes. Ils tentent tout d’abord de générer une transcription et ensuite effectue une analyse
textuelle de cette transcription pour en trouver un sens. Le module de transcription ou
de reconnaissance de la parole (RAP), assure le passage du signal de parole à une version
textuelle du message utilisateur. Le fonctionnement de ce module sera décrit plus en détail
dans le chapitre 1 ;
- le module de compréhension : il se base sur la transcription générée par le module
précédent pour trouver un sens aux paroles de l’utilisateur. Il doit alors mettre en œuvre
des méthodes permettant de passer des mots au sens. Dans un premier temps, il fait une
association mots/concepts et à partir des concepts, ainsi que de la connaissance du dialogue
en cours construit une représentation sémantique qui sera exploitée par le gestionnaire de
dialogue. Son fonctionnement sera détaillé dans le chapitre 2 ;
- le gestionnaire de dialogue : il est chargé d’assurer le bon déroulement de la
conversation. Il se base sur les interprétations sémantiques fournies par le module de
compréhension et l’historique du dialogue pour prendre les décisions sur l’action à
entreprendre. L’action peut être d’interroger une base de données si l’utilisateur a émis
une requête, ou bien de demander à l’utilisateur de répéter si le système ne comprend pas
l’énoncé de l’utilisateur. Le travail présenté dans cette thèse ne s’intéresse pas à ce niveau
du traitement, pour plus de détails voir par exemple [Sadek et De Mori, 1998] ;
- le module de synthèse de parole : le synthétiseur de parole doit transformer la réponse
textuelle générée par le gestionnaire de dialogue en signal de parole afin de converser
oralement avec l’utilisateur de manière naturelle. Cette partie ne rentre pas dans les
considérations de cette thèse, pour plus d’informations voir [Sorin et De Mori, 1998].