(In english below)
Mot clés : Informatique, Prosodie de la parole, Livres audio, Synthèse de la parole expressive, Apprentissage Automatique
Résumé:
Dans ces travaux de thèse nous abordons l'expressivité de la parole lue avec un type de données particulier qui sont les livres audio. Les livres audio sont des enregistrements audio d’œuvres littéraires fait par des professionnels (des acteurs, des chanteurs, des narrateurs professionnels) ou par des amateurs. Ces enregistrements peuvent être destinés à un public particulier (aveugles ou personnes malvoyantes). La disponibilité de ce genre de données en grande quantité avec une assez bonne qualité a attiré l'attention de la communauté scientifique en traitement automatique du langage et de la parole en général, ainsi que des chercheurs spécialisés dans la synthèse de parole expressive.
Pour explorer ce vaste champ d'investigation qui est l'expressivité, nous proposons dans cette thèse d'étudier trois entités élémentaires de l'expressivité qui sont véhiculées par les livres audio : l'émotion, les variations liées aux changements discursifs et les propriétés du locuteur. Nous traitons ces patrons d'un point de vue prosodique. Les principales contributions de cette thèse sont la construction d'un corpus de livres audio comportant un nombre important d'enregistrements partiellement annotés par un expert, une étude quantitative caractérisant les émotions dans ce type de données, la construction de modèles basés sur des techniques d'apprentissage automatique pour l'annotation automatique de types de discours et enfin nous proposons une représentation vectorielle de l'identité prosodique d'un locuteur dans le cadre de la synthèse statistique paramétrique de la parole.
English Version
Characterisation and generation of expressivity in function of speaking styles for audiobook synthesis
Keywords: Computer Science, Speech Prosody, Audiobook, Expressive Speech Synthesis, Machine Learning
Abstract
In this thesis, we study the expressivity of read speech with a particular type of data, which are audiobooks. Audiobooks are audio recordings of literary works made by professionals (actors, singers, professional narrators) or by amateurs. These recordings may be intended for a particular audience (blind or visually impaired people). The availability of this kind of data in large quantities with a good enough quality has attracted the attention of the research community in automatic speech and language processing in general and of researchers specialized in expressive speech synthesis systems.
We propose in this thesis to study three elementary entities of expressivity that are conveyed by audiobooks: emotion, variations related to discursive changes, and speaker properties. We treat these patterns from a prosodic point of view. The main contributions of this thesis are: the construction of a corpus of audiobooks with a large number of recordings partially annotated by an expert, a quantitative study characterizing the emotions in this type of data, the construction of a model based on automatic learning techniques for the automatic annotation of discourse types and finally we propose a vector representation of the prosodic identity of a speaker in the framework of parametric statistical speech synthesis.
- Yannick Esteve, Professeur à l’Université d’Avignon et des pays de Vaucluse
- Anne-Catherine Simon, Professeure à l’Université Catholique de Louvain
Examinateurs :
- Laurent Besacier, Professeur à l’Université Joseph Fourier
- Sylvie Gibet, Professeure à l’Université de Bretagne Sud
- Simon King, Professeur à l’Université d’Édimbourg
Directeur de thèse :
Damien Lolive, Maitre de Conférence-HDR à l’Université de Rennes 1,
Co-directeur de thèse :
Élisabeth Delais-Roussarie, Directrice de recherche CNRS-Univérsité de Nantes
Présidente du jury :
Sylvie Gibet, Professeure à l’Université de Bretagne Sud