Méthodes neuronales pour le traitement de la parole : vers le démêlage des attributs de la voix.

Type de soutenance
Thèse
Date de début
Date de fin
Lieu
IRISA Rennes
Salle
PETRI TURING
Orateur
Olivier ZHANG (EXPRESSION)
Département principal
Sujet

Les récentes avancées de l'apprentissage profond ont mené à des résultats sans précédent dans une grande variété de tâches et de modalités. Un nombre grandissant de systèmes parvenant à des performances proches de l'humain en analyse (transcription, reconnaissance du locuteur) et en génération de la parole (conversion, synthèse vocale) sont proposés. De telles solutions émergent dans l'industrie, et commencent à atteindre le grand public. Cependant, la complexité et la taille grandissantes des réseaux de neurones induisent un manque important d'interprétabilité. De plus, les représentations profondes ne sont pas encouragées pour être structurées. C'est pourquoi l'apprentissage de représentations dites démêlées a fait son apparition, et a pour priorité la structuration des représentations apprises, en rapport avec les facteurs génératifs des données, et si possible alignées avec la perception humaine. Un tel paradigme a le potentiel pour reconnaître les attributs de la parole (identité du locuteur, émotion), pouvant alors être exploité dans la synthèse vocale. À noter que le démêlage est encore un domaine de recherche récent, nécessitant des données simples et synthétiques pour être développé. Ainsi, cette thèse vise à combler le fossé entre le traitement de la parole et le démêlage, en exploitant des modèles de démêlage à l'état de l'art pour identifier les attributs de la parole de manière automatique, et à terme améliorer le contrôle de la synthèse vocale.

ATTENTION dans le cadre du plan VIGIPIRATE la règle suivante s'applique pour cet évènement :
L’accès du public à cette soutenance est contraint à une inscription préalable obligatoire auprès de caroline [*] tanguyatinria [*] fr (damien[dot]lolive[at]irisa[dot]fr)  L’accès ne sera pas autorisé sans inscription préalable. Par ailleurs, les visiteurs ne porteront ni bagage ni sac.

Composition du jury
• Rapporteurs :
Benoît Favre, Professeur des universités, Université d’Aix-Marseille
Nicolas Obin, Maître de conférences, Sorbonne Université
• Examinateurs :
Nicholas Evans, Professeur des universités, EURECOM
Nicolas Obin, Maître de conférences, Sorbonne Université
Marie Tahon, Professeur des universités, Université du Mans
• Directeur de thèse :
Damien Lolive, Professeur des universités, Université de Rennes
• Co-encadrants :
Nicolas Gengembre, Orange Innovation
Olivier Le Blouch, Orange Innovation