Les données présentent des natures hétérogènes: textes, graphes et hiérarchies.
Dans cette thèse, nous traitons l'ensemble des manières de représenter ces trois types en tirant profit d'espaces géométriques adaptés à chacun.
Au départ, nous étudions les plongements de mots pour la représentation de textes et tentons d'évaluer leur qualité et de proposer des propriétés déterminant leur efficacité. L'enrichissement de ces plongements par des connaissances expertes nous permet de mieux traiter une tâche industrielle.
À partir de ce constat, nous cherchons d'autres moyens pour obtenir des connaissances structurées (hiérarchies) à partir de sources disponibles gratuitement (Linked Open Data) ou à partir d'informations à plat contenus dans des textes (induction de taxonomies) ou d'autre types de bases de données. Ces hiérarchies de connaissances sont représentés au mieux par des plongements hyperboliques, et nous proposons une nouvelle méthode de plongement dans ces espaces.
Le but est de limiter la perte d'information de la hiérarchie à l'espace continue, puis de déterminer une manière de combiner ces nouvelles connaissances dans les plongements de mots usuels.
- Alexandre Allauzen, Professeur, ESPCI, Dauphine Université PSL
- Elena Cabrio, Maître de conférences, Université Côte d’Azur
Examinateurs:
- Céline Hudelot, Professeure, CentraleSupélec - Laboratoire MICS
- Benjamin Piwowarski, Chargé de recherche, CNRS, LIP6, Paris
Encadrants:
- Guillaume Gravier, directeur de recherche, IRISA, CNRS
- Vincent Claveau, chargé de recherche, IRISA, CNRS
Invité:
- Cyrille Leroux, ingénieur, Solocal