Représentation des mots et des connaissances: construction, utilisation et évaluation des plongements euclidiens et hyperboliques

Defense type
Thesis
Starting date
End date
Location
IRISA Rennes
Room
Markov
Speaker
François TORREGROSSA (LinkMedia)
Theme

Les données présentent des natures hétérogènes: textes, graphes et hiérarchies.

Dans cette thèse, nous traitons l'ensemble des manières de représenter ces trois types en tirant profit d'espaces géométriques adaptés à chacun.

Au départ, nous étudions les plongements de mots pour la représentation de textes et tentons d'évaluer leur qualité et de proposer des propriétés déterminant leur efficacité. L'enrichissement de ces plongements par des connaissances expertes nous permet de mieux traiter une tâche industrielle.

À partir de ce constat, nous cherchons d'autres moyens pour obtenir des connaissances structurées (hiérarchies) à partir de sources disponibles gratuitement (Linked Open Data) ou à partir d'informations à plat contenus dans des textes (induction de taxonomies) ou d'autre types de bases de données. Ces hiérarchies de connaissances sont représentés au mieux par des plongements hyperboliques, et nous proposons une nouvelle méthode de plongement dans ces espaces.

Le but est de limiter la perte d'information de la hiérarchie à l'espace continue, puis de déterminer une manière de combiner ces nouvelles connaissances dans les plongements de mots usuels.

Composition of the jury
Rapporteurs:
- Alexandre Allauzen, Professeur, ESPCI, Dauphine Université PSL
- Elena Cabrio, Maître de conférences, Université Côte d’Azur

Examinateurs:
- Céline Hudelot, Professeure, CentraleSupélec - Laboratoire MICS
- Benjamin Piwowarski, Chargé de recherche, CNRS, LIP6, Paris

Encadrants:
- Guillaume Gravier, directeur de recherche, IRISA, CNRS
- Vincent Claveau, chargé de recherche, IRISA, CNRS

Invité:
- Cyrille Leroux, ingénieur, Solocal