Apprentisage machine en bases de données orientées graphe

Publié le
Equipe
Date de début de thèse (si connue)
October 2023
Lieu
Rennes
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse

Un cas particulier de bases de données sont les bases de données orientées graphe, comme par exemple Neo4J.  Une part croissance des données contemporaines s'expriment plus naturellement sous forme de graphe : réseaux de transports, réseaux sociaux, graphe de connaissances, etc. Malheureusement, le cadre classique des bases de données relationnel n'est pas le mieux adapté pour leur gestion. Formellement, le langage SQL n'est pas capable d'exprimer le parcours non borné d'un graphe, et les choix de stockages physiques ne sont pas optimisés pour le parcours de graphes.

L'apprentissage machine est également pertinent pour les graphes : on cherchera à décomposer un grand graphe sous la forme de communautés (analyse de réseaux sociaux), à prédire des temps de parcours (réseaux de transports), où à prédire l'apparition de lien.

Cependant, les bases de données et l'apprentissage machine sont deux domaines de recherche distincts. Le premier s'intéresse à la représentation, l'interrogation, le stockage des données. Le second s'attache à proposer des modèles prédictifs à partir d'un jeu de données. Récemment, plusieurs travaux cherchent à intégrer les deux approches pour les bases de données relationnelles, en tentant d'exprimer les primitives d'apprentissage en terme de requêtes de bases de données, afin de profiter de l'avantage de ces deux mondes.

L'objectif de cette projet est de proposer une approche intégrée d'apprentissage de graphes, au sein d'une base de données elle-même orientée graphe. On cherchera par exemple à optimiser le calcul d'une primitive d'apprentissage en passant directement par le moteur d'évaluation de requêtes, plutôt que par une matérialisation externe des données comme dans les analyses basées sur Python. On pourra également fournir des outils d'assistance à l'apprentissage machine en utilisant en amont les connaissances sur le graphe.

Bibliographie

[CWL+22] C. Chai, J. Wang, Y. Luo, Z. Niu, and G. Li. Data management for machine learning : A survey.
IEEE Transactions on Knowledge & Data Engineering, (01) :1–1, feb 2022.
[KNN+20] Mahmoud Abo Khamis, Hung Q. Ngo, Xuanlong Nguyen, Dan Olteanu, and Maximilian Schleich.
Learning models over relational data using sparse tensors and functional dependencies. ACM
Trans. Database Syst., 45(2), jun 2020.
[KR18] Benny Kimelfeld and Christopher Ré. A relational framework for classifier engineering. ACM
Trans. Database Syst., 43(3), oct 2018.
[Olt20] Dan Olteanu. The relational data borg is learning. Proc. VLDB Endow., 13(12) :3502–3515, aug
2020.
[Sch21] Maximilian Schleich. Structure-aware machine learning over multi-relational databases. In Pro-
ceedings of the 2021 International Conference on Management of Data, SIGMOD ’21, page 6–7,
New York, NY, USA, 2021. Association for Computing Machinery

Liste des encadrants et encadrantes de thèse

Nom, Prénom
David Gross-Amblard
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
IRISA
Equipe

Nom, Prénom
Zoltan Miklos
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
IRISA
Equipe
Contact·s
Nom
David Gross-Amblard
Email
dga@irisa.fr
Nom
Zoltan Miklos
Email
zoltan.miklos@irisa.fr
Mots-clés
bases de données graphe, machine learning