CausIA

Publié le
Equipe
Date de début de thèse (si connue)
Octobre 2021
Lieu
Vannes, Campus de Tohannic
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse

En intelligence artificielle, dans de nombreux domaines d'applications, les méthodes d’apprentissage statistique ont démontré leur haut niveau de performance. Une des tâches souvent réalisée par ce type de méthodes consiste à étudier la dépendance/les associations statistiques entre variables afin de comprendre la relation qui existe entre ces variables explicatives et une variable d'intérêt et de prédire cette variable à partir de l'observation de nouveaux individus. Pour cette thèse, on souhaite évaluer les performances de méthodes d'apprentissage à travers l'angle de la causalité [Pearl 2009; Scholkopf 2019]. En effet, si la démarche d'inférence dispose d'un cadre formel et théorique éprouvé pour de nombreux contextes, les associations significatives d'un point de vue statistique ne sont pas forcément liées à des structures causales entre les variables. Ces questions se posent dans des domaines d'applications variés, notamment lors de l'analyse de données de recherche clinique ou en sciences sociales par exemple. Le développement de nouvelles technologies générant des données complexes, de grande dimension et où le plan d’expérience n’est pas contrôlé (données d’observations), donne un cadre nouveau pour l’inférence par approche causale. De plus, les caractéristiques des données disponibles (en terme de volume, de représentativité, de qualité, de format, de temporalité) compliquent le développement opérationnel de ce type de procédure d'extraction et de prédiction d'information à partir de données réelles.
C’est le cas en particulier des données d'observation de la Terre par télédétection, où les relations de causalité entre variables présentent un enjeu pour la compréhension des phénomènes environnementaux sous-jacents [Pérez-Suay et Camps-Valls 2019]. Une deuxième application concerne les données épidémiologiques, dans le cas d’une étude observationnelle avec deux groupes de patients recevant le traitement ou non [Dumas et al 2014]. L’objectif dans une analyse causale est de savoir si  la différence des valeurs observées de la variable d’intérêt (le décès) entre les individus « traités » et « non-traités » peut légitimement être attribuée à l’intervention.

Ainsi, motivés par les problématiques méthodologiques qui se posent pour l’analyse des données dans ce type de contexte, nous souhaitons pouvoir proposer des approches d’apprentissage automatique innovantes pour des problèmes d’inférences causales, dans le cas où la disponibilité des données est contrainte. Ce type d’analyse repose sur la possibilité de pouvoir comparer des distributions de probabilité de manière cohérente. Une des difficultés provient de la difficulté associée aux grandes dimensions mises en jeu (à la fois en terme de nombre de données ou de  nombre de variables disponibles). D’un point de vue technique, nous exploiterons notamment l’expertise reconnue de l’équipe [Courty et al., 2017, Vayer et al. 2019] dans le domaine de la théorie du transport optimal [Peyré et Cuturi 2019] pour proposer des modèles innovants dans un cadre de machine learning moderne.

Bibliographie

Judea Pearl (2009) Causal inference in statistics: An overview, tech. report in Statistics Surveys,Vol. 3, 96–146 DOI: 10.1214/09-SS057
Marc Höfler (2005) Causal inference based on counterfactuals, BMC medical research methodology, Vol. 5-28, doi:10.1186/1471-2288-5-28
Courty, N., Flamary, R., Tuia, D., and Rakotomamonjy, A. (2017) Optimal transport for domain adaptation. IEEE Transactions on Pattern Analysis and Machine Intelligence}, 39 (9): 1853–1865.

Vayer, T., Chapel, L., Flamary, R., Tavenard, R., and Courty, N. (2019) Optimal transport for structured data with application on graphs. ICML, pp.6275--6284

Bernhard Scholkopf (2019), Causality for Machine Learning, arXiv:1911.10500
Adrián Pérez-Suay and Gustau Camps-Valls (2019), Causal Inference in Geoscience and Remote Sensing From Observational Data, IEEE Transactions on geoscience and remote sensing, Vol 57 (3)
Gabriel Peyré & Marco Cuturi (2019). Computational optimal transport. Foundations and Trends® in Machine Learning, 11(5-6), 355-607.
Dumas, O., Siroux, V., Le Moual, N., & Varraso, R. (2014). Approches d’analyse causale en épidémiologie. Revue d'épidémiologie et de santé publique, Vol 62(1), 53-63.

Liste des encadrants et encadrantes de thèse

Nom, Prénom
COURTY Nicolas
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
UMR 6074

Nom, Prénom
FRIGUET Chloé
Type d'encadrement
Co-encadrant.e
Unité de recherche
UMR 6074

Nom, Prénom
GARES Valérie
Type d'encadrement
Co-encadrant.e
Unité de recherche
IRMAR
Contact·s
Mots-clés
apprentissage automatique / apprentissage statistique, inférence causale, apprentissage (peu ou pas) supervisé, applications environnementales et biomédicales