Apprentissage Actif de Données Incertaines et Imprécises

Publié le
Equipe
Date de début de thèse (si connue)
Septembre 2021
Lieu
Lannion
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse

Aujourd'hui l'intelligence artificielle est présente dans de nombreux domaines, notamment via les algorithmes d'apprentissage automatique. Afin d'induire des connaissances de façon optimale, ces derniers nécessitent une quantité massive de données correctement renseignées. Il n'est cependant pas toujours possible d'obtenir de telles données pour des raisons sociales, économiques mais aussi de plus en plus écologiques. De plus, les données disponibles sont souvent issues de contributions humaines et comportent des imperfections difficiles à prendre en compte dans les processus d'apprentissage actuels.
Le sujet proposé s'intègre dans le contexte de l'apprentissage machine et se propose de relever des défis liés à la difficulté de l'apprentissage des algorithmes avec peu de données et des données imparfaitement étiquetées.
Les finalités de ce doctorat sont donc multiples :
1/ modéliser les imperfections des données par la théorie des fonctions de croyance qui permet de prendre en compte l'incertitude et l'imprécision des contributions humaines ;
2/ définir un modèle crédibiliste d'apprentissage sur un nombre limité de données étiquetées de façon incertaine et imprécise, en vue d'une utilisation semi-supervisée. Ce modèle sera employé dans le cadre de l'apprentissage actif, en définissant les meilleures approches de sélection de ce type de données ;
3/ valider l'approche proposée à l'aide de campagnes de tests sur des plateformes de crowdsourcing et établir des points de comparaison avec des modèles existants. L'approche proposée pourra être mise en œuvre au sein de l'outil développé pour l'ANR Headwork.
Réduire l'impact écologique de l'apprentissage machine sans dégrader la qualité des résultats, est particulièrement porteur car alors même que cela constitue un enjeu crucial de l'apprentissage, ce point est peu traité dans la littérature. Plusieurs applications peuvent être envisagées, notamment à long terme dans le domaine de la pédagogie et de l'acquisition de connaissances des étudiants. Il s'inscrit naturellement dans le développement des usages numériques responsables en visant à limiter les volumes de données stockées.

Bibliographie

L'apprentissage actif est un modèle d'apprentissage semi-supervisé au cours duquel l'apprenant demande des exemples de manière itérative auprès d'une personne dans l'objectif d'optimiser sa progression [1-2]. Ce mode d'apprentissage peut, par exemple, être employé pour proposer dans une formation les notions sur lesquelles l'apprenant doit prioritairement se concentrer. Cette méthode est notamment intéressante lorsque peu de données sont renseignées pour l'apprentissage. En effet, disposer d'un grand nombre d'exemples avec des données parfaitement étiquetées est coûteux. De plus, dans la plupart des applications des algorithmes d'apprentissage,  l'étiquetage des données, est réalisé par des personnes avec des niveaux inégaux de qualité.
Ainsi, le recueil de ces données étiquetées se fait souvent à partir de plateformes de crowdsourcing, en faisant appel à une foule de contributeurs [3-4] et l'apprentissage à partir de ces données ne doit pas se faire sans une évaluation de la qualité des données [5]. Des interfaces permettant d'augmenter le pouvoir d'expressivité des contributeurs en intégrant les imperfections inhérentes aux contributions humaines ont été proposées [6]. Nous distinguons ici deux types d'imperfection : l'incertitude liée au fait que la personne ne puisse garantir l'information qu'il donne, et l'imprécision permise à la personne dans sa réponse. La personne peut ainsi fournir plusieurs réponses en cas d'hésitation.
L'objectif de cette thèse est de répondre simultanément à deux problèmes : celui de la faible quantité de données et celui des données renseignées de façon incertaine et imprécise. L'approche envisagée est celle de développer un algorithme d'apprentissage actif reposant sur des données étiquetées de façon imparfaite. Les données imparfaites prises en compte par cet algorithme seront modélisées par la théorie des fonctions de croyance [7-10] qui permet de modéliser à la fois l'incertitude des contributeurs et leur imprécision.
Le principe de la théorie des fonctions de croyance repose sur la croyance élémentaire que la personne peut porter sur une donnée à étiqueter. Comme pour une probabilité, cette croyance élémentaire peut s'exprimer par une valeur entre 0 et 1 qui peut être traduite dans un questionnaire de crowdsourcing par une échelle ordonnée ou un curseur. A la différence des probabilités, la normalisation ne se fait pas sur l'ensemble possible des réponses (le cadre de discernement), mais sur toutes les disjonctions du cadre de discernement. Ainsi une croyance élémentaire de 1 sur une étiquette particulière représente une certitude ; une croyance élémentaire de 1 sur un ensemble d'étiquettes représente une imprécision ; une croyance élémentaire de 1 sur l'ensemble de toutes les étiquettes possibles représente l'ignorance.
Les algorithmes d'apprentissage reposent généralement sur des approches d'optimisation avec l'objectif d'attribuer une et une seule étiquette à une nouvelle donnée. C'est en particulier le cas pour les algorithmes de réseaux de neurones ou deep learning, et les machines à vecteurs de support. Il existe assez peu d'algorithmes permettant de considérer des données incertaines. Ils reposent en général sur une modélisation probabiliste [11]. De même, peu d'approches d'apprentissage considèrent des données imprécises, modélisées par des approches floues ou possibilistes [12].
A partir de la théorie des fonctions de croyance, nous développerons une approche d'apprentissage sur des données étiquetées de façon incertaine et imprécise. Dans le cadre de la théorie des fonctions de croyance, peu de travaux ont abordé le sujet. Un modèle général a d'abord été proposé [13] puis appliqué [14] à partir d'un algorithme EM [15]. En marge de ces travaux, on peut noter des travaux plus récents qui permettent de considérer des données non complètement renseignées [16].
Ce modèle crédibiliste sera intégré dans une approche d'apprentissage actif de façon à construire de façon collaborative avec l'apprenant, ou un ensemble d'apprenants, les données étiquetées sur le domaine d'étude considéré.
Le sujet proposé se déroulera en plusieurs étapes. Une étude de l'état de l'art permettra tout d'abord de se former sur les algorithmes d'apprentissage actif [1-2], de maîtriser la théorie des fonctions de croyance ainsi que de prendre connaissance des classifieurs permettant de réaliser un apprentissage à partir d'étiquettes incertaines et/ou imprécises [11-15].
Le travail consistera ensuite à définir un modèle crédibiliste d'apprentissage sur des données étiquetées de façon incertaine et imprécise, en vue d'une utilisation semi-supervisée.  Ce modèle sera employé dans le cadre de l'apprentissage actif, en définissant les meilleures approches de sélection de données.

[1] Alexis Bondu, Vincent Lemaire. État de l'art sur les méthodes statistiques d'apprentissage actif, In AAFD, vol. RNTI-A-2, pp.207-226, 2008.
[2] Burr Settles, Active Learning Literature Survey, Computer Sciences Technical Report 1648, University of Wisconsin–Madison, 2010.
[3] Aniket Kittur, Jeffrey V. Nickerson, Michael S. Bernstein, Elizabeth M. Gerber, Aaron Shaw, John Zimmerman, Matthew Lease, and John J. Horton. The Future of Crowd Work. 16th ACM Conference on CSCW'13, USA, 2013.
[4] https://www.foulefactory.com/
[5] J. Zhang, X. Wu, and V. S. Sheng, “Learning from crowdsourced labeled data: A survey,” Artificial Intelligence Review,  46(4): 543–576, 2016.
[6] Constance Thierry, Gery Casiez, Jean-Christophe Dubois, Yolande Le Gall, Sylvain Malacria, Arnaud Martin and Thomas Pietrzak. Interface de recueil de données imparfaites pour le crowdsourcing. Atelier Humains et IA, travailler en intelligence. EGC 2020, Bruxelles, 2020.
[7] Arthur P. Dempster. Upper and Lower probabilities induced by a multivalued mapping. Annals of Mathematical Statistics, 38:325–339, 1967.
[8] G. Shafer. A mathematical theory of evidence. Princeton University Press, 1976.
[9] Philippe Smets. Imperfect information: Imprecision - Uncertainty. In A. Motro and Philippe Smets, editors, Uncertainty Management in Information Systems, pages 225–254. Kluwer Academic Publishers, 1997.
[10] Arnaud Martin. About conflict in the theory of belief functions. In International Conference on Belief Functions, France, 2012.
[11] L. Devroye, L. Gyorfi, and G. Lugosi. A probabilistic theory of pattern recognition. Springer-Verlag, New-York, 1996.
[12] E. Hüllermeier, Learning from imprecise and fuzzy observations: Data disambiguation through generalized loss minimization, International Journal of Approximate Reasoning, 55(7), 2014.
[13] T. Denoeux and P. Smets. Classification using Belief Functions: the Relationship between the Case-based and Model-based Approaches, IEEE Transactions on Systems, Man and Cybernetics B , 36(6): 1395-1406, 2006.     
[14] E. Côme, L. Oukhellou, T. Denoeux and P. Aknin. Learning from partially supervised data using mixture models and belief functions. Pattern Recognition,42(3) :334–348, 2009.
[15] A. P. Dempster, N. M. Laird, D. B. Rubin, Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society B 39: 1-38, 1977.
[16] Z.-G. Liu, Q. Pan, J. Dezert, and A. Martin, Adaptive imputation of missing values for incomplete pattern classification, Pattern Recognition,  52: 85-95, 2016.

Liste des encadrants et encadrantes de thèse

Nom, Prénom
Arnaud Martin
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
IRISA

Nom, Prénom
Jean-Christophe Dubois
Type d'encadrement
Co-encadrant.e
Unité de recherche
IRISA

Nom, Prénom
Yolande Le Gall
Type d'encadrement
Co-encadrant.e
Unité de recherche
IRISA
Contact·s
Mots-clés
Apprentissage actif – Données incertaines et imprécises – Fonctions de croyance