D7 - Gestion des données et de la connaissance

Responsable
Anne SIEGEL (Directrice de recherche CNRS)
Description

GESTION DES DONNÉES ET DE LA CONNAISSANCE (DKM - D7)

Le département DKM se concentre sur la modélisation, la gestion et l'exploration des données par l'exploitation des relations entre les données et les connaissances. Notre objectif est donc la production explicable de connaissances sémantiquement riches à partir d'ensembles de données complexes (interdépendantes, non structurées, déséquilibrées) fournies par des domaines d'application (biologie, environnement ou industrie).

Notre recherche est appliquée à des ensembles de données interdépendants, hétérogènes, incomplets et déséquilibrés dans les domaines de la biologie moléculaire, de l'environnement, de la pharmacovigilance et de la santé, des campagnes de crowdsourcing ouvertes et des systèmes d'exploitation à grande échelle.

Une des caractéristiques du département est donc le niveau important de collaborations interdisciplinaires : le département accueille, en tant que membres associés, des chercheurs et des ingénieurs de l'INSERM, de l'INRAE et de l'institut Agro et est impliqué dans des projets applicatifs à long terme soutenus par le PIA (#DigitAg, Idealg, ...).

Un objectif commun du département est donc de garantir l'exactitude et la validité des résultats des méthodes que nous développons. À cette fin, nous fournissons des indicateurs de fiabilité, afin de donner aux utilisateurs la possibilité d'élucider comment et pourquoi les données ont été analysées :

  • L'explicabilité est rendue possible en fournissant des schémas d'explications ou des algorithmes basés sur des structures formelles (modèles, concepts formels, programmes logiques, grammaires...).
  • L'exhaustivité et/ou la représentativité sont obtenues en rapportant toutes les solutions aux tâches de gestion des données que nous envisageons, et en tenant compte des caractéristiques intrinsèques des ensembles de données (incertitude, événements rares).

Pour atteindre cet objectif, notre originalité est d'enrichir les méthodes d'analyse et de gestion des données par des approches basées sur la connaissance et le raisonnement. Notre stratégie consiste à tirer parti des technologies du Web sémantique et des structures de données dédiées afin de s'appuyer sur les connaissances a priori sur le domaine et la structure de l'expert, d'homogénéiser puis de faciliter l'exploration des données.

  • DRUID (Databases, privacy, belief functions), développe des modèles et des algorithmes pour la gestion de données incertaines, générées par l'utilisateur et interconnectées, en abordant y compris les questions de préservation de la vie privée.
  • DYLISS (Bioinformatique, Web sémantique, raisonnement automatique, biologie des systèmes) développe des  approches basées sur les langages et requêtes pour la représentation et l'intégration de données hétérogènes dans les sciences du vivant.
  • GENSCALE (Bioinformatique, structures de données, algorithmique des séquences) développe des structures de données et des algorithmes efficaces pour l'analyse des données génomiques à grande échelle.
  • LACODAM (Data-mining, machine learning) développe des approches d'exploration de données et d'apprentissage pour l'aide à la décision et la production de connaissances. La plupart des approches proposées contribuent au domaine de l'IA interprétable.
  • SemLIS (Semantic Web, data mining, Natural Language Processing) développe des méthodes symboliques pour l'extraction et l'acquisition de connaissances, ainsi que pour l'exploration et l'interrogation interactives et centrées sur l'utilisateur de bases de connaissances.
  • SHAMAN (Bases de données, raisonnement automatisé, représentation des connaissances, Web sémantique, confidentialité) conçoit des systèmes de gestion efficaces, flexibles et fiables des bases de données et de connaissances.