Home
Scientific Axes
Members
Publications
Software
Collaborations
Activity Report
Seminars
Positions





I - Activités de Recherche Print
Written by Israël-César LERMAN   
  [Retour] Formation, Enseignements et Emplois Occupés >>

 

I.1 – INTRODUCTION

Ma recherche porte sur le sujet de la Classification Automatique (Clustering) et plus généralement de l’Analyse Combinatoire et Statistique des données complexes (Combinatorial Data Analysis), pour l’extraction de connaissances et leur gestion. Ce sujet est au centre névralgique de ce que l’on appelle maintenant le “Data Mining” (“Fouille de Données”). Les experts en prospective du ‘‘Massachussets Institute of Technology’’ expriment qu’il s’agit de l’une des dix technologies émergentes du XXI-ème siècle (MIT Review 2001). Nos applications se situent de façon privilégiée dans le domaine des données de la Bioinformatique ; mais aussi, dans celui de l’Imagerie Numérique et du Traitement Automatique des Langues.

Signalons que le domaine de la Fouille des Données où notre sujet s’inscrit va de la conception des bases de données volumineuses jusqu’à la prise de décision, moyennant une visualisation adéquate de résultats synthétiques. Les plus récents domaines d’application sont la Bioinformatique, l’Imagerie Numérique et le Traitement Automatique des Langues Naturelles.

 

Deux axes animent notre recherche sur les plans formel et méthodologique :

  • Le premier concerne le développement d’une notion de similarité probabiliste de vraisemblance du lien (Probabilistic similarity of the likelihood of the link) qui s’adapte de façon très souple quelle que soit la complexité de la structure des données. Cette notion répond à la philosophie de la théorie de l’information ; mais au niveau des relations observées. Elle peut avoir un caractère symétrique pour refléter la notion d’équivalence ou un caractère dissymétrique pour refléter la notion d’implication. Les derniers travaux méthodologiques menés prennent bien en compte chacun de ces deux aspects.
  • Le deuxième axe de recherche concerne l’analyse formelle des structures de classification, l’étude des algorithmes d’obtention de ces structures et de la simplification de leur complexité. Deux autres axes sont intimement imbriqués avec les deux précédents : Le premier d’entre eux concerne l’aspect logiciel et le second, correspond à une contribution significative à l’analyse classificatoire des données issues du monde réel et faisant progresser les disciplines scientifiques concernées.


I. 2 – TRAVAUX RÉCENTS OU EN COURS

Commençons par mentionner le domaine de la Bioinformatique. Nous avons en effet déjà contribué à l’analyse de données issues de la Génomique (Classification de séquences protéiques) et nous allons continuer à beaucoup nous y intéresser dans le cadre du projet Symbiose et en collaboration avec diverses unités de recherche. Cela sera d’abord dans le cadre de la préparation de la thèse de Sébastien Tempel où l’usage de la Classification Ascendante Hiérarchique (programme CHAVL) a permis d’organiser et de caractériser des familles particulières de séquences d’ADN qu’on appelle ‘ « les éléments transposables » et cela, à partir de la notion de domaine qui est une suite connexe et identifiable de nucléotides.

Signalons également en Traitement Automatique des Langues, le très beau travail de Mathias Rossignol (thèse soutenue, voir ci-dessous) sur l’acquisition d’informations lexicales dans des corpus spécialisés, où nos méthodes de classification ont constitué une étape première essentielle et ont contribué de façon décisive à la détermination de classes sémantiques dans le cadre d’une théorie linguistique.

Nous adressons le problème de la segmentation d’images au moyen de la Classification Ascendante Hiérarchique sous une contrainte définie par un graphe de contiguïté. Ces travaux sont menés depuis quelques années en collaboration avec Kaddour Bachar (ESSCA, Angers) et Gérard Douaire (Agrocampus, Rennes). Deux paramétrages fondamentaux sont à considérer : le critère de fusion des classes et l’algorithmique. Des résultats importants ont été obtenus aussi bien sur le plan théorique qu’expérimental. Ces travaux doivent être poursuivis pour un temps encore.

Revenons à la Bioinformatique mais par rapport à la discrimination de classes de séquences protéiques établies. La recherche d’un langage de discrimination à partir de la théorie des automates (travaux de François Coste et de Goulven Kerbellec) a conduit à l’usage qui s’est avéré fécond d’un indice d’implication statistique que nous avions par ailleurs très récemment élaboré. Cette recherche est amenée à se poursuivre.

Nous avons mené ces dernières années des travaux très significatifs d’une part, sur les mesures probabilistes d’intérêt d’une règle d’association et d’autre part, sur l’analyse des structures implicatives. Les chercheurs avec qui ou par rapport à qui nous avons travaillé dans cette thématique sont d’abord Jérôme Azé (Laboratoire de Recherche en Informatique, Université de Paris Sud) et également, Régis Gras et Pascale Kuntz du LINA (Laboratoire d’Informatique de Nantes, École Polytechnique de l’Université de Nantes).

I.3 – ASPECT LOGICIEL

Nos méthodes ont donné lieu à un développement important de programmes informatiques. Contentons nous de citer au titre de la Classification Ascendante Hiérarchique les deux programmes les plus importants :

 
  • CHAVL (Classification Hiérarchique par Analyse de la Vraisemblance des Liens)
  • AVARE (Association entre VAriables RElationnelles)

 

 

Pour ce qui est de la Classification non Hiérarchique nous citerons :

  • MPATD (Méthode des Pôles d’Attraction Traitant les Distances)

 

Ces programmes sont écrits selon des normes très rigoureuses du club Modulad (Club francophone d’analyse des données). Nous cherchons actuellement à mieux diffuser cette facette logicielle localement et internationalement. CHAVL est un programme qui a été très utilisé et qui continue de l’être, surtout dans un contexte local (Irisa - Rennes) et régional (Lina - Nantes). La notice d’utilisation vient d’être réactualisée pour une toute nouvelle version intitulée CHAVLH. Cette nouvelle version intègre la classification d’un ensemble d’objets décrits par un mélange de variables hétérogènes. Nous avons actuellement le souci d’une diffusion normalisée ; d’abord au niveau local, ce qui correspond à une installation du programme sur la plateforme de Génopôle Ouest, après un dépôt concrétisé en 2005 à l’APP (Agence de Protection des Programmes). Pour ce qui est de la diffusion internationale, une version ergonomique est en préparation pour inscrire le programme dans un nouvel environnement défini par le logiciel libre R. Ces derniers travaux sont effectués en très étroite collaboration avec Philippe Peter (Lina, École Polytechnique de l’Université de Nantes). L’expérience acquise sera essentielle pour une intégration dans le projet européen ACGT (Advancing Clinico-Genomic Clinical Trials on Cancer) où le projet SYMBIOSE est impliqué.
 
 
Next >

Symbiose Project Team - INRIA/Irisa © 2007 - 2008