logo irisa

Syntaxe, raisonnement et génomes
Jacques Nicolas

 

Habilitation à Diriger des Recherches

Irisa - 13 mai 2008

 

 

image_A-benveniste Syntaxe, raisonnement et génomes
Jacques Nicolas , directeur scientifique du projet Symbiose

Résumé:
J’ai travaillé sur les problèmes de modélisation du vivant avec l’hypothèse fondamentale qu’il s’agit de machines symboliques et la volonté d’aider le chercheur en biologie à traiter avec le bon niveau d’abstraction ces machines.
Le cœur de mes travaux considère les ensembles de séquences que forment les macromolécules du vivant comme des langages formels et cherche à approfondir les concepts nécessaires pour mener à bien leur analyse linguistique.

Il faut tout d’abord étudier le contenu lexical des séquences génomiques, son vocabulaire. Au niveau élémentaire, les facteurs répétés fournissent les unités de sens de la séquence. Cependant, la notion naturelle de répétition dans l'ADN est beaucoup plus complexe et nécessite à la fois d'être formalisée et d'être accompagnée d'une algorithmique de recherche spécialisée. J’ai particulièrement développé cet aspect dans l’étude d’éléments génétiques mobiles à l’intérieur d’un génome ou entre deux génomes.
J’ai également travaillé sur le niveau syntaxique, ce qui a mené à l’élaboration d’un langage, Logol, qui permet au biologiste de construire un modèle grammatical hypothétique puis de le tester sur des séquences génomiques. Le langage défini autorise en particulier une notion de variable de chaîne avec une face abstraite qui représente la chaîne d'origine et une face concrète pour les différentes instances copies de cette chaîne d'origine. Ce cadre a été validé sur plusieurs problèmes biologiques de recherche de protéines ou d’éléments génétiques, dont la découverte de récepteurs olfactifs chez le chien et la découverte de défensines humaines.
Lorsqu’aucun modèle n’est disponible, il faut tenter de l’inférer à partir d’exemples de séquences. J’ai lancé une série de recherches tant théoriques que pratiques sur ce thème. Au niveau théorique, le problème difficile de l’inférence de grammaires algébriques a été abordé à partir d’ordres partiels sur les non-terminaux ou les arbres de dérivation. La classe mieux maîtrisable des langages réguliers a fait l’objet des travaux les plus approfondis, sur une représentation par automates d'états finis. L’inférence devient alors un problème d’optimisation par gestion d’un ensemble de contraintes dynamiques sur les équivalences d’états. Du point de vue pratique, nous avons tout particulièrement étudié ces problèmes d’inférence sur des séquences de protéines, par exemple en étudiant la prédiction de certaines liaisons (ponts disulfures) entre des sites distants sur la séquence.
Enfin, je propose à la fin de mon document d’habilitation un projet pour aborder de façon plus transdisciplinaire la modélisation du vivant en tant que machine symbolique. Les questions que pose la biologie, science expérimentale par excellence, s’expriment majoritairement en termes de raisonnement hypothétique. Je propose de mener des recherches en vue de la mise au point d’un assistant d’expérimentation biochimique sur puce sur cultures cellulaires. Le but global est le développement d’un environnement permettant de relier en boucle expérimentation, observations et acquisition de connaissances, en utilisant un système complet de raisonnement automatique (apprentissage abductif et  inductif et planification).

Accès aux transparents (pdf) ; l'exposé [49:12]

La page des HDR enregistrées depuis 2001 est accessible ici

retour vers la vidéothèque de l'Irisa

(c) Pôle audiovisuel de l'Irisa