Ecole Chercheurs en Bio-Informatique
Liffré - 2 au 4 novembre 2005

Cette troisième édition de l'Ecole Chercheurs a eu pour sujet la BIO-INFORMATIQUE.

 

Pour lire les présentations audio/vidéo vous devez disposer de RealPlayer.Vous pouvez télécharger une version gratuite sur le site de Real.
Pour les présentations multimédias : Pôle audiovisuel de l'Irisa

 

Les exposés scientifiques

Algorithmes de recherche de motifs dans les séquences
Jacques Nicolas, chargé de recherche à l'INRIA - chef du projet Symbiose à l'IRISA
1ère partie: vidéo [1h:26mn]
2ème partie:
vidéo [1h:24mn]
Transparents pdf


Résumé :
Les macromolécules biologiques, qu'il s'agisse de l'ADN des chromosomes, d'ARN ou de protéines peuvent être considérées en première approximation comme des textes structurés. On y retrouve en particulier un certain nombre de motifs caractéristiques d'une fonction, d'une structure ou d'une activité qui correspondent à des ensembles de mots et donc des langages. Nous proposons d'explorer quelques problèmes de reconnaissance de motifs dans ces séquences, depuis la "simple" recherche de mots exactement présents, jusqu'à la reconnaissance de structures complexes comme les pseudo-noeuds, qui correspondent à des langages non algébriques. Nous terminons par la présentation de deux problèmes de recherche que nous traitons dans l'équipe : celui de la reconstitution ciblée de séquences à partir de fragments, et celui de l'analyse syntaxique dans les génomes.

Livres associés :
D. Gusfield. Algorithms on strings, trees and sequences. Cambridge University Press, 1997.
G. Navarro and M. Raffinot. Flexible pattern matching in strings. Cambridge University Press, 2002.
Introduction à la découverte de motifs en biologie moléculaire suivi de Découverte de motifs
François Coste, chargé de recherche à l'INRIA, au sein du projet Symbiose à l'Irisa
1ère partie: audio ; vidéo [1h:15mn]
2ème partie: vidéo [1h:25mn]

Transparents pd
f

Résumé :
L'exposé précédent présente la problématique de la recherche de motifs dans une séquence. Ces motifs sont souvent définis par un expert, éventuellement à l'aide d'alignements multiples. Dans cet exposé, nous présenterons les principales méthodes d'apprentissage automatique de motifs caractéristiques d'une famille de séquences biologiques.
Mots-clés : Apprentissage, Séquence, Motifs



Alignement des séquences biologiques: une approche par programmation mathématique
Nicola Yanev, professeur à l'Université de Sofia et Rumen Andonov, enseignant-chercheur au sein du projet Symbiose à l'Irisa
1ère partie: audio ; vidéo [1h:18mn]
2ème partie: audio ; vidéo [1h:29mn]
Transparents pdf


Résumé :
Une des tâches les plus fréquentes dans le domaine de la bioinformatque consiste à aligner deux séquences génomiques. Les séquences biologiques étant des objets 3D (structures), on distingue trois types d'alignements: séquence vs. séquence, séquence vs. structure et structure vs. structure. Nous nous intéresserons particulièrement à ces deux derniers alignements. Bien que ces problèmes soient connus pour être NP complets, ils ont attiré fortement l'attention de la communauté informatique en raison de leur importance et de leur défit. Nous tâcherons de présenter ces problèmes d'une manière intéressante pour le connaisseur du domaine, ainsi que pour le non-spécialiste souhaitant enrichir sa culture dans cette thématique attrayante. Nous commencerons par la formulation du problème d'alignement comme un problème de la programmation linéaire en variables binaires. Deux techniques classiques d'optimisation seront décrites avant d'être appliquées pour résoudre le modèle dérivé : ce sont la relaxation linéaire et la relaxation Lagrangienne. Malgré la difficulté reconnue des problèmes considérés, l'avancée récente de l'optimisation combinatoire permet de résoudre des instances réelles et de taille gigantesque en un temps très raisonnable. L'explication de ce phénomène reste un sujet de recherche ouvert.

Bibliographie :
R. Andonov, S. Balev and N. Yanev. High Performance Alignment Methods for Protein Threading. Book chapter in Parallel Computing for Bioinformatics, ed. Albert Zomaya, John Wiley & Sons, in press ( http://www.irisa.fr/symbiose/people/randonov)
G. Lancia. Integer Programming Models for Computational Biology Problems. J. Comput. Sci. & Technol., Jan. 2004, 19(1):60-77.

Architecture et génomique
Mathieu Giraud, doctorant au sein du projet Symbiose à l'Irisa
1ère partie: audio ; vidéo [1h:09mn]
2ème partie: audio ;
vidéo [1h:19mn]
Transparents pdf

Résumé :
La génomique génère une masse considérable de données. La banque de séquences nucléiques GenBank double de volume tous les 14 mois, et près d'un millier de génomes sont en cours de séquencage. Le traitement de cette masse d'information est un défi que les concepteurs d'architectures spécialisées ont relevé depuis plus d'une dizaine d'années. Il existe maintenant sur le marché des accélérateurs dédiés au calcul génomique.
L'application favorite de ces architectures est le calcul de similarités entre plusieurs séquences. Ce calcul est souvent accéléré par des architectures systoliques. D'autres approches utilisent les heuristiques à base de graines comme celles utilisées dans les programmes FASTA et BLAST.

L'exposé présentera le principe de ces architectures, leurs performances et les pistes de recherche actuelles dans ce domaine.

Bibliographie:
D. Lavenier and M. Giraud. Bioinformatics applications. Book chapter in Reconfigurable Computing : Accelerating Computation with Field-Programmable Gate Arrays, M. Gokhale, P. Graham, 2005.



Réseaux d'interaction biologiques
Anne Siegel, chargée de recherche au sein du du projet Symbiose à l'Irisa
audio ; vidéo [1h:29mn] ; Transparents pdf
et
Michel Le Borgne
, enseignant-chercheur à l'Ifsic et à l'Irisa
(projet Symbiose)
audio ; vidéo [1h:23mn] ; Transparents pdf


Résumé :
Les travaux sur les génomes ont montré que le nombre de gènes dans le génome humain n'est pas suffisant pour expliquer la complexité du vivant. Une piste pour atteindre cette complexité réside dans les phénomènes d'interactions entre gènes, protéines et métaboliques au sein d'une cellule. La post-génomique, et plus particulièrement la "system biology", se développe depuis une dizaine d'année pour modéliser, simuler et analyser les réseaux d'interaction biologiques. Ce domaine est porté par l'arrivée de nouvelles techniques en biologie
(puces à ADN entre autres) qui permettent de décrire l'état de centaines ou milliers de gènes d'une cellule simultanément.

Le point commun entre les différents travaux sur les réseaux biologiques est un graphe d'interaction entre les molécules. En fonction de la nature des molécules (gènes, ARN, protéines, métabolites), les interactions prennent des significations différentes (flux métabolique, action qualitative ...). Les questions qui se posent sur les réseaux concernent entre autre leurs propriétés statiques (identification des noeuds fortement valués, clusters, décomposition en flux élémentaires), la recherche et l'existence de points fixes et cycles limites, la simulation et l'analyse de leur dynamique, ... En fonction des données disponibles, de la nature des interactions et de la taille des réseaux, on utilise des modèles différentiels continus, discrets, discrets par morceaux, stochastiques. Les méthodes et techniques utilisées vont de la dynamique différentielle aux méthodes bayésiennes en passant par l'utilisation de logiques temporelles.
L'objectif de ce cours est de faire le point sur les différents types de réseaux étudiés et les méthodes employées sur chacun.