Comparaison de protéines homologues avec dépendances entre positions par alignement de modèles de Potts

Type de soutenance
Thesis
Date de début
Date de fin
Lieu
IRISA Rennes
Orateur
Hugo TALIBART
Sujet
Comparaison de protéines homologues avec dépendances entre positions par alignement de modèles de Potts
Pour attribuer des annotations de structure et de fonction au nombre toujours croissant de protéines séquencées, la principale approche consiste à utiliser des méthodes de recherche d'homologues basées sur des alignements significatifs de séquences à des protéines ou familles de protéines déjà annotées. Bien que les méthodes existantes soient performantes, elles ne prennent pas en compte la co-évolution entre les résidus. Dans cette thèse, nous proposons de tirer parti d'avancées récentes dans le domaine de la prédiction de contact en représentant les protéines par des modèles de Potts, qui modélisent les couplages directs entre les positions en plus de la composition positionnelle, et de comparer les protéines en alignant ces modèles. Cette nouvelle utilisation des modèles de Potts nous a amenés à identifier de nouveaux critères pour leur construction dans un idéal de canonicité. Dû aux dépendances distantes, le problème d'alignement de deux modèles de Potts est NP-difficile. Nous avons introduit ici une méthode basée sur la formulation de l'alignement comme un problème de programmation linéaire en nombres entiers, dont la solution exacte peut être trouvée en temps raisonnable. Nos résultats suggèrent que prendre en compte les couplages directs permet d'améliorer la qualité de l'alignement d'homologues plus lointains et pourrait ainsi améliorer la détection d'homologie lointaine.
 
Comparison of homologous protein sequences using direct coupling information by pairwise Potts model alignments
To assign structural and functional annotations to the ever increasing amount of sequenced proteins, the main approach relies on sequence-based homology search methods based on significant alignments of query sequences to annotated proteins or protein families. While powerful, existing approaches do not take coevolution between residues into account. Taking advantage of recent advances in the field of contact prediction, in this thesis we propose to represent proteins by Potts models, which model direct couplings between positions in addition to positional composition, and to compare proteins by aligning these models. This novel application of Potts models raised further requirements for their construction, and we identified several key points towards building more comparable Potts models, towards an ideal of canonicity. Due to non-local dependencies, the problem of aligning Potts models is NP-hard. Here, we introduced a method based on an Integer Linear Programming formulation of the problem which can be optimally solved in tractable time. Our first results suggest that taking pairwise couplings into account can improve the alignment of remote homologs and could thus improve remote homology detection.
 

The defense will be broadcasted live on youtube at: https://youtu.be/NtBNWGjifv8

 

 
 
Composition du jury
Composition du jury
Sean EDDY, Professeur à Harvard University, Cambridge, USA (Rapporteur)
Martin WEIGT, Professeur à Sorbonne Université, Paris (Rapporteur)
Guillaume GRAVIER, Directeur de recherche CNRS, Rennes (Examinateur)
Juliette MARTIN, Chargée de recherche CNRS, Lyon (Examinatrice)
Thomas SCHIEX, Directeur de recherche INRAE, Toulouse (Examinateur)
Jacques NICOLAS, Directeur de recherche Inria, Rennes (Directeur de thèse)
François COSTE, Chargé de recherche Inria, Rennes (Encadrant de thèse)