You are here

METACATALOGUE : un nouveau cadre pour l’exploration des donneées de séquençage du microbiote intestinal

Team and supervisors
Department / Team: 
Team Web Site: 
http://team.inria.fr/genscale
PhD Director
Pierre Peterlongo
Co-director(s), co-supervisor(s)
Ehrlich Dusko
Contact(s)
PhD subject
Abstract
Grâce aux technologies de séquençage d’ADN à très haut-débit, la métagénomique permet d’accéder à l’information génétique et au potentiel fonctionnel d’écosystèmes microbiens. Ce projet de thèse propose un nouveau cadre d’analyse des données massives de métagénomique des microbiotes intestinaux humains et animaux. L’analyse quantitative de ces données permet d’associer des paramètres cliniques, physiologiques et nutritionnels à des biomarqueurs comme l’abondance de gènes, de fonctions ou d’espèces microbiennes dans le microbiote intestinal. 
 
Les enjeux socio-économiques de ce projet concernent le diagnostic, pronostic et nouvelles approches thérapeutiques, et les comportements alimentaires et la nutrition.
L’analyse du microbiote intestinal humain a déjà démontré ces dernières années, dans le cadre de multiples pathologies (obésité, diabètes, maladies inflammatoires de l’intestin, cirrhose du foie, etc.) des résultats très prometteurs dans la compréhension du lien qu’elles peuvent avoir avec un déséquilibre du microbiote (dysbiose) [1, 2, 11, 12]. 
L’enjeu clé des stratégies de médecine personnalisée est l’identification de biomarqueurs permettant un diagnostic non invasif ou précoce d’une pathologie complexe, un pronostic de l’évolution vers une rémission ou une rechute et la stratification d’un groupe de patients en fonction par exemple de leur réponse à un traitement. 
D’autre part, la démarche ouvre des voies dans la prévention de maladies chroniques par modulation du microbiote, notamment par des interventions nutritionnelles appropriées [12]. L’étude des régimes alimentaires sur les fonctions physiologiques et sur le microbiote intestinal de l’homme permet la modélisation des impacts des consommations sur la santé publique.
 
Du point de vue technique, pour s’affranchir des limites et inadéquations liées à l’utilisation actuelle des étapes d’alignement de séquences et des catalogues de gènes de référence, le projet se structure en deux axes. Le premier axe de la thèse sera d’identifier les biomarqueurs issus des profils d’abondance de k-mers (mots de taille k) en exploitant systématiquement la totalité de l’information des séquences métagénomiques. 
Le second axe de la thèse vise la conception d’une base de données (appelée métacatalogue) permettant de mettre en relation les k-mers identifiés et leurs objets biologiques d’appartenance (lectures de séquençage, gènes, génomes). Les résultats attendus de ce projet de recherche seront applicables à une grande diversité d’écosystèmes microbiens d’intérêt et permettront de progresser dans la compréhension de leur dynamique et de leur fonctionnement. 
 
De par sa pluridisciplinarité, ce projet s’est construit sur la complémentarité et l’expertise de GenScale (INRIA) et MetaGenoPolis (INRA) et il répond à deux enjeux scientifiques :

Algorithmique : un des verrous actuels concerne l’élaboration des profils de co-abondances de k-mers à partir de la masse des données de séquençage. Le savoir-faire de GenScale est crucial pour parvenir à constituer de manière incrémentale un métacatalogue et ainsi s’affranchir de l’utilisation d’un catalogue figé qui limite aujourd’hui la portée, la vélocité et la fluidité des analyses.
Métagénomique : le développement et la mise en œuvre de méthodes de fouilles de données en grande dimension, associés à l’expertise de MetaGenoPolis  sur la compréhension des interactions hôte-microbiote permettra de valoriser l’ensemble conséquent de données de séquençages d’échantillons biologiques disponible à MetaGenoPolis.
 
Bibliography
1. Marchet, C., Lecompte L., Limasset, A., Bittner, L., & Peterlongo, P. (2018). A resource-frugal probabilistic dictionary and applications in (meta)genomics, 1–16. Discrete Applied Mathematics. In Press
2. Alexander Sczyrba et al. (2017) Critical Assessment of Metagenome Interpretation – a benchmark of computational metagenomics software. Nature Methods, Nature Publishing Group.
3. Antoine Limasset, Guillaume Rizk, Rayan Chikhi, Pierre Peterlongo (2017) Fast and scalable minimal perfect hashing for massive key sets 16th International Symposium on Experimental Algorithms, Jun 2017, London, United Kingdom
4. Antoine Limasset et al. (2016). Read mapping on de Bruijn graphs. BMC Bioinformatics
5. Gaëtan Benoit et al. (2016). Multiple comparative metagenomics using multiset k -mer counting. PeerJ Computer Science,

 

[1] Le Chatelier, E. et al. (2013). Richness of human gut microbiome correlates with metabolic markers. Nature

 

[2] Qin, N. et al. (2014). Alterations of the human gut microbiome in liver cirrhosis. Nature
[3] Qin, J. et al. A human gut microbial gene catalogue established by metagenomic sequencing. (2010). Nature
[4] Li, J. et al. An integrated catalog of reference genes in the human gut microbiome. (2014). Nat Biotechnol
[5] Benoit, G. et al. (2016). Multiple comparative metagenomics using multiset k -mer counting. PeerJ Computer Science
[6] Patro R. et al. (2014). Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms. Nat Biotechnol
[7] Deorowicz, S. et al. (2014). KMC 2: Fast and resource-frugal k-mer counting. Bioinformatics
[8] Rizk, G. et al. (2013). DSK: K-mer counting with very low memory usage. Bioinformatics
[9] Maillet, N. et al. (2014). COMMET: comparing and combining multiple metagenomic datasets. In Bioinformatics and Biomedicine
[10] Marchet, C., Lecompte L., Limasset, A., Bittner, L., & Peterlongo, P. (2016). A resource-frugal probabilistic dictionary and applications in (meta)genomics. Submitted to Discrete Applied Mathematics.
[11] Pedersen, HK., et al. (2016). Human gut microbes impact host serum metabolome and insulin sensitivity. Nature
[12] Cotillard, A., et al. (2013). Dietary intervention impact on gut microbial gene richness. Nature
[13] Cleary, B. et al. (2015). Detection of low-abundance bacterial strains in metagenomic datasets by eigengenome partitioning. Nat Biotechnol
Work start date: 
Sept 2018
Place: 
IRISA - Campus universitaire de Beaulieu, Rennes