Vous êtes ici

Méthodes et algorithmes pour la détection de variants complexes dans des données de séquençage nouvelle génération

Equipe et encadrants
Département / Equipe: 
Site Web Equipe: 
https://team.inria.fr/genscale/
Directeur de thèse
Dominique Lavenier
Co-directeur(s), co-encadrant(s)
Claire Lemaitre
Contact(s)
NomAdresse e-mailTéléphone
Claire Lemaitre
claire.lemaitre@inria.fr
0299847116
Sujet de thèse
Descriptif

La bioinformatique connaît actuellement un changement important avec l’arrivée de nouvelles technologies de séquençage qui permettent désormais de détecter des variants génomiques complexes. L’enjeu de cette thèse est de développer de nouveaux algorithmes et structures de données pour exploiter les spécificités de ces nouvelles données (grandes lectures, mais en faible abondance et bruitées), afin de détecter et représenter ces nouveaux variants jusqu’alors sous-estimés.

Contexte :

Une question fondamentale en biologie est de détecter et d’interpréter les variations entre les génomes d'individus d'une même espèce. Ces variations peuvent être des mutations ponctuelles d'un seul nucléotide (SNP), ou bien peuvent impliquer des segments d'ADN plus longs qui peuvent être dupliqués, supprimés, inversés ou déplacés  dans le génome. Ces variants, appelés variants de structure, sont notamment responsables de maladies génétiques, ils sont associés à de nombreux cancers, et ils jouent un rôle important dans l’évolution et la spéciation des espèces.

Cette dernière décennie, les technologies de séquençage haut débit (NGS, dites de deuxième génération), ont permis de séquencer les génomes de nombreux individus à faible coût. L'équipe Genscale est à la pointe dans ce domaine et a développé de nouvelles approches permettant d'assembler et d'extraire des variants dans ces données de séquençage (discoSnp, MindTheGap, librairie GATB…). Cependant, si les méthodes actuelles sont performantes pour détecter les variations ponctuelles ou de petite taille, la détection des variants de structure reste un problème ouvert. En effet, la petite taille des lectures générées par les séquenceurs (100 nucléotides) et la présence de grandes répétitions dans les génomes limitent les informations à grande distance qui sont nécessaires pour identifier la majorité de ces variants.   

Cette limitation est désormais abolie par l’arrivée des séquenceurs de troisième génération qui génèrent lectures de très grande taille (plusieurs dizaines de milliers de nucléotides), mais pour un coût plus important et avec une faible précision (jusqu'à 30% d'erreurs).

Sujet :

L’objectif de la thèse est de développer de nouvelles méthodes et algorithmes pour détecter des variants complexes en intégrant les deux types de données de séquençage : de grands volumes de lectures de petite taille et peu bruitées, et une faible quantité de séquences très grandes mais contenant beaucoup d’erreurs. L’intégration de ces deux types de données est cruciale pour obtenir des prédictions fiables et précises. L’effort sera mis sur la précision, notamment apportée par les petites lectures, afin de produire des méthodes rapides et efficaces pour le génotypage et le diagnostic (vérifier la présence ou l’absence du variant dans d’autres échantillons).

Une étape importante sera de développer une nouvelle structure de données permettant d’intégrer l’information des grandes lectures. La structure de données utilisée actuellement pour les petites lectures, le graphe de De Bruijn, est très sensible aux erreurs de séquençage et n’est donc pas adaptée aux grandes lectures. Etant donné les masses importantes de séquences à traiter, cette nouvelle structure devra être optimisée en espace mémoire et rapidement requêtable.

Les méthodes développées seront appliquées et validées sur des données réelles. En collaboration avec l’INRA, des variants responsables d’adaptations locales et de phénomènes de spéciation chez les insectes seront recherchés. En collaboration avec des médecins du CHU, les méthodes développées seront appliquées au diagnostic dans les cancers.

Les approches développées auront également un impact sur les modèles de représentation du génome. La communauté bioinformaticienne remet actuellement en question le dogme de « la séquence de référence » pour représenter le génome d’une espèce ou d’une population. Ce « pan-génome » devra être modélisé par un graphe de séquences plutôt qu’une unique séquence, mais comment représenter les variants de structure dans un tel graphe reste un problème ouvert qui sera adressé dans cette thèse.

Bibliographie

Références :

Début des travaux: 
septembre 2017
Mots clés: 
bioinformatique, algorithmique du texte, algorithmique des graphes, séquençage haut débit, variants de structure
Lieu: 
IRISA - Campus universitaire de Beaulieu, Rennes