Développement de méthodes bioinformatiques pour la caractérisation des variations structurales dans les génomes avec des données linked-read

Publié le
Equipe
Date de début de thèse (si connue)
septembre 2024
Lieu
Rennes
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse
Contexte :

Une question fondamentale en biologie est d’interpréter les variations entre les génomes aussi bien pour comprendre l’évolution des espèces, que pour conserver la biodiversité et optimiser l’utilisation des ressources naturelles. Les progrès du séquençage ont mis en valeur la prévalence des variations de structure du génome (segments d'ADN dupliqués, supprimés, inversés ou déplacés) qui couvrent 5 à 10 fois plus de bases dans le génome que les mutations ponctuelles analysées couramment. C’est l’essor du séquençage de 3ème génération (lectures longues) qui a permis ces 5 dernières années d’enfin caractériser et cataloguer toute la gamme de SVs dans de nombreux génomes. Mais cette technologie reste chère et cette caractérisation est limitée souvent à un faible nombre d’individus ou à des espèces modèles, telles que l’homme. Une nouvelle technologie de séquençage permet de baisser les coûts en séquençant simultanément des centaines d’individus avec une approche « linked-reads » (lectures courtes associées à des barcodes donnant une information longue distance)[1]. Si cette technologie est extrêmement prometteuse pour les études à l’échelle des populations, l’approche par barcodes rend les méthodes existantes pour les longues lectures inadaptées et nécessite le développement de nouvelles méthodes informatiques pour détecter et analyser les SVs.

Sujet :

L’objectif de ce doctorat sera de développer des méthodes de détection et génotypage des SVs combinant l’information de barcodes et de séquence des linked-reads, puis de tester les outils développés sur des données réelles issues des recherches empiriques en biologie afin de répondre aux questions suivantes. Quelle est la précision et la puissance de détection par données linked-reads pour différentes gammes et types de variations génomiques structurales ? Comment optimiser ces outils pour l’application à l’échelle de grands jeux de données (espèces, populations) d’une part et à des variants complexes d’autre part ?

Le ou la doctorant·e bénéficiera de l’expertise et des données disponibles dans les deux équipes d’accueil et leurs collaborateurs. L’équipe Genscale à l’IRISA (rattachement principal), avec Claire Lemaitre, possède une forte expertise sur les méthodes de détection et d’analyse des SVs [2] et a déjà initié des développements sur ce type de données linked-reads avec la librairie C++ LRez [3] permettant notamment l’indexation par barcode de ces données. Ces données étant très volumineuses, cette structure de données dédiée est un atout pour le développement de méthodes d’analyses efficaces en temps et en mémoire. Au sein de l’équipe Evo-Adapt à ECOBIO (rattachement secondaire), Claire Mérot, étudie l’impact des SVs sur l’adaptation au changement climatique des insectes [4] avec le soutien d’un projet ERC-Stg. Elle a généré des données de re-séquençage par Haplotagging et par lectures longues pour plusieurs populations de mouches du varech. Ces données sont inédites et idéales pour une évaluation fine et réaliste des performances des méthodes développées en comparaison avec la stratégie plus coûteuse par lectures longues.

Approches méthodologiques et techniques :

Les méthodes développées seront basées sur l’algorithmique du texte et des graphes (alignement de séquences, parcours de graphes de séquences) ainsi que sur les structures d’indexation de séquences. Les logiciels seront implémentés en Python, C++ ou Rust. Le développement méthodologique sera guidé et évalué par les applications et analyses sur données réelles.

Bibliographie

[1] Haplotype tagging reveals parallel formation of hybrid races in two butterfly species, J Meier et al, PNAS, 2021, doi:10.1073/pnas.2015005118
[2] SVJedi-graph: improving the genotyping of close and overlapping structural variants with long reads using a variation graph, Sandra Romain et Claire Lemaitre. Bioinformatics, 2023, doi:10.1093/bioinformatics/btad237
[3] LRez: a C++ API and toolkit for analyzing and managing Linked-Reads data. P Morisse, C Lemaitre, F Legeai. Bioinformatics Advances, 2021, doi :10.1093/bioadv/vbab022
[4] Locally adaptive inversions modulate genetic variation at different geographic scales in a seaweed fly. C Mérot et al. Mol Biol Evo, 2021, doi:10.1093/molbev/msab143.

Liste des encadrants et encadrantes de thèse

Nom, Prénom
Lemaitre, Claire
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
UMR 6074
Equipe

Nom, Prénom
Mérot, Claire
Type d'encadrement
Co-encadrant.e
Unité de recherche
Ecobio
Contact·s
Nom
Lemaitre, Claire
Email
claire.lemaitre@inria.fr
Mots-clés
bioinformatique -- algorithmique des séquences – comparaison de séquences – indexation de séquences – graphes de pangenome – génomique – variants de structure