Vous êtes ici

Comparer des structures de gènes pour la prédiction de transcrits isoformes codants et non-codants

Equipe et encadrants
Département / Equipe: 
Site Web Equipe: 
http://www.irisa.fr/dyliss
Directeur de thèse
Olivier Dameron
Co-directeur(s), co-encadrant(s)
Catherine Belleannée
Samuel Blanquart
Thomas Derrien
Contact(s)
NomAdresse e-mailTéléphone
Catherine Belleannée
catherine.belleannee@irisa.fr
02 99 84 73 20
Sujet de thèse
Descriptif

Contexte  La thèse en bioinformatique s’inscrira dans un partenariat interdisciplinaire fort entre l’équipe Dyliss (Irisa/Inria Rennes), spécialisée en biologie intégrative appliquée aux organismes non-modèles, l’équipe Génomique du Chien (IGDR Rennes), spécialisée dans l’étude du transcriptome d’un organisme non-modèle, le chien, et de ses ARN non-codants,  et l’équipe Bonsai du laboratoire Cristal (Lille), ayant une expertise en analyse syntaxique et phylogénétique de l’expression des gènes eucaryotes.
L’encadrement s’effectuera dans le cadre de la mobilité d’un chercheur (d’Inria Lille, rejoignant l’équipe Dyliss) portant des recherches sur l’annotation des isoformes des gènes.

Un gène/des isoformes. Plusieurs étapes de l’expression des gènes chez les eucaryotes permettent de produire différents transcrits à partir d’un même gène [1]. La plus étudiée, l’étape d’épissage alternatif, retient une combinaison de segments (ou exons) de l’ARN pré-mature afin de produire un ARN mature. Ces phénomènes permettent au gène de produire un répertoire d’ARN distincts, appelés isoformes (ou transcrits alternatifs), chacun étant susceptible d’assurer une fonction particulière [1]. Ces mécanismes sont communs aux gènes codants, produisant des ARNm (ARN messagers), et à certains gènes non-codants, produisant des lncRNA (ARN long non codant) [2,3].

Le répertoire d’isoformes est lié à l’espèce. Par ailleurs, les gènes peuvent être partagés d’une espèce à l’autre (on parle de gènes orthologues), sans pour autant que le répertoire d’isoformes soit strictement conservé. Ces variations du répertoire participent à la création ou la perte de fonctions à partir d’un même ensemble de gènes [4]. Les mécanismes d’expression alternative des gènes sont eux même régulés par un ensemble varié de facteurs [5], se fixant aux gènes et aux transcrits, dont on commence seulement à entrevoir l’importance [6].

L’objectif biologique de cette thèse est d’étudier la conservation, d’une espèce à l’autre, de l’architecture fonctionnelle de chaque gène afin de mieux prédire ses isoformes. Cette architecture peut-être définie comme le répertoire des éléments fonctionnels régulant l’expression d’un ensemble donné d’isoformes. Il s’agit à la fois de savoir prédire quel ensemble d’isoformes peut être exprimé dans tel gène chez telle espèce, d’identifier quels sont les éléments fonctionnels discriminants régulant l’expression des isoformes, et d’analyser les variations inter-espèces pour certaines espèces ciblées. Le « Graal » serait de parvenir à identifier les signaux encore inconnus, probablement de type éléments transposables, qui déterminent l’expression tissue-spécifique des isoformes lncRNA.

Approche envisagée. La réalisation de cet objectif n’est pas immédiate. En particulier, on ne sait actuellement pas prédire, à la seule connaissance d’un génome et de son transcriptome, quel est le répertoire des isoformes issus de chaque gène. La difficulté vient notamment du fait que les éléments connus de l’architecture fonctionnelle des gènes sont des signaux faibles - c’est le cas notamment des sites d’épissage, ou des tailles des introns/exons. Ainsi une tentative de prédiction ex nihilo conduirait à une explosion combinatoire inexploitable. Pour éviter cette impasse, l’approche proposée consiste à baser la prédiction d’isoformes sur le principe de conservation inter-espèces et sur le croisement d’informations.

Le premier objectif bioinformatique de la thèse se situe autour de la mise en œuvre de comparaisons macroscopiques de séquences (dans la lignée des travaux entrepris dans le projet CG-AlCode à Lille [7], un prédicteur d’isoformes basé sur l’analyse syntaxique des éléments fonctionnels conservés entre gènes orthologues), dont les résultats seront enrichis avec des approches de biologie intégrative. Cette étape permettra notamment de déterminer si une architecture introns/exons observée sur une séquence est transposable à une autre (génomique comparative).

Un deuxième objectif de la thèse sera l’identification (au sens learning) et la recherche (au sens matching) de signaux fonctionnels discriminants régulant l’expression des isoformes (analyse et modélisation de séquences). On s’appuira ici sur l’expertise acquise pour la modélisation grammaticale des séquences à l’aide du logiciel Logol [8].

Ces deux questions seront les étapes clés de la mise en œuvre d’une méthode globale de prédiction d’isoformes pour un gène donné et des espèces ciblées, en commençant par l’étude des ARN messagers. On s’attaquera ensuite à l’étude des ARN non codants (lncRNA), ces derniers étant connus pour ne pas contenir d’ORF, ce qui affaiblit les signaux sur lesquels appuyer les prédictions.

Ces approches, visant à la mise en place d’une méthode générique, seront mises en œuvre via la comparaison d’espèces modèles (homme et souris) avec une espèce non modèle, le chien, pour laquelle le partenaire applicatif de la thèse dispose de données uniques au niveau transcriptomique.

Bibliographie

[1] Kelemen, et al (2013). Function of alternative splicing. Gene, 514(1), 1–30.

[2] Wucher, et al (2017). FEELnc : a tool for long non-coding RNA annotation and its application to the dog transcriptome. Nucleic Acids Research, 45(8), e57.

[3] Jalali, et al (2016). Navigating the dynamic landscape of long noncoding RNA and protein-coding gene annotations in GENCODE. Human Genomics, 10, 35.

[4] Keren, et al (2010). Alternative splicing and evolution : diversification, exon definition and function. Nature Reviews Genetics volume 11, 345–355

[5] Khanna & Stamm (2010). Regulation of alternative splicing by short non-coding nuclear RNAs. RNA Biology. 7(4):480-5.

[6] Tapial, et al (2017). An atlas of alternative splicing profiles and functional associations reveals new regulatory programs and genes that simultaneously express multiple major isoforms. Genome Research.(10):1759-1768.

[7] Blanquart et al (2016). Assisted transcriptome reconstruction and splicing orthology. BMC Genomics, 17(Suppl 10), 157–164.

[8] Belleannée et al (2014). Logol : expressive pattern matching in sequences; application to ribosomal frameshift modeling. PRIB2014, LNCS, volume 8626, 34-47.

Début des travaux: 
01/10/2018
Mots clés: 
Bioinformatique, modélisation de séquences, comparaison de structures de gènes, découverte de patterns, génomique comparative, biologie intégrative, épissage alternatif, comparaison inter-espèces, orthologie, gènes codants et non codants, lncRNA
Lieu: 
IRISA - Campus universitaire de Beaulieu, Rennes