Nouveaux modèles pour la caractérisation de protéines fonctionnelles par apprentissage profond

Submitted by Francois GILBERT on
Team
Date of the beginning of the PhD (if already known)
Automne 2020
Place
IRISA - Campus universitaire de Beaulieu, Rennes
Laboratory
IRISA - UMR 6074
Description of the subject

Les progrès technologiques permettent aujourd'hui d'accéder de plus en plus facilement à toujours plus de séquences génomiques. La difficulté est alors d'extraire de l'information biologique à partir de cette information brute. Une des premières étapes après l'obtention d'un nouveau génome est son annotation fonctionnelle qui consiste à localiser les différents gènes et prédire leur(s) fonction(s). Cette étape repose généralement sur une recherche de similarités de séquences avec des gènes dont la fonction est connue. Pour l'annotation fonctionnelle de protéines, l'état de l'art consiste à représenter les familles de protéines similaires, dites homologues, par des modèles probabilistes simples appelés "profile Hidden Markov Models" (pHMM) modélisant les variabilités de séquence sous la pression de la sélection naturelle et utiliser ces modèles pour identifier les séquences similaires dans les nouveaux génomes [1,2]. Cependant, les limitations des pHMMs sont connues: pas de prise en compte des corrélations entre positions [3] et plus récemment l'identification de limitations intrinsèques aux modèles probabilistes utilisés [4]. En pratique, l'annotation fonctionnelle reste ainsi très perfectible. Des études montrent par exemple que même sur une espèce modèle bien étudiée telle que A. Thaliana, seulement 40% des enzymes et transporteurs (deux types de protéines à la fonction primordiale dans le métabolisme) portaient une annotation fonctionnelle crédible [5]. Et l'annotation d'organismes plus lointains et moins connus est évidemment plus difficile (voir par exemple [6]).

Au lieu de procéder par similarité/homologie de séquences, nous proposons ici d'utiliser des méthodes d'apprentissage automatique pour caractériser plus directement les différentes familles fonctionnelles de protéines. Dans ce sujet de thèse, il s'agit de s'inspirer des progrès spectaculaires effectués en traitement automatique des langues avec l'apprentissage profond, aboutissant à des outils tels que BERT (Bidirectional Encoder Representations from Transformers) [7], XLNet [8] ou GPT-2 [9] capables d'apprendre des plongements lexicaux contextuels à partir d’un grand nombre d’exemples généralistes qui sont ensuite utilisés avec succès dans des tâches d’apprentissage plus spécifiques. L'application de l'apprentissage profond à la classification de protéines commence à se répandre: à partir de descripteurs prédéfinis sur les protéines [10] ou directement à partir de leurs séquences grâce à des réseaux de neurones adaptés tels que les réseaux récurrents [11] ou plus classiquement avec des réseaux convolutionnels [12]. Des premiers travaux tentent aujourd'hui de transposer directement les avancées obtenues en traitement automatique des langues par apprentissage de plongements lexicaux à la classification de protéines [13,14,15], mais celles-ci ne semblent pas permettre pour l’instant de dépasser l’utilisation de représentations issues des outils classiques de Bioinformatique [16]. Nous proposons durant cette thèse de prolonger ces travaux en revisitant l'apprentissage des plongements lexicaux et modèles associés pour une meilleure annotation des protéines à la lumière de leurs spécificités, notamment en termes de structure 3D et de corrélations longue distance, et en rapport avec l'hypothèse distributionnelle [17] sous-jacente à l'apprentissage des plongements lexicaux.

Bibliography

[1] "Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids", Durbin R, Eddy S R, Krogh A, Mitchison G J. Cambridge University Press. 1998.

[2] "The Pfam protein families database in 2019", El-Gebali S, Mistry J, Bateman A, et al. Nucleic Acids Res. 2019.

[3] "Learning the Language of Biological Sequences", Coste, F.  In Topics in Grammatical Inference, Springer. 2016.

[4] "Deep learning languages: a key fundamental shift from probabilities to weights?", Coste, F.  2019.

[5] "Proteins of Unknown Biochemical Function: A Persistent Problem and a Roadmap to Help Overcome It", Niehaus TD, Thamm AM, de Crécy-Lagard V, Hanson AD. Plant Physiol. 2015.

[6] "Towards functional characterization of archaeal genomic dark matter", Makarova KS, Wolf YI, Koonin EV. Biochem Soc Trans. 2019.

[7] "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", Devlin J, Chang MW, Lee K, Toutanova K, 2018.

[8] "XLNet: Generalized Autoregressive Pretraining for Language Understanding", Yang Z, Dai Z, Yang Y et al. 2019.

[9] "Language Models are Unsupervised Multitask Learners", Radford A, Wu J, Child R et al. OpenAI Blog 2019.

[10] "Deepsf: deep convolutional neural network for mapping protein sequences to folds", Hou J, Adhikari B, Cheng J. Bioinformatics, 34(8):1295–1303, 2017.

[11] "Deep recurrent neural network for protein function prediction from sequence", Liu, X. 2017.

[12] "Using Deep Learning to Annotate the Protein Universe", Bileschi ML, Belanger D, Bryant D et al. 2019.

[13] "Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences", Rives A, Goyal S, Meier J et al. 2019.

[14] "Learning protein sequence embeddings using information from structure", Bepler T, Berger B. In International Conference on Learning Representations, 2019.

[15] "Unified rational protein engineering with sequence-only deep representation learning", Alley EC, Khimulya G, Biswas S et al. Nat Methods, 2019.

[16] "Evaluating Protein Transfer Learning with TAPE", Rao R, Bhattacharya N, Thomas N et al. 2019.

[17] "Distributional semantics and linguistic theory", Boleda G. Annual Review of Linguistics. 2020.

Researchers

Lastname, Firstname
Olivier Dameron
Type of supervision
Director
Laboratory
UMR 6074, Inria

Lastname, Firstname
François Coste
Type of supervision
Supervisor (optional)
Laboratory
UMR 6074, Inria

Lastname, Firstname
Yann Le Cunff
Type of supervision
Supervisor (optional)
Laboratory
UMR 6074, Inria
Contact·s
Keywords
Apprentissage automatique, Bioinformatique, Protéines, Séquences