Vous êtes ici

Raisonnement sur des réseaux booléens pour identifier des signatures complexes de pathologies

Equipe et encadrants
Département / Equipe: 
Site Web Equipe: 
http://www.irisa.fr/dyliss/
Directeur de thèse
SIEGEL Anne
Co-directeur(s), co-encadrant(s)
DAMERON Olivier
Contact(s)
NomAdresse e-mailTéléphone
SIEGEL Anne
anne.siegel@irisa.fr
0299847448
Sujet de thèse
Descriptif

Les sciences de la vie s’appuient sur des données massives, dont le niveau de complexité est considéré actuellement comme le plus important parmi les domaines du « big-data », au regard de leurs caractéristiques en termes de taille, de caractère multi-échelle, d’incomplétude, de variabilité et de bruit [Ste2015]. En particulier, ces données, et les connaissances sur les composés biologiques qui leur sont associées sont distribuées dans plus de 1500 banques de données de référence qui sont en cours de standardisation – visant leur interopérabilité - via des initiatives de données ouvertes et liées [Jupp2014,Gap2015].  Cependant, même si les données et connaissances deviennent disponibles, les méthodes d’analyses et de raisonnement associées sont limitées, en particulier parce qu’elles ne passent pas à l’échelle en termes d’analyses d’interdépendances induites par leur variabilité et leur caractère multi-échelle.

Une question d’intérêt illustrant ces limites liées à l’interdépendance est l’identification et l’analyse des signatures de phénotypes dérivant de mutations génétiques ou somatiques et associées à des pathologies. Ce sujet est particulièrement d’actualité dans le contexte des enjeux de médecine personnalisée [Hoo2011].

Aujourd’hui, l’identification de « signatures biologiques complexes» de pathologie est impossible de manière systématique. En effet, un phénotype (mesure d’une cellule) peut être vu considéré comme la résultante d’un ensemble de régulations internes à la cellule (système biologique). Formellement, on peut donc le modéliser comme un attracteur d’un système dynamique discret, souvent un réseau booléen [Wan2012,Hic2009]. Notons que les réseaux booléens à considérer, qui contenaient une vingtaine de variables il y a quelques années, contiennent maintenant plusieurs centaines de variables depuis l’essor des opérations de standardisation de connaissances mentionnées plus haut [Cho2015]. Dans ce contexte, une mutation va être modélisée par une perturbation locale du système dynamique discret, induisant une modification de ses attracteurs. Une signature de phénotype est alors un ensemble de contraintes relatives au réseau booléen (perturbations de variables ou d’interactions) qui caractérise ses attracteurs au regard des autres phénotypes observés, menant à des problèmes d’optimisation combinatoire.

Du point de vue de l’état de l’art, à l’aide d’approches logiques, il est possible d’une part d’approximer des ensembles d’attracteurs pour un réseau booléen donné [Guz2013,Vid2017], d’autre part de calculer des ensembles de mutations expliquant un phénotype [Kam2013,Paul2012,And2014]. Par contre, on n’est pas capable de mettre en relation ces deux informations. Pour cela, il est nécessaire d’approximer les attracteurs de réseaux booléens perturbés, puis de classifier les mutations en fonction des phénotypes qu’elles induisent ou non dans cette famille d’attracteurs. De plus, les analyses doivent prendre en compte les connaissances du domaine pour rester compatible avec les informations associées aux différentes pathologies associées aux phénotypes. 

Ainsi, l’identification systématique de signatures biologiques complexes peut-être vu comme un problème complexe de raisonnement sur des systèmes dynamiques discrets dans un contexte de données massives, interdépendantes et hétérogènes.

L’objectif de la thèse est de proposer une définition formelle et effective d’une signature biologique complexe de pathologie. En suivant les éléments déclinés ci-dessus, il s’agira d’abord de modéliser et formaliser les associations entre mutations et pathologies par un calcul efficace, une comparaison et une classification des attracteurs de réseaux booléens. Pour cela, nous proposons de représenter les relations entre mutations et pathologies sous la forme de treillis (analyse en concepts formels) [Wil1982]. Pour permettre le passage à l’échelle des analyses, il faudra prendre en compte les connaissances du domaine et réduire la taille de l’espace de recherche. Dans un deuxième temps, les différents clusters identifiés dans le treillis seront filtrés pour identifier les associations de gènes qui ne sont pas dérivées de la structure de la dynamique mais d’une réelle combinaison de perturbation. Dans ce cadre, nous nous appuierons sur des techniques de raisonnement basé sur des ontologies. Les signatures biologiques identifiées à l’aide de cette approche seront testées sur deux réseaux modèles [Rem2006, And2015] ainsi que sur un réseau de très grande taille lié à la régulation de la molécule TGF-beta impliqué dans la fibrose du foie.

Bibliographie

[And2014] G. Andrieux. et al. An integrative modeling framework reveals plasticity of TGF-β signaling. BMC systems biology. 2014;8():30.

[Cho2015] S. Chowdhury. et al. Comparison of human cell signaling pathway databases--evolution, drawbacks and challenges. Database : the journal of biological databases and curation. 2015.


[Gap2015]  M. Galperin, et al.. Nucleic acids research, 43(Database issue):D1–D5, 2015. 


[Guz2013] C. Guziolowski. et al. Exhaustively characterizing feasible logic models of a signaling network using Answer Set Programming. Bioinformatics (Oxford, England). 2013;29(18):2320--2326.


[Hic2009] G. Hickman et al. Inference of gene regulatory networks using boolean-network inference methods. J Bioinform Comput Biol. 2009 Dec;7(6):1013-29.


[Hoo2011] L. Hood et al. Predictive, personalized, preventive, participatory (P4) cancer medicine. Nat Rev Clin Oncol. 2011 Mar;8(3):184-7.

[Jup2014]  S. Jupp, et al.. The EBI RDF platform: linked open data for the life sciences. Bioinformatics, 30(9):1338–1339, 2014. 


[Kam2013] Roland Kaminski, Torsten Schaub, Anne Siegel and Santiago Videla, Minimal Intervention Strategies in Logical Signaling Networks with Answer Set Programming, Theory and Practice of Logic Programming (Special Issue 4-5. 29th International Conference on Logic Programming ) 2013, pp 675-690

[Pau2012] L. Paulevé et al. Static analysis of biological regulatory networks dynamics using abstract interpretation. Mathematical Structures in Computer Science. 2012;22(04):651–685.


[Rem2006] E. Remy et al. From logical regulatory graphs to standard petri nets: dynamical roles and functionality of feedback circuits. Transactions on Computational Systems Biology VII. (2006):56-72


[Rem2015] E. Remy. et al. A Modeling Approach to Explain Mutually Exclusive and Co-Occurring Genetic Alterations in Bladder Tumorigenesis. Cancer research. 2015;75(19):4042–4052.


[Ste2015] Z. Stephens, et al. Big data: Astronomical or genomical? PLoS biology, 13(7):e1002195, 2015.


[Vid2017] Santiago Videla, Julio Saez-Rodriguez, Carito Guziolowski, Anne Siegel, caspo: a toolbox for automated reasoning on the response of logical signaling networks families, Bioinformatics, 2017

[Wan2012] R. Wang. et al. Boolean modeling in systems biology: an overview of methodology and applications. Physical biology. 2012;9(5):055001.


[Wil1982] R. Wille. Restructuring lattice theory: an approach based on hierarchies of concepts. Ordered sets. Riedel (1982). 445-470.


Début des travaux: 
octobre 2017
Mots clés: 
bioinformatique, technologies du web sémantique, systèmes dynamiques discrets
Lieu: 
IRISA - Campus universitaire de Beaulieu, Rennes