Détection d’intrusions au niveau système d’informations : détection d’anomalies par traitement IA dans des graphes dynamiques hétérogènes représentant l’activité du système

Publié le lun 30/01/2023 - 18:20

Equipe

CIDRE

Site web de l'équipe

https://team.inria.fr/cidre/

Date de début de thèse (si connue)

Octobre 2023

Lieu

Rennes

Unité de recherche

IRISA - UMR 6074

Description du sujet de la thèse

La détection d’intrusions est un enjeu majeur de la défense en cybersécurité. De par la complexification des systèmes et l’utilisation de nouvelles briques technologiques, de nouvelles menaces apparaissent continuellement pouvant compromettre tous les niveaux d’un système d’information. Cette compromission peut aller de la perte de données à celles de l’intégrité matérielle et fonctionnelle du système.

L’activité d’un système d’informations ou de ses composants peut être modélisée sous la forme d’un graphe, qui peut, quant à lui, être utilisé pour détecter des anomalies éventuellement symptomatiques d’une intrusion. Dans un objectif de détection d’intrusions, la structure de graphes a ainsi été utilisée pour modéliser des communications réseau [1, 2, 3], des authentifications utilisateurs [4, 5], l’activité au niveau d’un système d’exploitation [6, 7] ou celle d’un système d’informations plus globalement [8].

Suivant les logs considérés et la définition des nœuds et arêtes des graphes, les graphes construits sont soit homogènes soit hétérogènes. Cependant, étant donné la diversité des entités d’un système d’informations (utilisateurs, services, processus, fichiers, flux, etc.), il est assez naturel de construire des graphes hétérogènes [2, 3, 7]. Dans ce type de graphes, les nœuds et arêtes sont souvent « typées », ce qui complexifie le traitement algorithmique. De plus, la dimension temporelle est inhérente à la modélisation de l’activité d’un système d’information. Les graphes dynamiques [9] sont une possibilité pour prendre en compte cette dimension. Ces graphes permettent de modéliser le changement au cours du temps des interactions (arêtes du graphe) entre les éléments d’un système et l’évolution du système via l’ajout ou la suppression d’éléments (nœuds du graphe). Dans ce contexte, il est important de développer de nouvelles approches modulaires permettant de s’adapter à des modélisations très diverses sur des données temporelles en constantes évolutions. L’objectif de cette thèse est d’élaborer de nouveaux algorithmes de détection d’anomalies sur les graphes dynamiques hétérogènes.

Des premiers travaux, tels que l’approche Temporal Graph Network (TGN) [10], se sont intéressés à la prise en compte de la dynamique dans des graphes homogènes pour des tâches de classification de nœuds ou d’arêtes ou des tâches de reconstruction/prédiction d’arêtes. Cependant, bien que la dimension dynamique soit prise en compte au niveau de la temporalité des interactions entre éléments du graphe et permettent de meilleures performances générales sur ces stages, TGN ne permet pas de prédire des anomalies de types temporelles [11]. D’autres méthodes directement développées pour la détection d’anomalies dans les graphes dynamiques [12, 13, 14] nécessitent des ressources informatiques trop importantes pour être utilisées sur des graphes de grandes tailles et/ou manquent d’informations concernant l’évaluation de l’approche développée [11]. Certaines méthodes nécessitent également une annotation du jeu de données d’entrainement [15, 16, 17] rendant difficile l’évaluation de leurs capacités d’adaptation à de nouvelles menaces. Le passage à l’échelle des algorithmes est également une question à soulever, certaines méthodes n’étant entrainées et évaluées que sur une sous-partie d’un jeu de données temporelles conséquent [16, 17].

Nous proposons dans cette thèse de développer de nouvelles méthodes robustes de détection d’anomalies dans les graphes dynamiques permettant d’être appliquées aux systèmes informatiques. Ces nouvelles approches ont pour objectifs de détecter des anomalies de différentes natures (anomalies structurelles, sémantiques et temporelles), correspondant à des interactions ou des dynamiques d’interactions nouvelles, c’est-à-dire non observées et/ou non attendues. Par ailleurs, les méthodes développées devront être applicables à de larges graphes hétérogènes pour offrir des solutions applicables à de réels cas d’usage cyber. D’un point de vue cyber, il faudra définir le ou les graphes permettant la représentation de l’activité du système d’information en reliant les aspects système, réseau et applicatifs. La définition du ou des graphes pourra prendre en compte les flux d’information entre les différentes entités représentées et cherchera à prendre en compte la temporalité à court terme et à long terme. Pour évaluer les modèles IA et maîtriser les capacités de détection, avant d’appliquer ces modèles à des données cyber, il sera certainement nécessaire de débuter les travaux de thèse par le développement d’un générateur de graphes temporels configurable. Les graphes temporels générés pourront être homogènes dans un premier temps pour faciliter la conception des modèles puis être hétérogènes. Les graphes simulés devront approximer ceux construits sur les données provenant des systèmes d’informations afin de contrôler au mieux les aspects dynamiques de la détection d’anomalies. On développera ainsi d’abord la méthode de détection d’anomalies sur des graphes temporels homogènes puis sur des graphes hétérogènes. Enfin, la méthode sera évaluée sur des systèmes réels notamment en se basant sur des datasets académiques existants tels que DARPA OpTC [18].

*** Description des principaux verrous et techniques envisagées ***

L’objectif global de la thèse est d’améliorer la détection des attaques avancées de type APT (Advanced Persistent Threat) en prenant en compte toutes les sources de logs disponibles au sein d’un système d’information (logs applicatifs, système et réseau). Ces informations peuvent être mises en relation dans une structure de graphe qui représente l’activité globale du système. Très peu de travaux ont cherché à définir des graphes combinant toutes les sources d’information disponibles sur un système d’information. Le premier verrou est donc dans la définition des graphes qui doivent être adaptés à la détection d’intrusions (en permettant de distinguer l’activité normale des actions menées par un attaquant).

La détection d’anomalies dans des graphes dynamiques hétérogènes est un sujet en plein essor dans le domaine de l’apprentissage machine. Le sujet de thèse se situe à l’intersection : il s’agit de définir des graphes intéressants pour la détection d’APT et de développer de nouvelles méthodes de détection d’anomalies sur ces graphes.
Les modèles de détection d’anomalies dans les graphes sont souvent des modèles à base de réseaux de neurones qui sont complexes à appréhender d’un point de vue capacité de détection et explicabilité des résultats. On travaillera sur des graphes synthétiques maîtrisés pour la mise au point des modèles de détection.

Un autre verrou est le passage à l’échelle des modèles de détection d’anomalies dans des graphes qui peuvent être de très grande taille : il sera nécessaire de trouver un compromis entre la définition des graphes construits sur les événements et la capacité de détection des modèles.

L’évaluation de la brique de détection d’anomalies se fera, en première approche, sur des graphes maîtrisés et avec des anomalies maîtrisées pour comprendre quels sont les types d’anomalies détectées ou non. La méthode globale de détection sera évaluée sur des datasets publics tels que Darpa OpTC [18]. Il sera également possible d’utiliser des plate-formes de génération d’expérimentation cyber telles que SOCBED [19] ou Kyoushi [20] pour évaluer les performances de détection. Ces plate-formes étant open-source, il sera possible de partager les spécifications de l’expérimentation pour que d’autres chercheurs puissent vérifier les résultats et/ou comparer leurs travaux.

Le candidat pourra soumettre ses travaux aux conférences internationales en sécurité (RAID, DIMVA, Usenix SEC, ACSAC, NDSS, etc.) mais également suivant le prisme des travaux aux conférences en IA (NeurIPS, ICML, KDD, ICASSP, etc.). Il pourra également présenter ses travaux à la communauté francophone au sein du GDR Sécurité ou dans les conférences telles que RESSI, C&ESAR et CAID.

Les travaux de recherche seront conduits au sein de l'équipe CIDRE en étroite collaboration avec le pôle cybersécurité de DGA Maîtrise de l’information.

Bibliographie

[1] S. Cheung, R. Crawford, M. Dilger, J. Frank, J. Hoagland, K. Levitt, J. Rowe, S. Staniford-Chen, R. Yip, and D. Zerkle, “The design of grids : A graph-based intrusion detection system,” tech. rep., Technical Report CSE-99-2, UC Davis Computer Science Department, 1999.

[2] L. Leichtnam, E. Totel, N. Prigent, and L. Mé, “Sec2graph : Network attack detection based on novelty detection on graph structured data,” in International Conference on Detection of Intrusions and Malware, and Vulnerability Assessment, pp. 238–258, Springer, 2020.

[3] M. Lanvin, “Détection d’anomalies temporelles dans un graphe d’évènements de sécurité,” Master’s thesis, École Centrale de Lille, 2022.

[4] A. D. Kent, L. M. Liebrock, and J. C. Neil, “Authentication graphs : Analyzing user behavior within an enterprise network,” Computers & Security, vol. 48, pp. 150–166, 2015.

[5] R. Wei, L. Cai, A. Yu, and D. Meng, “Age : authentication graph embedding for detecting anomalous login activities,” in International Conference on Information and Communications Security, pp. 341–356, Springer, 2019.

[6] S. T. King and P. M. Chen, “Backtracking intrusions,” in Proceedings of the nineteenth ACM symposium on Operating systems principles, pp. 223–236, 2003.

[7] S. M. Milajerdi, R. Gjomemo, B. Eshete, R. Sekar, and V. Venkatakrishnan, “Holmes : real-time apt detection through correlation of suspicious information flows,” in 2019 IEEE Symposium on Security and Privacy (SP), pp. 1137–1152, IEEE, 2019.

[8] K. Pei, Z. Gu, B. Saltaformaggio, S. Ma, F. Wang, Z. Zhang, L. Si, X. Zhang, and D. Xu, “Hercule : Attack story reconstruction via community discovery on correlated log graph,” in Proceedings of the 32Nd Annual Conference on Computer Security Applications, pp. 583–595, 2016.

[9] F. Harary and G. Gupta, “Dynamic graph models,” Mathematical and Computer Modelling, vol. 25, no. 7, pp. 79–87, 1997.

[10] E. Rossi, B. Chamberlain, F. Frasca, D. Eynard, F. Monti, and M. Bronstein, “Temporal graph networks for deep learning on dynamic graphs,” arXiv preprint arXiv :2006.10637, 2020.

[11] R. Cohen, “Graph-based anomaly detection for cybersecurity,” Master’s thesis, IASD University Paris-Dauphine, 2022.

[12] Y. Liu, S. Pan, Y. G. Wang, F. Xiong, L. Wang, Q. Chen, and V. C. Lee, “Anomaly detection in dynamic graphs via transformer,” IEEE Transactions on Knowledge and Data Engineering, 2021.

[13] M. Mamun and S. Buffett, “Taptree : Process-tree based host behavior modeling and threat detection framework via sequential pattern mining,” in International Conference on Information and Communications Security, pp. 546–565, Springer, 2022.

[14] R. Paudel and H. H. Huang, “Pikachu : Temporal walk based dynamic graph embedding for network anomaly detection,” in NOMS 2022-2022 IEEE/IFIP Network Operations and Management Symposium, pp. 1–7, IEEE, 2022.

[15] M. M. Anjum, S. Iqbal, and B. Hamelin, “Anubis : a provenance graph-based framework for advanced persistent threat detection,” in Proceedings of the 37th ACM/SIGAPP Symposium on Applied Computing, pp. 1684–1693, 2022.

[16] M. Mamun and K. Shi, “Deeptaskapt : Insider apt detection using task-tree based deep learning,” in 2021 IEEE 20th International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom), pp. 693–700, IEEE, 2021.

[17] T. Cochrane, P. Foster, V. Chhabra, M. Lemercier, T. Lyons, and C. Salvi, “Sk-tree : a systematic malware detection algorithm on streaming trees via the signature kernel,” in 2021 IEEE International Conference on Cyber Security and Resilience (CSR), pp. 35–40, IEEE, 2021.

[18] “Darpa optc.” https://github.com/FiveDirections/OpTC-data. Accessed : 2022-10-25.

[19] “SOCBED.” https://github.com/fkie-cad/socbed. Accessed : 2022-11-03.

[20] “Kyoushi.” https://github.com/ait-aecid/kyoushi-environment. Accessed : 2022-11-03.

Liste des encadrants et encadrantes de thèse

Hurfin, Michel

Type d'encadrement

Directeur.trice de thèse

Unité de recherche

Inria

Département

D1 - Systèmes sécurisés et large échelle

Equipe

CIDRE

Viet Triem Tong, Valérie

Type d'encadrement

Directeur.trice de thèse

Unité de recherche

UMR 6074

Département

D1 - Systèmes sécurisés et large échelle

Equipe

CIDRE

Gimenez, Pierre-François

Type d'encadrement

Co-encadrant.e

Unité de recherche

UMR 6074

Département

D1 - Systèmes sécurisés et large échelle

Equipe

CIDRE

Majorczyk, Frédéric

Type d'encadrement

Co-encadrant.e

Unité de recherche

UMR 6074

Département

D1 - Systèmes sécurisés et large échelle

Equipe

CIDRE

Contact·s

Nom

Hurfin, Michel

michel.hurfin@inria.fr

Téléphone

0299847512

Mots-clés

cybersécurité, détection d'intrusions, détection d'anomalies, graphes dynamiques, graphes hétérogènes, intelligence artificielle, graph neural networks, deep learning