Création de netflows et développement de modèles de détection basés sur les Graph Neural Networks (GNN) pour l'analyse réseau

Publié le
Equipe
Date de début de thèse (si connue)
01/10/2024
Lieu
Rennes
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse

La cybersécurité est devenue l'une des préoccupations les plus urgentes de notre époque. Avec la prolifération des cybermenaces et la sophistication croissante des attaquants [1], la nécessité de sécuriser les réseaux informatiques est devenue impérative et est au centre des pré-occupations du Centre d’Analyse en Lutte Informatique Défensive (CALID). Les systèmes de détection d'intrusions réseau (NIDS) jouent un rôle crucial dans cette tâche critique, grâce à leur surveillance du trafic réseau. Pour rendre ces systèmes de sécurité plus robustes, de nombreuses recherches ont été menées sur l'utilisation de techniques avancées d'apprentissage automatique (ML) [2] et d'apprentissage profond (DL) [3, 4] pour la détection des intrusions réseau. Parmi les méthodes de Deep Learning, l’utilisation de modèles de fondation reposant sur des réseaux de neurones comme les Graph Neural Networks (GNN) rendus plus abordables grâce à des avancées récentes semble prometteuse [5, 6]. Cependant, l'un des défis majeurs auxquels font face les chercheurs et les experts pour développer ce genre d’outils en cybersécurité est le manque de données de qualité pour développer des outils de détection efficaces. Les facteurs qui contribuent à ce problème sont multiples : la sensibilité des données qui rend difficile leur partage, le manque de réalisme des données simulées et l’évolution constante des menaces. En conséquence, il devient essentiel de générer des jeux de données de qualité pour améliorer nos méthodes de détection. C'est dans ce contexte que cette thèse s'articule autour de deux objectifs essentiels : la création d’un jeu de données réaliste de simulation de netflows et la création d’un outil de détection d’anomalies se basant sur ces données.

Le premier objectif de la thèse consiste à créer un jeu de données de netflows représentatif d'une activité humaine dans un réseau d'entreprise. De nombreuses recherches antérieures [7, 8] ont montré l'importance de disposer de jeux de données de qualité pour la détection d’intrusions. Un des points bloquants au développement de modèles de détection performant est le manque de données publiques disponibles. Beaucoup de travaux récents utilisent par exemple un jeu de données classique : CIC-IDS 2017 [9], ancien, relativement obsolète et biaisé [14, 15]. Le deuxième objectif de cette thèse est d’utiliser ce jeu de données et les développements récents en IA afin de les transposer dans le domaine de l’analyse réseau pour détecter des anomalies. Nous utiliserons des modèles de fondation qui apprendront la structure d’un trafic réseau usuel, tout comme les modèles de langage (LLM) apprennent la structure d’une langue. Nous prévoyons de nous appuyer pour cela sur les graph neural networks (GNN) qui sont une avancée révolutionnaire en apprentissage profond. Les GNN ont été introduits pour la première fois en 2005 [10], et depuis, ils ont connu une montée en popularité significative. Ils sont désormais utilisés dans divers domaines, tels que l'optimisation de réseaux [11], la prévision du trafic [12] ou la physique des particules [13].

Description des principaux verrous et techniques envisagées

Pour des approches d'apprentissage machine, il est nécessaire d'avoir des jeux de données plus volumineux, plus divers et plus réalistes. La diversité des activités est cruciale, car elle reflète la complexité des opérations dans un réseau d'entreprise. La simulation doit également prendre en compte le séquencement temporel des activités, qui doit être très similaire à celle produite par un opérateur humain utilisant des logiciels courants. Ces données serviront de base pour l'entraînement et l'évaluation des modèles de détection. Diversité, qualité, séquencement et évaluation sont un premier verrou de cette thèse.

Les GNN offrent une opportunité pour améliorer la détection des menaces dans les réseaux informatiques. Utilisés dans le cadre d’un modèle de fondation, leur capacité à capturer des structures générales les rend idéaux pour l'analyse de réseaux. Ils peuvent détecter des anomalies dans le trafic, identifier des schémas de comportement inhabituels et contribuer à la prévention et à la réponse aux incidents. Des premières études très récentes ont été lancées sur le sujet et ont commencé à démontrer le potentiel des GNN pour la détection d’intrusion [5, 6]. Ces travaux sont très récent et l’amélioration des GNN pour la détection constitue un second verrou important.

Approche méthodologique et critères de qualité des résultats obtenus

En combinant la création d'un jeu de netflows avec le développement de modèles novateurs basés sur les réseaux de neurones graphiques (GNN) pour l'analyse réseau, cette thèse s'attaque à un défi crucial de la cybersécurité : la détection de comportements malveillants dans les flux réseaux. La raison du double objectif au sein de la même thèse est de créer un pont essentiel entre la génération de données de trafic réseau et l'application de modèles innovants de GNN dans le domaine de la détection d'intrusions. Cette approche permettra de mettre en place une boucle d'apprentissage continue, où les données générées seront utilisées pour entraîner et améliorer les modèles de GNN. Ainsi, la thèse repose sur une synergie constante entre la simulation de données et l'application de modèles de GNN. Cette démarche garantira que les données de simulation soient adaptées à la détection d'intrusions, et que les modèles de GNN soient optimisés pour traiter ces données de manière efficace. L’ensemble des travaux sera valorisée au travers de publication dans les conférences reconnue du domaine (RAID, Usenix Security, AAAI) par la mise à disposition de la communauté des jeux de données générés et par la production de preuves de concept. Le doctorant aura également accès aux experts métiers de la cybersécurité au sein du CALID. Cela permettra au doctorant de s’ancrer dans des problématiques opérationnelles et de profiter de l’expertise du centre.

Bibliographie

[1] Ponemon Institute 2022 Cost of insider threats global report. Ponemon Institute,2022.

[2] E. Abdallah, W. Eleisah ans A. Otoom. Intrusion detection systems using supervised Machine Learning techniques : a survey. The 13th International Conference on Ambient Systems, Networks and Technologies (ANT).Porto, Portugal. March 22-25, 2022

[3] W. niu, J. Zhou, Y. Zhao, X. Zhang, Y. Peng and C. Huang. Uncovering APT malware trafic using deep learning combined with time sequence and association analysis. Computers & Security, Volume 120, September, 2022.

[4] H. Li, B. Liu, Y. Liu, Y Sun and B. Xie. Use Neural Structured Learning for beaconing detection.Columbia University, 2020.

[5] E. Caville, W. Weng, S. Layeghy, and M. Portmann. Anomal-E: A Self-Supervised Network Intrusion Detection System based on Graph Neural Networks. Knowledge-Based Systems,Volume 258, December 22, 2022.

[6] G. Cobo Arroniz. Detection of network attacks using Graph Neural Networks. Final Master’s thesis Universitat Politechnica de Catalunya (UPC). January, 2023.

[7] I. Sharafaldin, A. Habibi Lashkari, and Ali A.Ghorbani. Toward generating a new intrusion detection dataset and intrusion traffic characterization. Canadian Institute for Cybersecurity (CIC),2018.

[8] W. Haider, J. Hu, J. Slay, B.P. Turnbull, and Y. Xie. Generating realistic intrusion detection system dataset based on fuzzy qualitative modeling. Journal of Network and Computer Applications, Volume 87, June 1, 2017.

[9] R. Panigrahi and S. Borah.A detailed analysis of CICIDS2017 dataset for designing Intrusion Detection Systems. International Journal of Engineering & Technology pp. 479-482, January 2018.

[10] M. Gori, G. Monfardini, and F. Scarselli. A new model for learning in graph domains. IEEE International Joint Conference on Neural Networks, August 4, 2005.

[11] M. Ferriol-Galmés, J. Suárez-Varela, J. Paillissé, X. Shi, S. Xiao, X. Cheng, P. Barlet-Ros and A. Cabellos-Aparicio. Building a Digital Twin for network optimization using Graph Neural Networks. Computer Networks: The International Journal of Computer and Telecommunications Networking, Volume 217, November 9, 2022.

[12] W. Jiang, and J. Luob. Graph neural network for traffic forecasting:A survey. Expert Systems with Applications Volume, vol. 207, November 30, 2022.

[13] S. Thais, P. Calafiura, G. Chachamis, G. DeZoort, J.Duarte, S. Ganguly, M. Kagan, D. Murnane, M. S. Neubauer,and K. Terao.Graph Neural Networks in Particle Physics: Implementations,Innovations, and Challenges. US Community Study on the Future of Particle Physics. 2022.

[14] M. Lanvin, P-F. Gimenez, Y. Han, F. Majorczyk. Errors in the CICIDS2017 dataset and the significant differences in detection performances it makes. hal-03775466, 2022

[15] M.Lanvin, P-F. Gimenez, Y.i Han, F. Majorczyk, L. Mé, E. Totel. Towards Understanding Alerts raised by Unsupervised Network Intrusion Detection Systems. 26th International Symposium on Research in Attacks, Intrusions and Defenses, RAID 2023.

Liste des encadrants et encadrantes de thèse

Nom, Prénom
Guette Gilles
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
IRISA
Equipe
Contact·s
Mots-clés
Génération de données, détection d’attaque, détection d’intrusions, IA pour la cyber, Graph Neural Network