Génération par Intelligence Artificielle et Langage formel

Publié le
Equipe
Date de début de thèse (si connue)
1/10/2024
Lieu
CentraleSupelec/IRISA
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse

Les systèmes de détection d’intrusion (dits IDS pour ”intrusion detection systems”) ont pour objectif de détecter les attaques et sont des outils essentiels à la protection des systèmes d’information. Pour mettre au point, comparer et évaluer les IDS, qu’ils soient commerciaux ou académiques, il est nécessaire d’avoir des jeux de données représentant l’activité d’un système et contenant des scénarios d’attaque. Cependant, un jeu de données réseaux est difficile à constituer et à étiqueter. Il existe déjà un certain nombre de jeux de données publics, comme DAPT-2020 [12] ou CICIDS-2018 [13], mais ils contiennent généralement des erreurs [8] et deviennent rapidement obsolètes. S’il est faisable de lancer des attaques grâce à des outils spécialisés, il est difficile de générer du trafic bénin. Le trafic réel capturé doit être anonymisé, et la simulation d’utilisateurs via des scripts n’atteint généralement pas la diversité des comportements réels rencontrés. Enfin, ces deux méthodes ont l’inconvénient
d’être lentes : une journée d’activité correspond nécessairement à une journée d’expérimentations. Cette thèse vise à générer des données réseaux bénignes via des outils d’intelligence artificielle pour répondre à ce besoin d’évaluation. Nous avons précédemment proposé une méthode pour générer des données ”netflow” de bien meilleure qualité que l’état de l’art dans le cadre de la thèse d’Adrien Schoen (thèse Creach Labs ”Rage”). Néanmoins, ces travaux connaissent des limitations : bien que les données ”netflow” soient très souvent utilisées par des IDS, elles ne suffisent pas pour évaluer les IDS qui traitent directement les paquets avec de l’inspection en profondeur [2, 1, 9]. Dans ce projet de thèse, nous proposons de poursuivre ces travaux via deux principaux axes :

(1) la génération des données réseaux au niveau paquet, et

(2) le transfert de l’apprentissage effectué sur une architecture réseau vers une autre architecture, par exemple en ajoutant des serveurs Web ou en augmentant le nombre de postes utilisateurs.

De plus, il sera important lors de la thèse d’étudier la problématique de l’évaluation de la génération au niveau paquet, en définissant les propriétés souhaitées et les méthodes d’évaluation de ces propriétés. On pourra s’appuyer sur la thèse Creach Labs en cours sur la génération de données ”netflow” où une importante partie du travail du doctorant a été la définition d’un framework d’évaluation pour ce type de données.

 

 

Bibliographie

[1] Suricata. https://suricata.io. Accessed: 2023-11-10.
[2] Zeek. https://zeek.org/. Accessed: 2023-11-10.
[3] Adriel Cheng. Pac-gan: Packet generation of network traffic using generative adversarial networks. In 2019 IEEE 10th Annual Information Technology, Electronics and Mobile Communication Conference (IEMCON), pages 0728–0734. IEEE, 2019.
[4] Colin De la Higuera. Grammatical inference: learning automata and grammars. Cambridge University Press, 2010.[5] Ugo Galassi and Attilio Giordana. Learning regular expressions from noisy sequences. In International Symposium on Abstraction, Reformulation, and Approximation, pages 92–106. Springer, 2005.
[6] Danial Khosh Kholgh and Panos Kostakos. Pac-gpt: A novel approach to generating synthetic network traffic with gpt-3. IEEE Access, 2023.
[7] Max Landauer, Florian Skopik, Maximilian Frank, Wolfgang Hotwagner, Markus Wurzenberger, and Andreas Rauber. Maintainable log datasets for evaluation of intrusion detection systems. IEEE Transactions on Dependable and Secure Computing, 2022.
[8] Maxime Lanvin, Pierre-François Gimenez, Yufei Han, Frédéric Majorczyk, Ludovic Mé, and Eric Totel. Errors in the cicids2017 dataset and the significant differences in detection performances it makes. In CRiSIS 2022-International Conference on Risks and Security of Internet and Systems, pages 1–16, 2022.
[9] Laetitia Leichtnam, Eric Totel, Nicolas Prigent, and Ludovic Mé. Sec2graph: Network attack detection based on novelty detection on graph structured data. In Detection of Intrusions and Malware, and Vulnerability Assessment: 17th International Conference, DIMVA 2020, Lisbon, Portugal, June 24–26, 2020, Proceedings 17, pages 238–258. Springer, 2020.[10] Will E Leland, Murad S Taqqu, Walter Willinger, and Daniel V Wilson. On the self-similar nature of ethernet traffic (extended version). IEEE/ACM Transactions on networking, 2(1):1– 15, 1994.
[11] Laurent Miclet. Grammatical inference. In Syntactic and Structural Pattern Recognition—Theory and Applications, pages 237–290. World Scientific, 1990.
[12] Sowmya Myneni, Ankur Chowdhary, Abdulhakim Sabur, Sailik Sengupta, Garima Agrawal, Dijiang Huang, and Myong Kang. Dapt 2020-constructing a benchmark dataset for advanced persistent threats. In Deployable Machine Learning for Security Defense: First International Workshop, MLHat 2020, San Diego, CA, USA, August 24, 2020, Proceedings 1, pages 138–163.
Springer, 2020.
[13] Iman Sharafaldin, Arash Habibi Lashkari, and Ali A Ghorbani. Toward generating a new intrusion detection dataset and intrusion traffic characterization. ICISSp, 1:108–116, 2018.
[14] Rafael Uetz, Christian Hemminghaus, Louis Hackländer, Philipp Schlipper, and Martin Henze. Reproducible and adaptable log data generation for sound cybersecurity experiments. In Annual Computer Security Applications Conference, pages 690–705, 2021.
[15] Pan Wang, Shuhang Li, Feng Ye, Zixuan Wang, and Moxuan Zhang. Packetcgan: Exploratory study of class imbalance for encrypted traffic classification using cgan. In ICC 2020 - 2020 IEEE International Conference on Communications (ICC), pages 1–7, 2020.

 

Liste des encadrants et encadrantes de thèse

Nom, Prénom
Guette Gilles
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
IRISA
Equipe

Nom, Prénom
Gimenez Pierre-François
Type d'encadrement
Co-encadrant.e
Unité de recherche
IRISA
Equipe

Nom, Prénom
Majorczyk Frédéric
Type d'encadrement
Co-encadrant.e
Unité de recherche
collaborateur extérieur IRISA
Equipe

Nom, Prénom
Han Yufei
Type d'encadrement
Co-encadrant.e
Unité de recherche
INRIA
Equipe
Contact·s
Mots-clés
cybersécurité, données réseaux, génération, intelligence artificielle, deep learning, data mining, évaluation d’outils de détections