GENération par Intelligence Artificielle de données Légitimes de 2 sortes

Submitted by Frederic MAJORCZYK on mar 07/01/2025 - 14:49

Team

PIRAT

Website of the team

https://team.inria.fr/pirat/

Date of the beginning of the PhD (if already known)

Octobre 2025

Place

Rennes

Laboratory

IRISA - UMR 6074

Description of the subject

Les systèmes de détection d’intrusion (dits IDS pour ≪ intrusion detection system ≫) ont pour objectif de détecter les attaques et sont des outils essentiels à la protection des systèmes d’information. Pour mettre au point, comparer et évaluer les IDS, qu’ils soient commerciaux ou académiques, il est nécessaire d’avoir des jeux de données représentant l’activité normale d’un système et contenant des scénarios d’attaque. Cependant, un jeu de données est difficile à constituer et à étiqueter. En effet, soit les données sont capturées sur un système réel, ce qui pose des problèmes de vie privée, d’anonymisation et d’étiquetage ; soit les données sont générées sur des plateformes d’expérimentation, ce qui pose des problèmes au niveau du réalisme de l’activité normale. Cette activité est produite via des scripts et n’atteint généralement pas la diversité des comportements réels rencontrés. Un autre problème des jeux de données réels ou simulés est leur obsolescence : un certain nombre de jeux de données publics, comme DAPT-2020 [9], CICIDS-2018 [11], DARPA OpTC [1] existent mais ne représentent qu’un type de SI à un moment donné. De plus, ils contiennent souvent des erreurs [6]. Enfin, ces deux méthodes ont l’inconvénient d’être lentes : une journée d’activité correspond nécessairement à une journée de capture ou d’expérimentation, ce qui empêche un processus rapide d’itération nécessaire à des données de bonne qualité. Une troisième méthode basée sur de l’apprenttissage machine a été proposée plus récemment. Cette méthode n’a pas certains des désavantages des deux premières méthodes, notamment l’obsolescence des données et la lenteur de capture ou génération de ces données. Il reste cependant des questions ouvertes, par exemple, sur le réalisme de l’activité générée.

Cette thèse s’intègre dans ce troisième ensemble de méthodes et vise donc à générer des données réseau et système légitimes (i.e., sans attaques) via des outils d’intelligence artificielle pour répondre à ce besoin d’évaluation. Nous avons précédemment proposé une méthode pour générer des données réseau de meilleure qualité que l’état de l’art dans le cadre de la thèse d’Adrien Schoen (thèse Creach Labs ≪ Rage ≫) et nous avons des projets en cours pour générer de paquets réseau. Dans ce projet de thèse, nous proposons de poursuivre ces travaux via deux principaux axes : (1) le transfert de l’apprentissage effectué sur une architecture réseau vers une autre architecture, par exemple en ajoutant des serveurs Web ou en augmentant le nombre de postes utilisateurs, et (2) la génération de données système (i.e., des logs applicatifs et OS) cohérentes avec des données réseau. De plus, il sera important lors de la thèse d’étudier la problématique de l’évaluation de la génération, en définissant les propriétés souhaitées et les méthodes d’évaluation de ces propriétés. On pourra s’appuyer sur la thèse Creach Labs en cours sur la génération de données réseau où une importante partie du travail du doctorant a été la définition d’un framework d’évaluation pour ce type de données.

Description des objectifs et originalité de la thèse

Cette thèse vise à : (1) paramétriser la génération avec la description du réseau, (2) générer des données système conjointement à des données réseau (3) évaluer la génération des données réseau et système et leur cohérence.

La paramétrisation de la génération a été étudiée notamment par [7] dans le cadre de la génération de
≪ network flow ≫, en s’appuyant sur une modélisation simplifiée des interactions, où chaque machine est supposée interagir indépendamment les unes des autres. Cette hypothèse n’est pas réaliste dans les architectures modernes o`u un grand nombre de serveurs interagissent entre eux (serveur Web, serveur DNS, CDN, base de données, etc.).

Cette paramétrisation de la génération est une forme d’apprentissage par transfert : le modèle apprend dans une configuration (une topologie réseau et une configuration système) et doit ensuite générer pour une autre configuration, similaire mais distincte. On peut raisonnablement s’attendre que des connaissances inférées sur le fonctionnement d’un OS ou les protocoles réseau puissent effectivement se transférer d’une configuration à une autre. Cette approche d’apprentissage par transfert a été utilisée par [8] pour adapter des attaques d’une configuration à une autre mais n’a pas été appliquée à des données légitimes.

La génération conjointe de données réseau et système est nécessaire pour évaluer des outils s’appuyant sur les deux sources de données comme les SIEM. Les SIEM (≪ Security information and event management ≫) trient et agrègent des alertes provenant de plusieurs détecteurs, comme des anti-virus, des détecteurs applicatifs et système, et des détecteurs basés sur le réseau. A notre connaissance, il n’existe actuellement pas de méthode pour générer conjointement du trafic réseau et des logs système cohérents qui ne se base pas sur l’émulation ou la simulation.

Description des principaux verrous et techniques envisagées

Le transfert d’apprentissage de génération est un problème ambitieux, car les modèles appris sur une architecture sont rarement transférables directement à une autre architecture. De plus, dans notre contexte, nous ne supposons connaître que la configuration cible (i.e., la topologie réseau et la configuration système), sans données d’observation. Pour résoudre ce problème, nous proposons d’identifier automatiquement les différents rôles des hôtes d’un système (client, serveur Web, serveur Active Directory, etc.) en fonction de leur activité réseaux, ainsi les relations qu’ils entretiennent. Pour cela, nous proposons de reprendre et d’étendre IP2Vec [10], une méthode de création d’embedding spécialisée pour les adresses IP et qui permet d’inférer à partir du contexte d’une IP son rôle dans le réseau. De cette manière, il sera bien plus aisé de paramétrer la génération par le nombre de machines pour chaque rôle. Si nous observons que cette approche n’est pas suffisante, nous pourrons lever l’une de nos hypothèses et supposer avoir quelques données d’observation. Cela permettrait d’utiliser des méthodes d’apprentissage par transfert, et notamment le fine-tuning qui est la méthode de référence.

Plusieurs précédents travaux se sont intéressés à la génération de logs système [3], mais sans chercher à lier cette génération à des communications réseau. Pour répondre à cette problématique, nous proposons de faire une génération en deux temps : d’abord une génération de graphe de provenance, qui modélise les interactions entre les processus et les ressources (fichiers, clés de registres, sockets, etc.) d’un système, puis la création de logs correspondant à ces évènements. Pour ce faire, nous allons utiliser des m´éthodes de génération de graphe de connaissances tels qu’étudiées dans le domaine du pattern mining [2, 4]. Pour la génération de logs, étant donné qu’il s’agit de données textuelles semi-structurées, nous proposons d’utiliser des LLMs (large language models) qui ont prouvé leur efficacité pour l’opération inverse : l’analyse de logs [13].

Un verrou important est la cohérence entre les données réseau et système générées. Nous proposons de d’abord générer des données réseau, puis d’en déduire des données système cohérente. Nous préférons cette approche à l’inverse car les données réseau apportent naturellement une vision plus globale des évènements d’un système d’information. En générant d’abord les communications réseau, on s’assure également d’une certaine cohérence entre les données système générées. Nous pensons que les graphes de provenance ont la bonne granularité pour intégrer un conditionnement issu de la génération de données réseau permettant de s’assurer que la cohérence entre les deux types de données car ces graphes dénotent les interactions entre les communications réseau et le reste du système.

Approche m´ethodologique et critères de qualité des résultats obtenus

Pour pouvoir évaluer la méthode de génération, il sera possible de s’appuyer sur des plateformes de génération d’expérimentation cyber telles que Socbed [12] ou Kyoushi [5]. La plateforme Socbed a notamment déjà été améliorée dans des travaux de l’équipe PIRAT. Grâce à ces plateformes, il est possible de générer un système d’information dont les paramètres sont contrôlés (nombre de machines clients, services instanciés, etc.) et de l’activité bénigne dans ce système. Ceci va permettre d’évaluer notamment les travaux sur la paramétrisation de la génération : il sera possible d’apprendre à partir du trafic d’un système d’information défini, de générer de l’activité à partir d’une configuration différente du système d’information et de comparer ensuite cette activité à celle générée par la plateforme avec les seconds paramètres. Le démonstrateur issu de l’étude amont ≪ jeux de données ≫sera une autre possibilité pour faire ces évaluations, à une échelle plus importante que Socbed ou Kyoushi. Pour évaluer la généralisation des générateurs, nous nous appuieront notamment sur l’outil ”FedITN gen” développé à l’IMT Atlantique et qui permet de générer des topologies réseau réalistes.

Le candidat ou la candidate pourra soumettre ses travaux aux conférences internationales en sécurité (RAID, DIMVA, Usenix SEC, ACSAC, NDSS, etc.) mais également suivant le prisme des travaux aux conférences en IA (NeurIPS, ICML, KDD, ICASSP, etc.). Il pourra également présenter ses travaux à la communauté francophone au sein du GDR Sécurité ou dans les conférences telles que RESSI, C&ESAR et CAID.

Bibliography

[1] Darpa optc. https ://github.com/FiveDirections/OpTC-data, Accessed : 2024-01-20.

[2] Robert P Dick, David L Rhodes, and Wayne Wolf. Tgff : task graphs for free. In Proceedings of the Sixth International Workshop on Hardware/Software Codesign.(CODES/CASHE’98), pages 97–101. IEEE, 1998.

[3] Yintong Huo, Yichen Li, Yuxin Su, Pinjia He, Zifan Xie, and Michael R Lyu. Autolog : A log sequence synthesis framework for anomaly detection. In 2023 38th IEEE/ACM International Conference on Automated Software Engineering (ASE), pages 497–509. IEEE, 2023.

[4] Jérôme Kunegis, Jun Sun, and Eiko Yoneki. Guided graph generation : Evaluation of graph generators in terms of network statistics, and a new algorithm. arXiv preprint arXiv :2303.00635, 2023.

[5] Max Landauer, Florian Skopik, Maximilian Frank, Wolfgang Hotwagner, Markus Wurzenberger, and Andreas Rauber. Maintainable log datasets for evaluation of intrusion detection systems. IEEE Transactions on Dependable and Secure Computing, 2022.

[6] Maxime Lanvin, Pierre-François Gimenez, Yufei Han, Frédéric Majorczyk, Ludovic Mé, and Eric Totel. Errors in the cicids2017 dataset and the significant differences in detection performances it makes. In CRiSIS 2022-International Conference on Risks and Security of Internet and Systems, pages 1–16, 2022.

[7] Will E Leland, Murad S Taqqu, Walter Willinger, and Daniel V Wilson. On the self-similar nature of ethernet traffic (extended version). IEEE/ACM Transactions on networking, 2(1) :1–15, 1994.

[8] Yanjie Li, Tianrui Liu, Dongxiao Jiang, and Tao Meng. Transfer-learning-based network traffic automatic generation framework. In 2021 6th International Conference on Intelligent Computing and Signal Processing (ICSP), pages 851–854. IEEE, 2021.

[9] Sowmya Myneni, Ankur Chowdhary, Abdulhakim Sabur, Sailik Sengupta, Garima Agrawal, Dijiang Huang, and Myong Kang. Dapt 2020-constructing a benchmark dataset for advanced persistent threats. In Deployable Machine Learning for Security Defense : First International Workshop, MLHat 2020, San Diego, CA, USA, August 24, 2020, Proceedings 1, pages 138–163. Springer, 2020.

[10] Markus Ring, Alexander Dallmann, Dieter Landes, and Andreas Hotho. Ip2vec : Learning similarities between ip addresses. In 2017 IEEE International Conference on Data Mining Workshops (ICDMW), pages 657–666. IEEE, 2017.

[11] Iman Sharafaldin, Arash Habibi Lashkari, and Ali A Ghorbani. Toward generating a new intrusion detection dataset and intrusion traffic characterization. ICISSp, 1 :108–116, 2018.

[12] Rafael Uetz, Christian Hemminghaus, Louis Hackländer, Philipp Schlipper, and Martin Henze. Reproducible and adaptable log data generation for sound cybersecurity experiments. In Annual Computer Security Applications Conference, pages 690–705, 2021.

[13] Aoxiao Zhong, Dengyao Mo, Guiyang Liu, Jinbu Liu, Qingda Lu, Qi Zhou, Jiesheng Wu, Quanzheng Li, and Qingsong Wen. Logparser-llm : Advancing efficient log parsing with large language models. In Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pages 4559–4570, 2024.

Researchers

Mé Ludovic

Type of supervision

Director

Laboratory

Irisa UMR 6074

Department

D1 - Secured and large scale systems

Team

PIRAT

Gimenez Pierre-François

Type of supervision