Développement de modèles de détection basés sur des modèles de fondation pour l'analyse réseau à partir de netflow

Submitted by Gilles GUETTE on
Team
Date of the beginning of the PhD (if already known)
01/10/2025
Place
IMT Atlantique Rennes/IRISA
Laboratory
IRISA - UMR 6074
Description of the subject

À mesure que notre dépendance à l'égard de l'infrastructure numérique s'accroît, les risques associés aux cyberattaques deviennent plus graves. Avec la prolifération des cybermenaces et la sophistication croissante des attaquants, la nécessité de détecter les activités malveillantes sur les réseaux informatiques est devenue impérative et constitue l'une des priorités du Centre d'Analyse en Lutte Informatique Défensive (CALID).

Les systèmes de détection d'intrusion dans les réseaux (NIDS) jouent un rôle crucial dans cette tâche essentielle, grâce à leur surveillance du trafic réseau, mais la diversité de ce trafic rend difficile la séparation entre le trafic légitime et le trafic malveillant. Pour rendre ces systèmes de sécurité plus robustes, de nombreuses recherches ont été menées sur l'utilisation de techniques avancées d'apprentissage automatique (ML) [6] et d'apprentissage profond (DL) [7, 8] pour la détection des intrusions réseau.

Un des défis majeurs auxquels font face les chercheurs et les experts pour développer ce genre d’outils en cybersécurité est le manque de données de qualité en quantité suffisante pour développer des outils de détection efficaces. Un modèle de fondation peut être entraîné à la fois sur des données simulées labellisées, et de manière auto-supervisée sur des données réelles non labellisées. Au sein de cette thèse, afin de développer un modèle de fondation pour la détection d’intrusion le plus efficace possible, nous souhaitons utiliser et adapter les résultats de la thèse RAGE (Adrien Schoen) afin d’avoir à disposition des données en quantité suffisante et représentatives de ce qui est déjà observé de manière opérationnelle au CALID (attaques étatiques, APT caractérisées par du beaconing, activité humaine...).

L’objectif principal de cette thèse est la création d’un outil de détection d’anomalies, s’appuyant sur données réelles disponibles au CALID et sur des données simulées que nous pourrons être amenées à compléter et améliorer en fonction des besoins.

Parmi les méthodes de Deep Learning envisagées, l’utilisation de modèles de fondation reposant sur des réseaux de neurones comme les Graph Neural Networks (GNN) rendus plus abordables grâce à des avancées récentes semble prometteuse [3, 4], en particulier en les couplant à des mécanismes d’attention [5].

Un tel modèle de fondation peut ensuite être spécialisé pour un contexte réseau particulier, et entraîné, à faible coût, à détecter du trafic malveillant ou inhabituel, par exemple du beaconing, y compris du beaconing peu fréquent, du beaconing utilisé pour passer des commandes, et des actions de latéralisation. Il pourra être, après cette phase de thèse, converti en outil utilisable pour de la détection en temps réel ou de la réponse à incident.


L’ensemble des résultats qui seront produits lors de cette thèse ont vocation à être publiés dans des conférences internationales pour profiter à l’ensemble de la communauté scientifique et industrielle. Une attention particulière sera néanmoins apportée avant publication par les autorités compétentes pour valider la possibilité de publication. Dans la mesure du possible, les jeux de données ayant permis les résultats seront aussi mis à disposition de la communauté. Des poids de modèles de fondation pourront aussi être publiés.


Description des principaux verrous et techniques envisagées
Pour des approches d'apprentissage machine, il est nécessaire d'avoir des jeux de données plus volumineux, plus divers et plus réalistes. La diversité des activités est cruciale, car elle reflète la complexité des opérations dans un réseau d'entreprise. La simulation doit également prendre en compte le séquencement temporel des activités, qui doit être très similaire à celle produite par un opérateur humain utilisant des logiciels courants. Ces données serviront de base pour l'entraînement et l'évaluation des modèles de détection. Diversité, qualité, séquencement et évaluation sont un premier verrou de cette thèse.


Les Graph Neural Network offrent une opportunité pour améliorer la détection des menaces dans les réseaux informatiques. Utilisés dans le cadre d’un modèle de fondation, et couplés à des mécanismes d’attention, leur capacité à capturer des structures générales les rend idéaux pour l'analyse de réseaux. Ils peuvent détecter des anomalies dans le trafic, identifier des schémas de comportement inhabituels et contribuer à la prévention et à la réponse aux incidents. Des premières études très récentes ont été lancées sur le sujet et ont commencé à démontrer le potentiel des GNN pour la détection d’intrusion [3, 4, 9, 10]. Ces travaux sont très récents et l’amélioration des GNN pour la détection constitue un second verrou important.


Approche méthodologique et critères de qualité des résultats obtenus
En combinant la création d'un jeu de netflows avec le développement de modèles novateurs basés sur les modèles de fondation, les Graph neural Network (GNN) et les mécanismes d’attention pour l'analyse réseau, cette thèse s'attaque à un défi crucial de la cybersécurité : la détection de comportements malveillants dans les flux réseaux. La raison du double objectif au sein de la même thèse est de créer un pont essentiel entre la génération de données de trafic réseau et l'application de modèles innovants réseaux de neurones dans le domaine de la détection d'intrusions. Cette approche permettra de mettre en place une boucle d'apprentissage continue, où les données générées seront utilisées pour entraîner et améliorer les modèles de fondation.
Ainsi, la thèse repose sur une synergie constante entre la simulation de données et l'application de modèles de fondation. Cette démarche garantira que les données de simulation sont adaptées à la détection d'intrusions, et que les modèles de réseau de neurones sont optimisés pour traiter ces données de manière efficace. L’ensemble des travaux sera valorisé au travers de publications dans les conférences reconnues du domaine (RAID, Usenix Security, AAAI) par la mise à disposition de la communauté des jeux de données générés et par la production de preuves de concept. Le doctorant aura également accès aux experts métiers de la cybersécurité au sein du CALID. Cela permettra au doctorant de s’ancrer dans des problématiques
opérationnelles et de profiter de l’expertise du centre.


Lors des 6 premiers mois de thèse, le candidat devra prendre en main l’état de l’art au travers d’une bibliographie fournie et complète sur les modèles de fondation ainsi que sur la qualité des données nécessaires en entrée de ces modèles. Le livrable sur les datasets du projet PEPR Superviz prévu pour avril 2025 pourra être un bon point de départ. En parallèle, il est attendu la prise en main des résultats de la thèse RAGE ainsi que leur adaptation si nécessaire aux modèles de fondations. Il est attendu en fin de première année de thèse, la génération d’un jeu de données utilisable pour l’apprentissage du futur modèle qui sera
conçu pendant la thèse. La deuxième année sera entièrement dédiée à la conception du modèle de détection d’anomalie avec certainement la nécessité de repasser sur la génération de données, certaines subtilités ne manquant certainement pas d’apparaître au fur et à mesure de l’avancée des travaux. La troisième année permettra d’explorer les pistes nouvelles que les deux premières années de thèse ne manqueront pas de mettre au jour et de finaliser les dernières contributions en vue de la soutenance.

Bibliography

[1] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, G. Lample, LLaMA: Open and Efficient Foundation Language Models, arXiv 2302.13971, 2023.
[2] J. Gardner, S. Durand, D. Stoller, R. Bittner, LLark: A Multimodal Foundation Model for Music, Spotify R&D, 2023.
[3] E. Caville, W. Weng, S. Layeghy, and M. Portmann. Anomal-E: A Self-Supervised Network Intrusion Detection System based on Graph Neural Networks. Knowledge-Based Systems,Volume 258, 2022.
[4] G. Cobo Arroniz. Detection of network attacks using Graph Neural Networks. Final Master’s thesis Universitat Politechnica de Catalunya (UPC). January, 2023.

[5] C. Sun, C. Li, X. Lin, T. Zheng, F. Meng, X. Rui, Z. Wang, Attention-based graph neural networks: a survey, Artificial Intelligence Review 56, 2263, 2023.
[6] E. Abdallah, W. Eleisah and A. Otoom. Intrusion detection systems using supervised Machine Learning techniques : a survey. The 13th International Conference on Ambient Systems, Networks and Technologies (ANT).Porto, Portugal. March 22-25, 2022
[7] W. niu, J. Zhou, Y. Zhao, X. Zhang, Y. Peng and C. Huang. Uncovering APT malware traffic using deep learning combined with time sequence and association analysis. Computers & Security, Volume 120, September, 2022.
[8] H. Li, B. Liu, Y. Liu, Y Sun and B. Xie. Use Neural Structured Learning for beaconing detection.Columbia University, 2020.
[9] S. Mitra, T. Chakraborty, S. Neupane, A. Piplai, S. Mittal, Use of Graph Neural Networks in Aiding Defensive Cyber Operations, arXiv 2401.05680, 2024.
[10] C. Catal, H. Gunduz, A. Ozcan, Malware Detection Based on Graph Attention Networks for Intelligent Transportation Systems, Electronics 10, 2534, 2021.

Researchers

Lastname, Firstname
GUETTE Gilles
Type of supervision
Director
Laboratory
IRISA
Team

Lastname, Firstname
AUBOURG Eric
Type of supervision
Co-director (optional)
Laboratory
APC
Contact·s
Nom
GUETTE Gilles
Email
gilles.guette@imt-atlantique.fr
Keywords
Détection d'intrusion, Netflow, Modéle de fondation