Network Traffic Generation for Evaluation of Intrusion Detection Tool: Machine learning based generation of synthetic network flows

Defense type

Thesis

Starting date

Wed 18/12/2024 - 09:30

Room

CENTRALESUPELEC, salle BL

Speaker

SCHOEN Adrien (PIRAT)

Main department

D1 - Secured and large scale systems

Theme

Titre :

Network Traffic Generation for Evaluation of Intrusion Detection Tool: Machine learning based generation of synthetic network flows

Résumé :

Avec la montée en puissance des infrastructures numériques, la cybersécurité est devenue une priorité mondiale. Les systèmes de détection d’intrusion réseau (NIDS) sont essentiels pour sécuriser les communications en détectant les activités malveillantes. Cependant, pour évaluer l’efficacité des NIDS, il est nécessaire de disposer de grands volumes de trafic réseau bénin. Or, l’acquisition de ces données pose des problèmes de confidentialité, d’étiquetage, et les méthodes de simulation de trafic atteignent leurs limites. Face à ces défis, la recherche s’oriente vers la génération de trafic synthétique, qui permet de protéger la vie privée et de passer à l’échelle, mais souffre encore d’un manque de cadre standard pour évaluer la qualité des données générées, et son efficacité par rapport aux simulations traditionnelles reste à démontrer.

Cette thèse s’inscrit dans cet effort de remplacement des simulations par des approches de génération de trafic synthétique. Nous commençons par un état de l’art détaillé des méthodes existantes, en mettant en lumière leurs tendances et leurs limites. Constatant l’absence d’un cadre d’évaluation standardisé, nous proposons un protocole d’évaluation permettant de mesurer la qualité du trafic généré par différents modèles. Par ailleurs, nous introduisons deux nouvelles approches de génération de flux réseau : la première, basée sur des réseaux bayésiens, se montre plus performante que les méthodes actuelles reposant sur des GANs ; la seconde, fondée sur la découverte de motifs récurrents, produit un trafic diversifié et réaliste, offrant ainsi une alternative prometteuse aux simulations traditionnelles.

Ces contributions visent à positionner la génération de trafic synthétique comme une solution crédible pour remplacer les simulations, en fournissant à la communauté de la sécurité des réseaux des outils plus efficaces et adaptés à la création de jeux de données synthétiques de qualité. Le protocole d’évaluation et les méthodes proposées représentent un pas important vers une évaluation plus rigoureuse et cohérente des techniques de génération de trafic.

Abstract :

The increasing reliance on digital infrastructures has made cybersecurity a critical global concern. Network Intrusion Detection Systems (NIDS) play a vital role in safeguarding network communications by detecting malicious activities. However, evaluating the effectiveness of NIDS requires large, representative datasets of benign network traffic, which are difficult to obtain due to privacy concerns, labeling challenges, and the limitations of simulated traffic. To address these challenges, the research community has turned to model-based synthetic data generation, which offers privacy preservation and scalability but lacks comprehensive evaluation standards and proven effectiveness over traditional simulation methods.

This thesis contributes to the ongoing effort to replace simulation with model-based network traffic generation. We first conduct a comprehensive survey of model-based methods, highlighting current trends and limitations. Recognizing the absence of a standardized evaluation framework, we develop a benchmark for assessing the quality of generated traffic across various generative models. Furthermore, we propose two novel methods for generating network flows: one based on Bayesian Networks that outperforms existing GAN-based methods, and another based on Pattern Mining that produces realistic, diverse network traffic. The latter method offers the potential to substitute traditional simulation in network traffic generation, particularly for NIDS evaluation.

Through these contributions, we aim to establish model-based generation as a viable alternative to simulation, providing the network security community with more efficient and scalable tools for creating high-quality synthetic datasets. Our proposed benchmark and generation methods represent a significant step towards this goal, facilitating more rigorous and meaningful comparisons in future research.

Composition of the jury

– Jilles VREEKENS tenured faculty, CISPA Helmholtz Center for Information Security
– Herve DEBAR Professeur, Telecom SudParis
– Maryline LAURENT Professeur, Telecom SudParis
– Pierre-Henri WUILLEMIN Maitre de conférences, Sorbonne Université
– Ludovic ME Chercheur Contractuel Sénior, INRIA
– Gregory BLANC Maitre de conférences, Telecom SudParis
– Frederic MAJORCZYK Ingénieur, DGA-MI
– Yufei HAN Chercheur Contractuel Sénior, INRIA