Correction et production de jeux de données pour la détection d’intrusion réseau et génération d’explications pour les alertes produites par une version améliorée d’un NIDS fonctionnant à partir d’un Auto-Encodeur

Type de soutenance
Thèse
Date de début
Salle
CENTRALESUPELEC
Orateur
LANVIN Maxime (PIRAT)
Sujet

Titre :

Correction et production de jeux de données pour la détection d’intrusion réseau et génération d’explications pour les alertes produites par une version améliorée d’un NIDS fonctionnant à partir d’un Auto-Encodeur

Résumé :

Les systèmes de détection d’intrusion (IDS) permettent de détecter des attaques contre les systèmes d’information et, éventuellement, d’y réagir. La détection se fait soit au niveau du réseau, soit au niveau des machines hôtes. Dans cette thèse nous nous intéressons plus particulièrement aux IDS utilisant les données du réseau (NIDS).

L’apprentissage machine (ML) est aujourd’hui largement exploré dans le monde de la recherche pour réaliser la détection. Cependant, ces approches génèrent une grande quantité de fausses alertes et, selon les modèles utilisés, les alertes peuvent être difficiles à comprendre à cause du manque de transparence de ces modèles. En outre, l’évaluation des performances est complexe ; celle-ci repose sur des jeux de données dont la qualité est très variable.

Ainsi, nous avons relevé de multiples défauts dans plusieurs jeux de données de référence dont CICIDS2017 qui est très utilisé pour l’évaluation des IDS. L’identification, la correction des problèmes identifiés et l’évaluation de leur impact constitue la première contribution de cette thèse.

Face à l’ampleur des problèmes identifiés et étant donné le peu d’alternatives satisfaisantes disponibles, nous avons produit un nouveau jeu de données pour la détection d’intrusion nommé miniDEDALE. Il a été obtenu en améliorant en profondeur la plateforme SOCBED, qui fournit un système d’information virtualisé. Cela constitue la deuxième contribution de la thèse.

Face au manque de transparence des approches de détection utilisant de l’apprentissage automatique (en l’occurrence un auto-encodeur), la troisième contribution de cette thèse est une méthode, AE-pvalues, permettant d’expliquer les alertes. En pratique, ces explications permettent aux analystes de cerner rapidement les caractéristiques réseau qui sont anormales et permettent de démarrer plus facilement l’investigation. Nous avons aussi montré que les explications pouvaient permettre de regrouper les alertes liées au même type d’attaque. Enfin, une étude est proposée concernant l’utilisation de ces explications pour réduire le nombre de fausses alertes automatiquement.

Abstract :

Intrusion Detection Systems (IDS) are used to detect and, if possible, respond to attacks on information systems. Detection takes place either at the network level or at the host level. This thesis focuses on IDS using network data (NIDS).

Machine learning (ML) is now widely explored in the research community as a means of detection. However, these approaches generate a large number of false alerts, and depending on the models used, alerts can be difficult to understand due to the lack of transparency of these models. In addition, performance evaluation is complex, relying on datasets of widely varying quality.

For example, we found multiple defects in several reference datasets, including CICIDS2017, which is widely used for IDS evaluation. Identifying and correcting the problems identified and assessing their impact is the first contribution of this thesis.

Given the significance of these issues and the limited availability of high-quality alternatives, we introduce a new intrusion detection dataset, miniDEDALE, created by significantly enhancing the SOCBED platform—a virtualized information system. This is the second contribution.

Given the lack of transparency of detection approaches using machine learning (in particular, an auto-encoder), the third contribution of this thesis is AE-pvalues, which is a method for explaining alerts. In practice, these explanations enable analysts to swiftly pinpoint abnormal network features and facilitate the start of investigations. Additionally, we show that these explanations can be leveraged to cluster alerts from similar attack types. Finally, a study is proposed on the use of these explanations to reduce the number of false alerts automatically.

Composition du jury
– XIANGLIANG Zhang, Full Professor, Université Notre-Dame, Notre Dame, IN, États-Unis
DEBAR Hervé, Professeur, Télécom-SudParis, Paris, France

– FRANÇOIS Jérôme, Senior Research Scientist, Université du Luxembourg, Luxembourg, Luxembourg

– MÉ Ludovic, Chercheur Contractuel Sénior ARP, Inria, Rennes, France

– GIMENEZ Pierre-François, Enseignant Chercheur Contractuel, CentraleSupélec, Rennes, France

– TOTEL Eric, Professeur, Télécom-SudParis, Paris, France

Invités :
– HAN Yufei, Chercheur Contractuel Sénior à Inria, Rennes, France
– MAJORCZYK Frédéric, Ingénieur à DGA-MI, Bruz, Franc