Classification de Logiciels Malveillants Dirigée par les Données et Assistée par des Méthodes d’Apprentissage Automatique

Defense type
Thesis
Starting date
End date
Location
IRISA Rennes
Room
Grand Amphi
Speaker
Cassius DE OLIVEIRA PUODZIUS (DIVERSE)
Theme

Vous êtes cordialement invités à venir assister à la soutenance de thèse de Cassius De Oliveira Puodzius, équipe DiverSE, le lundi 19 décembre à 14h00 dans le grand Amphi.

 

Classification de Logiciels Malveillants Dirigée par les Données et Assistée par des Méthodes d’Apprentissage Automatique

 

Historiquement, l’analyse des logiciels malveillants (ou malware, MW) a fortement fait appel au savoir-faire humain pour la création manuelle de signatures permettant de détecter et de classer les MW. Cette procédure est très coûteuse et prend beaucoup de temps, ce qui ne permet pas de faire face aux scénario modernes de cybermenaces. La solution consiste à automatiser largement l’analyse des MW.

Dans ce but, la classification des MW permet d’optimiser le traitement de grands corpus de MW en identifiant les ressemblances entre des instances similaires. La classification des MW est donc une activité clé liée à l’analyse des MW.

Cette thèse aborde le problème de la classification des MW en adoptant une approche pour laquelle l’intervention humaine est évitée autant que possible. De plus, nous contournons la subjectivité inhérente à l’analyse humaine en concevant la classification uniquement à partir de données directement issues de l’analyse des MW, adoptant ainsi une approche dirigée par les données. Notre objectif est d’améliorer l’automatisation de l’analyse des MW et de la combiner avec des méthodes d’apprentissage automatique capables de repérer et de révéler de manière autonome des points communs imprévisibles au sein des données. Nous avons échelonné notre travail en trois étapes. Dans un premier temps, nous nous sommes concentrés sur l’amélioration de l’analyse des MW et sur son automatisation, étudiant de nouvelles façons d’exploiter l’exécution symbolique dans l’analyse des MW et développant un cadre d’exécution distribué pour augmenter notre puissance de calcul. Nous nous sommes ensuite concentrés sur la représentation du comportement des MW, en accordant une attention particulière à sa précision et à sa robustesse.

Enfin, nous nous sommes focalisés sur le partitionnement des MW, en concevant une méthodologie qui qui ne restreint pas la combinaison des caractéristiques syntaxiques et comportementales, et qui monte bien en charge en pratique.

Quant à nos principales contributions, nous revisitions l’usage de l’exécution symbolique pour l’analyse des MW en accordant une attention particulière à l’utilisation optimale des tactiques des solveurs SMT et aux réglages des hyperparamètres ; nous concevons un nouveau paradigme d’évaluation pour les systèmes d’analyse des MW ; nous formulons une représentation compacte du comportement sous la forme de graphe, ainsi qu’une fonction associée pour le calcul de la similarité par paire, qui est précise et robuste ; et nous élaborons une nouvelle stratégie de partitionnement des MW basée sur un partitionnement d’ensemble flexible en ce qui concerne la combinaison des caractéristiques syntaxiques et comportementales.

Composition of the jury
Rapporteur
- Jacques KLEIN (Professeur) Université du Luxembourg
- Amedeo NAPOLI (DR émérite) CNRS LORIA Nancy

- Eric ALATA (MCF) INSA Toulouse
- Olivier BARAIS (Professeur) Université Rennes1 - IRISA
- Nathalie BERTRAND (DR) INRIA Rennes
- Rafael Timoteo DE SOUSA (PR) Université de Brasilia
- Annelie HEUSER (CR) CNRS - IRISA Rennes
- Ludovic ME (DR) INRIA Rennes
- Olivier ZENDRA (CR) INRIA Rennes