Plusieurs bases de données de vulnérabilités existent. L’objectif de cette thèse est, à partir de catalogues de
vulnérabilités existants, de modéliser, classifier et généraliser les vulnérabilités des logiciels, afin de
retrouver ces vulnérabilités ou leurs variants, ou de trouver de nouvelles vulnérabilités apparentées, dans
des bases de code (dépôts de code logiciel, public ou privés).
Cette thèse consiste à mettre en place la modélisation appropriée à partir d’une base de données
(catalogue) classant les vulnérabilités et d’en faire un apprentissage exploitable. Les vulnérabilités
pourraient prendre diverses formes (anti-patterns, AST incorrects, utilisation d’API dépréciées,
Le but de l’apprentissage sera tout particulièrement d’être capable d’abstraire et généraliser les
vulnérabilités en fratries (une vulnérabilité et ses variantes). Ceci permettra une robustesse vis-à-
vis des contextes de code dans lesquels se trouveront insérées les vulnérabilités à détecter.
Ce dernier point est tout particulièrement crucial car la conception de systèmes informatiques
modernes se base de plus en plus sur leur modularisation en une multitude de micro-services, qui
proposent des fonctionnalités plus petites mais qui interagissent intensivement. Cette structure
est particulièrement favorable à de nouvelles attaques [13] en plusieurs étapes, correspondant à
des vulnérabilités qui peuvent être dispersées à divers endroits dans le système. Des exemples
peuvent être des anti-patterns ou bien l’utilisation d’arbres de syntaxe abstraite incorrects.
Ainsi, leur détection est également plus difficile puisque noyée et dispersée dans le reste du code.
Les bases de données (i.e., catalogues) référençant les vulnérabilités ne prennent pas
nécessairement en compte cet aspect et il devient donc difficile de les détecter efficacement. De
plus, du fait de l’hétérogénéité des systèmes et des micro-services, il est important de pouvoir
gagner en généralisation afin de prendre en compte d’éventuels variants ou de prévoir l’apparition
de futurs variants.
Afin de pouvoir analyser et contrer un maximum de ces vulnérabilités (et variants associés),
l’utilisation de techniques d’intelligence artificielle (surtout basées sur de l’apprentissage machine)
est une direction prometteuse.
Cependant pour que ces techniques soient effectives, il faut d’une part pouvoir abstraire la façon
dont se matérialisent ces vulnérabilités, et d’autre part que l’abstraction choisie soit capable d’en
capturer les variantes. De plus, elles devront être efficaces et capable de monter en charge de
façon à être utilisables en pratique.
