La détection de variations génétiques est un enjeu majeur dans le diagnostic des maladies génétiques chez l’homme. Certains types de variations sont détectés dans la routine d'analyse. D'autres, comme les variations de structure de type insertion sont bien plus complexes à identifier. Le développement de nouvelles technologies de séquençage dites longs reads permet de faciliter la détection de ces insertions. Elles ont notamment permis la génération d’ensembles de variants de référence d’une qualité sans précédent. Néanmoins, cette technologie possède encore des faiblesses qui ne permettent pas son utilisation pour la détection de variants dans un usage clinique. Il est donc essentiel d’améliorer les outils de détection basés sur les technologies de séquençage de courtes lectures utilisées dans un contexte médical. Cette thèse présente la caractérisation des différentes insertions et des facteurs limitant leur détection, basée sur ces jeux de données de référence de haute qualité. L’utilisation de simulations d'insertions a permis de quantifier l’impact de ces facteurs et mis en lumière la faiblesse des outils actuels à détecter et assembler la séquence des insertions. Ces résultats ont permis de proposer des pistes d'améliorations des outils de détection d’insertions. Plusieurs améliorations ont ainsi été implémentées dans l'outil existant MindTheGap et ont permis de surpasser certaines de ses limites.
VIARI Alain, Directeur de recherche, Inria, Centre Grenoble Rhône-Alpes (Rapporteur )
CHIKHI Rayan, Chargé de recherche, CNRS, Institut Pasteur, Paris (Examinateur)
DAMERON, Olivier, Professeur d’Université, Irisa, Université de Rennes (Examinateur)
DE TAYRAC Marie, Maîtresse de conférence et Praticienne hospitalière, IGDR, Université de Rennes (Invitée)
LEMAITRE Claire, Chargée de recherche, IRISA/Inria, Rennes (Directrice de thèse)
THEVENON Julien, Professeur d’Université et Praticien hospitalier, Inserm, Université de Grenoble (Co-directeur de thèse)