[DYLISS] Soutenance de thèse de Nicolas BUTON - Mercredi 18 octobre 2023 - 10H00 - Salle Métivier

Defense type
Thesis
Starting date
End date
Location
IRISA Rennes
Room
Métivier
Speaker
Nicolas BUTON
Theme

Titre : Modèle Transformer pour l'interprétabilité et les prédictions multi-niveaux des fonctions des protéines à partir de leurs séquences

Mots clés : Annotation fonctionnelle automatique, Apprentissage profond, Transformer, Enzymes, Gene Ontology

Abstract : L'annotation automatique des séquences protéiques est en plein essor pour gérer l'augmentation des séquences non annotées expérimentalement. Premièrement nous avons étudié l'application du Transformer à la prédiction des fonctions enzymatiques. Le modèle EnzBert améliore le macro-f1 de 41\% à 54\% comparé au précédent état de l'art. De plus une comparaison des méthodes d'interprétabilité montre qu'une approche basée sur l'attention obtient un score F-Gain de 96,05\%, surpassant les méthodes classiques (91,44\%). Deuxièmement l'intégration de la Gene Ontology dans les modèles de prédiction de fonctions a été explorée. Deux approches ont été testées : l'intégration dans le processus de labellisation et l'utilisation de plongements hyperboliques. Les résultats obtenus confirment à la fois l'efficacité de la propagation des labels selon la hiérarchie GO et la supériorité des plongements hyperboliques (mean WFmax: 0.36) par rapport au modèle euclidien (0.34) en petite dimension (32). Ils maintiennent une plus grande cohérence avec la Gene Ontology (relations correctements ordonnées: 99.25\%-99.28\% vs. 78.48\%-91.41\% pour modèle euclidien).}

Composition of the jury
Rapporteur.rices avant soutenance :

Nataliya SOKOLOVSKA Professeure des universités, laboratoire LCQB, Paris, France
Blaise HANCZAR Professeur des universités, Université Paris-Saclay, Université d’Evry, laboratoire IBISC, France

Composition du Jury :

Présidente : Nataliya SOKOLOVSKA Professeure des universités, laboratoire LCQB, Paris, France

Examinateur.rices :

Tatiana GALOCHKINA Maîtresse de conférences, Université Paris Cité, labroratoire BIGR, France
Blaise HANCZAR Professeur des universités, Université Paris-Saclay/Evry, laboratoire IBISC, France
Yann Le Cunff Maître de conférences, Université de Rennes, France
François COSTE Chargé de recherche Inria, Rennes, France
Nataliya SOKOLOVSKA Professeure des universités, laboratoire LCQB, Paris, France
Dir. de thèse : Olivier Dameron Professeur des universités, Université de Rennes, France
Encadr. de thèse : Yann Le Cunff Maître de conférences Université de Rennes, France
Encadr. de thèse : François COSTE Chargé de recherche Inria, Rennes, France