Titre : Modèle Transformer pour l'interprétabilité et les prédictions multi-niveaux des fonctions des protéines à partir de leurs séquences
Mots clés : Annotation fonctionnelle automatique, Apprentissage profond, Transformer, Enzymes, Gene Ontology
Abstract : L'annotation automatique des séquences protéiques est en plein essor pour gérer l'augmentation des séquences non annotées expérimentalement. Premièrement nous avons étudié l'application du Transformer à la prédiction des fonctions enzymatiques. Le modèle EnzBert améliore le macro-f1 de 41\% à 54\% comparé au précédent état de l'art. De plus une comparaison des méthodes d'interprétabilité montre qu'une approche basée sur l'attention obtient un score F-Gain de 96,05\%, surpassant les méthodes classiques (91,44\%). Deuxièmement l'intégration de la Gene Ontology dans les modèles de prédiction de fonctions a été explorée. Deux approches ont été testées : l'intégration dans le processus de labellisation et l'utilisation de plongements hyperboliques. Les résultats obtenus confirment à la fois l'efficacité de la propagation des labels selon la hiérarchie GO et la supériorité des plongements hyperboliques (mean WFmax: 0.36) par rapport au modèle euclidien (0.34) en petite dimension (32). Ils maintiennent une plus grande cohérence avec la Gene Ontology (relations correctements ordonnées: 99.25\%-99.28\% vs. 78.48\%-91.41\% pour modèle euclidien).}
Nataliya SOKOLOVSKA Professeure des universités, laboratoire LCQB, Paris, France
Blaise HANCZAR Professeur des universités, Université Paris-Saclay, Université d’Evry, laboratoire IBISC, France
Composition du Jury :
Présidente : Nataliya SOKOLOVSKA Professeure des universités, laboratoire LCQB, Paris, France
Examinateur.rices :
Tatiana GALOCHKINA Maîtresse de conférences, Université Paris Cité, labroratoire BIGR, France
Blaise HANCZAR Professeur des universités, Université Paris-Saclay/Evry, laboratoire IBISC, France
Yann Le Cunff Maître de conférences, Université de Rennes, France
François COSTE Chargé de recherche Inria, Rennes, France
Nataliya SOKOLOVSKA Professeure des universités, laboratoire LCQB, Paris, France
Dir. de thèse : Olivier Dameron Professeur des universités, Université de Rennes, France
Encadr. de thèse : Yann Le Cunff Maître de conférences Université de Rennes, France
Encadr. de thèse : François COSTE Chargé de recherche Inria, Rennes, France