Fouille de données pour le screening à haut-débit de génomes : prédire les capacités de synthèses microbiennes de métabolites à effet santé.

Submitted by Anne SIEGEL on
Team
Date of the beginning of the PhD (if already known)
octobre 2025
Place
IRISA, Campus de Beaulieu, Rennes
Laboratory
IRISA - UMR 6074
Description of the subject

Ce projet s’inscrit aux interfaces entre la fouille de données massives en biologie moléculaire, l’algorithmique des séquences biologiques et la modélisation de systèmes dynamiques. Il s’agit d’exploiter les informations relatives à des espèces variées, en particulier leurs génomes (génomique) et leurs capacités de synthèse de composés (métabolomique) pour prédire in-silico les capacités de synthèse de composés de nouvelles espèces à partir de leurs génomes.

Cette démarche vise donc à développer des méthodes pour apprendre (et découvrir) le potentiel biologique d’espèces à partir de leurs génomes et de mesures expérimentales, puis à transférer cette information sur de nouvelles espèces.

Dans ce contexte, un partenariat entre l’équipe Dyliss de l’IRISA et l’unité INRAE STLO à Rennes a permis de développer une approche sans à priori permettant d’analyser les génomes de milliers de bactéries et de prédire leur capacité à répondre à des fonctions cibles. Ceci permet d’identifier les consortia de souches qui ont le meilleur potentiel pour réaliser des fonctions d’intérêt, avec différentes preuves de concepts en nutrition (Tirlet et al, en préparation). La stratégie a donc été de combiner le résultat des analyses in-silico de génomes bactériens disponibles dans les banques internationales pour identifier le potentiel de production de métabolites par des espèces bactériennes déjà présentes dans notre alimentation et de mettre en œuvre ces espèces non OGM en bioréacteur dans des conditions de production optimisée.

Ce sujet s’inscrit dans l’objectif d’explorer plus largement le potentiel de fermentation microbienne comme un moyen efficace et durable de produire des composés d’intérêt. Dans ce contexte, l’enjeu est non seulement d’exploiter la diversité bactérienne (comme expliqué ci-dessus), mais plus globalement l’ensemble de la diversité microbienne, en particulier celle des levures, combinées ou non avec des bactéries.  Pour aller dans cette direction, les méthodes déployées sur les génomes bactériens ne peuvent être utilisées. Si des centaines de souches sont disponibles dans des collections, la qualité des génomes associés à ces banques ne leur permet pas d’être analysé avec les approches de biologie des systèmes utilisées pour les bactéries (Chen et al, 2022). Dans ce contexte, le succès des approches d’apprentissage pour la prédiction de fonctions biologiques (dans la dynamique d’alpha-fold) fournit une piste importante pour éclairer les zones d’ombre.

La première partie de cette thèse consistera à étendre des approches développées à l’IRISA en génomique comparative (Belcour et al , 2022) avec des approches basées sur des réseaux de neurones (Buton et al, 2023) pour permettre l’identification dans les génomes des séquences de gènes qui sont associées aux enzymes impliquées dans les voies de synthèse des composés ciblés. La deuxième partie de la thèse consistera à utiliser la variabilité au sein des différentes collections étudiées pour identifier les spécificités de souches au sein des différentes familles d’espèces, en focalisant l'effort sur les portions de génome des souches les plus prometteuses. La troisième partie de la thèse visera à identifier les meilleurs consortia pour produire des composés (ici, à titre d’exemple, des composés indoliques et métabolites antimicrobiens utiles en santé humaine et en santé des plantes) en adoptant une approche de modélisation dynamique pour tenir compte des milieux de culture des espèces sur la base de modèle dynamiques (Frioux et al, 2018) reconstruits à partir des metadonnées présentes dans des banques de données internationales (Belcour et al, 2025).

Les souches les plus prometteuses en termes de biosynthèse des composés à produire par fermentation sont testées en bioréacteurs pour valider la production des métabolites cibles. Le projet de thèse profitera ainsi de la complémentarité disciplinaire de l’IRISA, spécialiste en screening à large-échelle de génomes pour prédire des fonctions métaboliques, et de l'INRAE spécialiste de la fermentation par les bactéries et levures en conditions contrôlées.

Bibliography

Tirlet Y. et al (en preparation). A new bioinformatic pipeline to select, on annotated genomes basis, bacterial strains of food interest for their capacities to produce metabolites with positive impact on gut-brain axis by fermentation.

Chen, Y. et al. (2022). Genome-scale modeling of yeast metabolism: retrospectives and perspectives. FEMS Yeast Res. 22, foac003.

Belcour, A. et al (2023) et al. Inferring and comparing metabolism across heterogeneous sets of annotated genomes using AuCoMe. Genome Res. 33, 972–987 (2023).  DOI: 10.1101/gr.277056.122

Buton, N., Coste, F. & Le Cunff, (2023) Y. Predicting enzymatic function of protein sequences with attention. Bioinformatics 39, btad620. https://doi.org/10.1093/bioinformatics/btad620

Frioux, C., Fremy, E., Trottier, C. & Siegel (2018) A. Scalable and exhaustive screening of metabolic functions carried out by microbial consortia. Bioinformatics 34, i934–i943. Doi: 10.1093/bioinformatics/bty588

Belcour, A. et al. (2025)  Estimating consensus proteomes and metabolic functions from taxonomic affiliations. 2022.03.16.484574 Preprint at https://doi.org/10.1101/2022.03.16.484574.

Researchers

Lastname, Firstname
Siegel, Anne
Type of supervision
Director
Laboratory
UMR 6074
Team

Lastname, Firstname
Falentin, Hélène
Type of supervision
Supervisor (optional)
Laboratory
UMR INRAE STLO
Contact·s
Nom
Siegel, Anne
Email
anne.siegel@irisa.fr
Keywords
bioinformatique, biologie des systèmes, fouille de données, représentation des connaissances.