Intégration de données hétérogènes pour la prédiction de phénotype

Submitted by Yann LE CUNFF on
Team
Date of the beginning of the PhD (if already known)
Octobre 2024
Place
IRISA
Laboratory
IRISA - UMR 6074
Description of the subject

Contexte et enjeux agroécologiques :

La filière ovine doit relever de nombreux défis pour devenir plus durable. Un levier prometteur pour y parvenir consiste à améliorer l’efficience alimentaire des individus pour réduire l’empreinte environnementale de la filière, diminuer la compétition pour les aliments et améliorer les revenus des éleveurs. La mesure de l’efficience alimentaire à l’échelle de l’individu est cependant limitée aux dispositifs expérimentaux du fait de sa complexité et de son coût de mise en œuvre, contrairement à d’autres types de données (génomique de l’animal, métabolome plasmatique, spectre infra-rouge des fécès, ou éventuellement lipidome, métabolome ou microbiote du rumen, etc).

Il existe donc une demande pour prédire au mieux l’efficience alimentaire à partir de données multi-omiques afin de pouvoir la sélectionner. Une expérience à grande échelle débutée en 2018 a permis de caractériser plusieurs centaines d’agneaux de race Romane issus de lignées divergentes tant du point du vue de l’efficience que des descripteurs hétérogènes multi-omiques.

Enjeux méthodologiques : Le sujet de thèse se positionne sur les enjeux d’intégration de données hétérogènes (génétiques, microbiotes, métabolomiques, phénotypes, …) pour la caractérisation de phénotypes par des méthodes d’apprentissage automatique. Des travaux dits d’intégration tardive (late integration) des données [1] ont déjà démontré de bonnes capacités prédictives concernant l’efficience alimentaire malgré une faible plus-value de l’intégration par rapport aux jeux de données individuels. Ce sujet de thèse se propose d’explorer des méthodes d’intégration précoce (early integration) dans le même objectif de prédiction (ou de classification de catégories d’efficience alimentaire). Plus précisément, l’étudiant(e) se concentrera sur des méthodes de projection adaptées à chacun des types de données à intégrer (microbiote, génome et métabolome plasmatique pour commencer), pour ensuite entraîner des modèles prédictifs sur les représentations obtenues en dimension réduite.

Profil recherché : L’étudiant(e) retenu(e) doit montrer de fortes compétences en analyse de données et maîtriser les outils numériques associés (R et/ou Python principalement) et un intérêt marqué pour leurs applications en agroécologie. Un profil interdisciplinaire est un avantage.

Bibliography

[1] Quentin LE GRAVERAND (2023), Intégration de données hétérogènes pour prédire l'efficience alimentaire des agneaux, Thèse de Doctorat

Researchers

Lastname, Firstname
Le Cunff Yann
Type of supervision
Supervisor (optional)
Laboratory
UMR6074
Team
Contact·s
Keywords
machine learning ; microbiote ; génomique ; auto-encodeurs