Les données transcriptomiques représentent une estimation de la quantité d’ARN « produite » par chaque gène, elles peuvent être vues comme l’activité des gènes dans un échantillon. L’analyse de ces données joue un rôle majeur dans la compréhension de la biologique moléculaire et le développement de la médecine personnalisée. En effet, il est théoriquement possible de prédire de nombreux phénotypes à partir du profil d’expression d’un patient. Si de nombreuses méthodes d’apprentissage automatique classiques ont déjà été appliquées sur ces données, il y a encore peu de travaux sur l’utilisation de l’apprentissage profond.
Nous nous intéressons à l’apprentissage profond pour la prédiction de phénotype à partir de données transcriptomiques et en particulier a deux problèmes. Le premier est la petite taille de jeux de données transcriptomiques alors que l’apprentissage des modèles profonds demande beaucoup de données. Pour pallier cela, nous utilisons les approches d’apprentissage par transfert. Le deuxième problème vient du manque de transparence des réseaux de neurones. Il est très difficile de comprendre et d’interpréter les prédictions d’un modèle profond ce qui est pourtant indispensable pour des applications médicales. Nous proposons deux approches pour interpréter ces modèles. La première est une méthode qui identifie les parties importantes d’un modèle déjà appris, la seconde propose une nouvelle architecture interprétable par construction. Dans les deux cas l’interprétation se fait en identifiant les fonctions biologiques les plus mobilisées par le modèle.