L'asservissement visuel (AV) est utilisé pour contrôler des systèmes robotiques, en se servant d'informations visuelles. L'AV permet de résoudre de nombreuses tâches, telles que la saisie d'objets, la navigation ou le suivi de cibles. Les primitives visuelles classiquement utilisées sont de nature géométrique ou photométrique. Cependant, les primitives géométriques peuvent être difficiles à extraire et à suivre à partir d'images brutes. Récemment, l'apprentissage profond a été proposé comme une solution potentielle pour l'asservissement visuel, mais son utilisation s'est limitée à l'extraction des primitives ou de la pose. Dans cette thèse, nous proposons d'aller plus loin en supprimant cette étape d'extraction des primitives. Nous établissons directement le lien entre le mouvement de la caméra et les changements dans l'espace latent. Ce lien peut être directement appris, créant ainsi une approche de l'asservissement reposant intégralement sur l'apprentissage, ou il peut être calculé analytiquement en exploitant la structure des réseaux appris. De plus, l'apprentissage supervisé ou non supervisé peut être utilisé pour créer des représentations utiles à l'AV. Enfin, le fait de formuler l'AV dans un espace latent permet d'exploiter des informations provenant de différentes modalités, telles que les poses de la caméra et les images, conduisant à un asservissement "hybride". Nous montrons que l'espace latent est idéal de par sa flexibilité, et peut être utilisé pour effectuer de grands déplacements, tout en conservant une excellente précision.
Céline TEULIERE, Maîtresse de conférences, Université Clermont Auvergne
Christian WOLF, Maître de conférences, Insa de Lyon
François CHAUMETTE, Directeur de recherches, Inria
Eric MARCHAND, Professeur, Université Rennes 1
Elisa FROMONT, Professeure, Université Rennes 1