Coordonnées
Nouvelle page www
|
Ma thèse, en attente de soutenance, est intitulée "Localisation et cartographie simultanées en vision monoculaire et en temps réel basé sur les structures planes". Elle fut effectuée dans le cadre d'une convention CIFRE entre l'IRISA et le département de R&D du groupe Orange. Mon directeur de thèse est le Dr Eric Marchand de l'équipe Lagadic et mon responsable industriel est Pascal Houlier (Ingénieur R&D) de la société Orange Labs. Elle a fait l'objet d'articles de conférence et d'un prototype logiciel livré à la société.
La société Orange s'intéresse à la problématique de la réalité augmentée en temps réel et avec des terminaux mobiles. La réalité augmentée pose de multiples problèmes industriels et scientifiques. Cette thèse s'intéresse particulièrement à l'estimation en temps réel du déplacement de la caméra dans des scènes intérieurs et/ou urbaines. Elle décrit une solution utilisant les plans que l'on trouve abondamment dans ces environnements. Une caméra bas-coût est utilisée et est complétée par des capteurs inertiels de type MEMS. De l'initialisation au suivi en passant par la fusion des capteurs, un pipeline complet de traitement est proposé. Il permet une complète automatisation du processus d'estimation du déplacement et une utilisation robuste à long terme. Des vidéos de résultats sont présentées dans cette page web.
J'ai obtenu un Master recherche en 'Modélisation et Simulation des Systèmes Complexes' en juillet 2005 a l'université du littoral-Cote d'Opale (Calais). Le stage de recherche effectué pendant ce Master a porté sur la programmation génétique. L'objectif était d'étudier et de réaliser un système de programmation génétique sur machine à pile. Les programmes générés sont injectés directement dans la machine virtuelle Java en pseudo-assembleur. L'utilisation d'une machine à pile contraint fortement la génération mais permet toutefois d'obtenir des programmes mieux structurés et beaucoup plus rapides que par la génération d'un arbre logique. Ce stage a débouché sur la réalisation d'un module pour la librairie JEB et d'un article de conférence.
Cette thèse est basée sur le principe du "Simultaneous Localization and Mapping" (EKF-SLAM) monoculaire introduit par Dr. Davison. L'environnement étant constitué de nombreux plans, le travail a consisté a étudier une approche du SLAM permettant d'utiliser ces plans comme primitives géométriques. Cette méthode permet d'obtenir une estimation du déplacement qui prend en compte les incertitudes des mesures et qui permet une estimation robuste. L'utilisation des plans permet tout d'abord d'améliorer l'estimation puisqu'ils fournissent plus d'informations que les points habituellement utilisés. Elle permet également de réduire les coûts calculatoire en permettant une factorisation de la carte par regroupement des éléments appartenant au même plan.
Le suivi est assuré par une version améliorée du suivi de régions basé sur les transformations homographiques proposé par Dr. Benhimanne. Il permet un suivi très rapide et robuste de régions planes. L'homographie retournée par le suivi est la mesure de notre EKF-SLAM. La qualité du suivi est renforcée par l'utilisation de la prédiction de la mesure fournie par le SLAM pour initialiser la minimisation (permettant ainsi des mouvements plus importants entre deux images). La matrice d'homographie est comparée à la prédiction et est écartée si elle s'en éloigne trop pour augmenter la robustese de l'estimation.
Une problématique de l'EKF-SLAM monoculaire est qu'il nécessite que les variables aléatoires estimées soient gaussiennes. Les mesures fournies par les caméras étant en deux dimensions, une dimension est perdue et est donc à considérer comme une variable aléatoire uniforme. Il est impossible d'introduire un nouveau plan avec une notation conventionnelle sans a priori puisqu'il n'est pas défini entièrement par une seule mesure caméra. Une solution permettant d'introduire immédiatement les plans en utilisant une représentation spéciale est proposée. Elle permet d'utiliser des plans sans aucune information préalable.
L'autre problématique est de savoir quel zone de l'image choisir comme région plane, puisqu'elles ne le sont pas toutes. Une première solution basée sur la reconnaissance de région est proposée. Puisque les régions contenues dans notre base de données sont connues pour être planes, la reconnaissance de ces régions dans l'image nous assure de la planarité de celles-ci. Une méthode basée sur les SIFT et une K-Means hiérarchique est proposée.
L'autre solution est d'extraire de la séquence d'image des régions dont le déplacement laisse penser qu'elle est plane. La solution classique est de considérer un nuage de points et, après un déplacement suffisant, d'extraire les régions dont le contour est formé par les groupes de points respectant une même homographie. Cette solution a pour principal inconvénient de nécessiter un déplacement conséquent de la caméra avant de pouvoir extraire des régions et de les utiliser comme mesure. Cela peut conduire à des périodes où aucune mesure n'est disponible, ce qui est inacceptable. Cette thèse propose une solution appellée "localisation et extraction de régions planes simultanées". Chaque profondeur des points du nuage est ajoutée à la carte du SLAM. Une triangulation de delaunay sur le nuage de points est calculée. A chaque nouvelle image, une homographie sur chaque triangle à l'aide de la matrice fondamentale est estimée et sert de mesure pour mettre à jour les points correspondants. Lorsque les points d'un même triangle ont leur profondeur suffisamment bien estimée, ils sont regroupés avec les autres triangles coplanaires et la région formée est considérée comme une région plane. De cette manière, la pose continue à etre estimée quand bien même l'extraction des plans n'est pas terminée.
Parceque la mesure image peut-être bruitée, qu'elle peut ne contenir aucune information intéressante, la fusion avec la mesure de capteurs inertiels a été étudiée. Ces capteurs inertiels fournissent à 100hz l'accélération en translation et la vitesse de rotation instantanée. Ils permettent de compenser les problèmes des caméras. Ils permettent également de connaitre le facteur d'échelle de la scène, chôse impossible avec une caméra sans modèle de l'environnement. Statistiquement, ils réduisent l'incertitude de l'estimation et donc améliorent l'estimation numérique et la prédiction de la mesure, rendant d'autant plus robuste l'algorithme dans sa totalité.
Toutes ces solutions proposées mises ensemble permettent d'obtenir un pipeline d'estimation de la transformation de la caméra robuste sur le long terme et dont le coût calculatoire est réduit.
Liste complète (et fichiers postcript ou pdf si disponibles)
| Lagadic
| Plan du site
| Équipes
| Publications
| Démonstrations
|
Irisa - Inria - Copyright 2014 © Projet Lagadic |