Vincent Auvray - Contributions (Retour)


Bref apercu de la problèmatique de l'estimation de mouvements transparents

Trois grands types de méthodes sont proposées dans la littérature pour estimer les mouvements transparents:

    L'adaptation partielle d'estimateurs de mouvements classiques (Black et Anandan, Irani et Peleg), mais seulement pour des transparences partielles.
    La détection de plans dans l'espace de Fourier 3D (Shizawa et Mase, Pingault et Pellerin, Stuke et Aach), mais elle nécessite des mouvements translationnels sur quelques dizaines de frames.
    L'estimation de mouvements transparents dans l'espace direct (Pingault et Pellerin, Stuke et Aach, Toro), qui s'appuie sur une équation équivalente à la conservation de l'intensité:

    Elle suppose les mouvements constants sur deux intervalles de temps consécutifs.
C'est dans cette troisème voie que nous nous inscrivons. (Plus)

Nos travaux en situation de bitransparence

Nous avons dans un premier temps imaginé un mécanisme de formation d'images synthétiques respectant la physique de formation des images par rayons X, afin de pouvoir construire des séquences de test à vérité de terrain connue, sur lesquels évaluer nos estimateurs. (Plus)

Nous avons développé trois générations d'estimateurs de mouvement transparents adaptés au cas ou l'image est composée de deux couches transparentes (Et deux couches seulement!).

    Nos premiers travaux (présenté à GRETSI'05 et à ICIP'05) ne permettaient pas encore d'atteindre de précision intéressante sur des séquences cliniques réalistiquement bruitées.
    C'est pourquoi nous avons imaginé un deuxième algorithme, présenté à MICCAI'05. Pour etre autant robustes au bruit que possible tout en gardant des temps de calculs raisonnables, nous avons cherché à contraindre au maximum le problème. Des observations de nombreuses séquences réelles nous ont convaincu que les mouvements anatomiques (battements du coeur, dilatation des poumons, translation du diaphragme) pouvaient etre modelisés par des champs de déplacements affines.
    Ces travaux permettent d'atteindre une précision d'estimation de 0.75 et 2.85 pixels sur des images typiques d'examens diagnostiques et interventionnels respectivement.
    Nous avons alors proposé à ICIP'06 une évolution de cet algorithme, qui mene à des précisions de 0.6 pixels sur images diagnostiques et 1.2 sur images fluoroscopiques, ainsi que des exemples réels.
(Plus) (Demos)

Champs de mouvements estimés sur une portion d'examen cardiaque en situation de bi transparence.

Nos travaux en situation de bitransparence distribuée

Nos contributions jusque là (comme la plupart des travaux sur le sujet) estiment les mouvements transparents dans une séquence d'images ne présentant qu'une configuration unique: deux couches animées d'un mouvement cohérent étaient présentes partout sur l'image.
Or, les images réelles sont plus complexes: elles contiennent plus de deux couches en tout, mais rarement plus de deux au meme point. C'est ainsi que nous avons introduit le concept de bitransparence distribuée pour désigner des images pouvant etre segmentees en zones contenant au plus deux couches.


Image d'examen fluoro, que l'on peut segmenter en une zone poumons + coeur, une zone coeur + diaphragme , une zone coeur + colonne, etc

Nos observations de séquences réelles montrant qu'une très grande majorité des examens cliniques donnent lieu à des images de ce type, nous avons développé une approche permettant de les traiter, que nous présenterons à ICIP'06. L'idée est de chercher à séparer la séquence en ses différentes zones à deux couches, et d'appliquer l'algorithme précédent à chacune d'entre elle.
Plus précisément, nous proposons un schéma joint de segmentation par le mouvement et d'estimation de mouvement, présenté dans un formalisme markovien. Pour déterminer à la fois les valeurs des champs de mouvement et un étiquetage pertinent des blocs, nous minimisons une énergie comprenant un terme d'attache aux données issu de l'équation fondamentale du mouvement transparent donnée plus haut, et d'un terme de lissage spatial. Elle est minimisée itérativement par les moindres carrés pondérés pour estimer le champ de mouvement à étiquetage donné, et par une technique ICM pour effectuer l'étiquetage à champs donnés. Un tel mécanisme est rapide et fiable pour peu qu'il soit bien initialisé. Pour ce faire, nous avons de nouveau recours à la mise en correspondance par blocs bitransparente, puis à une extraction des champs affines par la transformée de Hough.
Cet algorithme mène lui aussi à des précisions de 0.6 pixels sur images diagnostiques et 1.2 sur images fluoroscopiques.


Deux images d'une séquence de fluoro, les champs calculés (le champ correspondant au fond est invisible car il est nul), et la segmentation obtenue.


Traitement d'une séquence vidéo de bi-transparence distribuée. En haut à gauche la segmentation des couches, en haut à droite les champs de vecteur estimés, et en bas les images de différence recalées.

Nous présentons ci-dessus un résultat d'estimation sur images cliniques, et une séquence de résultats sur une séquence vidéo de référence (bien antérieure au Da Vinci Code!). Cette dernière représente la reflexion d'un sachet de corn-flakes sur une vitre recouvrant un patchwork de portraits de Mona Lisa. Dans les deux cas, les segmentations exhibées et les champs estimés semblent corrects. Nous pouvons nous en assurer dans le cas de la séquence vidéo en vérifiant que l'un des deux objets disparait complétement de ces images de différence. (Retour)

Nous proposons également une démo détaillant le fonctionnement de l'estimateur.

L'application au débruitage

Il nous faut aussi savoir comment utiliser cette information du mouvement pour débruiter nos séquences. Nous avons développé une méthode novatrice pour ce faire pour MICCAI'05, mais elle se heurte à une très décevante limite asymptotiquede débruitage de 20%. (Plus)

Nous avons alors développé un nouveau type de filtres, dit hybrides, qui arbitrent localement entre différents types de compensation:

    Compensation de mouvements transparents lorsque les deux couches considérées sont texturées.
    Compensation de la couche la plus texturée dans tous les autres cas (seule une couche est texturée, ou les deux couches sont homogènes). On conserve alors toute l'information utile sans limiter le débruitage.
Ce type d'approche est utilisable à la fois pour le filtrage de bruit purement temporel, et le filtrage spatio-temporel. Dans le premier cas, nous obtenons un débruitage de l'ordre de 50% en écart-type, sans filtrage de l'information utile. (soumission à ISBI'07 en cours).


Traitement d'une séquence fluoroscopique traitée avec le filtre hybride temporel (à gauche), et avec un filtre temporel adaptatif (à droite). Le coeur est nettement mieux contrasté à gauche qu'à droite, pour un débruitage équivalent.

Retour