IRISA TEXMEX
--  Les activités scientifiques


Projet TEXMEX

Techniques d'exploitation des documents multimédias
Exploration, indexation, recherche dans de très grandes bases

Sujet de thèse

Indexation sémantique d'images et de vidéos par traitement automatique des langues

Problématique

Que ce soit dans les applications industrielles ou individuelles, retrouver aisément des documents multimédias précis au sein d'une très grosse collection est un problème d'importance. En effet les besoins s'expriment souvent sous forme de requêtes langagières ; dès lors, comment retrouver une photo dans laquelle « Pierre apprend à nager », comment retrouver une vidéo de « l'interview de J. Smith parlant de la guerre de 91 en Irak » ? À l'heure actuelle, l'indexation de ces documents, phase devant permettre de les retrouver facilement, s'apput exclusivement sur des descripteurs numériques (histogrammes de couleurs, texture...). Si ces descripteurs sont utiles pour comparer entre eux les documents, ils sont en revanche incapables de décrire leur contenu d'un point de vue plus sémantique et sont difficiles à manipuler pour un utilisateur à la recherche d'un document précis. La problématique dans laquelle s'inscrit ce sujet de thèse est de trouver de nouveaux moyens de décrire ces documents multimédias, d'une manière plus sémantique, en s'appuyant sur des indices textuels contenus au sein même des documents.

Objectifs du projet

Pour répondre à la problématique d'accès à l'information évoquée ci-dessus, cette thèse a pour objectif d'étudier et de développer des techniques permettant d'obtenir automatiquement des descriptions sémantiquement riches et aisément exploitables à partir d'indices textuels contenus au sein même des documents multimédias. Dans le cadre de cette thèse, deux types de documents seront étudiés : les documents mêlant texte et images (comme des pages Web par exemple) et les vidéos. Étant donné un document relevant d'un de ces deux types, les techniques développées dans cette thèse doivent être capables d'extraire le contenu langagier (issu du texte, du son ou des images) pertinent pour servir de descripteur du document en vue d'une recherche ultérieure. Par ailleurs, une contrainte importante imposée à ce projet et que les approches développées doivent être suffisamment robustes et efficaces pour manipuler de très grandes quantités de documents et donc pouvoir être aisément applicables dans des cadres réels.

Description des travaux et méthodologie

Dans un premier temps, cette problématique sera mise en oeuvre dans le cadre de la description d'images fixes en exploitant des documents mêlant du texte et des images identiques ou proches (tirées de pages Web par exemple). Une première étape consistera donc, au sein d'un corpus (grande collection) de tels documents, à repérer automatiquement, les zones de texte se focalisant sur la description d'images. Ce sont ces phrases particulières qu'il faudra exploiter plus finement, en utilisant un certain nombre de techniques de traitement automatique des langues et de recherche d'information textuelle, pour déterminer les informations qu'il convient d'ajouter à la description de chaque image (juxtaposition des phrases obtenues, liste de mots-clés extraits de ces phrases, résumé/fusion de l'information présente dans les phrases retenues...).

Le premier objectif de la thèse est donc, à l'aide de méthodes d'apprentissage artificiel numérique et symbolique, de chercher à caractériser les phrases comportant ce genre d'information par rapport aux phrases non porteuses de descriptions de ce type. Une comparaison de différentes méthodes d'apprentissage, en termes d'efficacité mais également de coût de mise en place (degré d'automaticité, portabilité) sera nécessaire, et des tests sur des corpus volumineux devront être menés. Une seconde étape consistera à exploiter ces descriptions textuelles, une fois acquises, dans un système de recherche d'image dédié devant opérer sur une collection d'un million d'images que possède l'équipe, en s'appuyant notamment sur les recherches d'information.

Dans un second temps, une adaptation de ces travaux au domaine de la vidéo devra être étudiée. Les indices textuels utilisés dans ce cadre seront toutefois d'une autre nature :

Il s'agit là encore d'extraire de ces différentes sources de texte des informations langagières suffisamment pertinentes pour servir de descripteur à la vidéo analysée. Cependant, les caractéristiques de ces textes, et notamment le fait qu'ils soient généralement de qualité restreinte du fait de leur extraction par des outils automatiques, poseront des problèmes qui devront être contournées pour conserver à l'approche sa robustesse et sa capacité à traiter toute sorte de document.

Bibliographie

Description image

Description vidéo

Apprentissage artificiel

Traitement automatique des langues

Recherche d'information

Mots-clés :

Indexation multimédia, Traitement automatique des langues, Description texte/image et texte/vidéo, Recherche d'information.

Contact :

Vincent Claveau, tél. 02 99 84 74 47, Vincent.Claveau@irisa.fr
Patrick Gros, tél. 02 99 84 74 28, Patrick.Gros@irisa.fr

 

dernière mise à jour : 6 avril 2006

 

Patrick.Gros@irisa.fr
©copyright