Atelier Qualité des Données et des Connaissances English Version

Associé à ECG 2005

18 Janvier 2005, Paris, France

Motivation

Les problèmes de qualité des données stockées dans les bases ou les entrepôts de données s’étendent à tous les domaines gouvernemental, commercial, industriel et scientifique. La découverte de connaissances et la prise de décision à partir de données de qualité médiocre (c’est-à-dire contenant des erreurs, des doublons, des incohérences, des valeurs manquantes, etc.) ont des conséquences directes et significatives pour les entreprises et pour tous leurs utilisateurs. Le thème de la qualité des données et des connaissances est pour cela devenu, depuis ces dernières années, un des sujets d’intérêt émergeant à la fois dans le domaine de la recherche et dans les entreprises.

Toutes les applications dédiées à l’analyse des données (telles que la fouille de données textuelles par exemple) requièrent différentes formes de préparation des données avec de nombreuses techniques de traitement, afin que les données passées en entrée aux algorithmes de fouille se conforment à des distributions relativement « sympathiques », ne contenant pas d’incohérences, de doublons, de valeurs manquantes ou incorrectes. Seulement, entre la réalité des données disponibles et toute la machinerie permettant leur analyse, un assez vaste fossé demeure.

In fine, l'évaluation des résultats issus du processus de traitement des données, est généralement effectuée par un spécialiste (expert, analyste,...). Cette tâche est souvent très lourde, et un moyen de la faciliter consiste à aider le spécialiste en lui fournissant des critères de décision sous la forme de mesures de qualité ou d'intérêt des résultats. Ces mesures de qualité des connaissances doivent être conçues afin de combiner deux dimensions : une dimension objective liées à la qualité des données, et une dimension subjective liées aux intérêts du spécialiste.

L’atelier Qualité des Données et des Connaissances - DKQ 2005 (Data and Knowledge Quality) - associé à EGC'2005 concerne les méthodes, les techniques d’analyse et de nettoyage, les méthodologies, les approches algorithmiques et les métriques de qualité des données et des connaissances permettant de comprendre, d’explorer les données, de détecter et corriger les problèmes de qualité des données et de qualité des connaissances extraites à partir des données.

Nous encourageons la soumission d’articles de recherche et d’études de cas industriels liés à tous les aspects de la qualité des données et des connaissances au sens large, de la préparation des données, de leur nettoyage à leur analyse et à l’évaluation des résultats.

La durée de l’atelier est de un jour dédié à des présentations d’articles dans les thèmes d’intérêt listés ci-après.

Thèmes

La liste des thèmes particulièrement intéressants pour l’atelier (sans être limitative) est la suivante :

Métriques de qualité des données, métriques de qualité pour les résultats de fouille ou d’analyse, métriques de qualité centrées utilisateurs, mesures subjectives et objectives, Mesure d’intérêt des règles
Détection de données contradictoires, de données isolées, de doublons, d’incohérences, bruit
Fouille et découverte de patterns de non-qualité ou de qualité de données médiocre
Validation de modèle de fouille de données
Identification d’objets
Appariement Automatique
Transformations, réconciliation, consolidation des données
Correction d’erreurs
Techniques de nettoyage de données
Préparation Intelligente des données

Pour tout type de données : XML, données transactionnelles, numériques, catégorielles, multimédia et dans différents contextes d’application : Bioinformatique, Marketing, e-Commerce, etc.

Public

Les participants attendus à cet atelier sont des chercheurs, des étudiants, des professionnels dans les domaines des bases de données, de la découverte de connaissances à partir des données, de la fouille et de l’analyse des données, qui ont un intérêt particulier pour la qualité des données dans les bases et les entrepôts, la préparation des données, la découverte d’incohérences, de contradictions, etc., les techniques de nettoyage des données et les systèmes ETL.

Bien entendu, est ciblé l’ensemble des personnes confrontées aux problèmes de qualité des données sans être limité aux auteurs soumettant un article.

La raison d’être de l’atelier est, avant tout, de favoriser les échanges et de réunir les personnes qui mènent des travaux de recherche ou conçoivent des applications dans les domaines de la fouille et de l’analyse des données (commerciales, relationnelles, textuelles, etc.) et les personnes du domaine des bases de données spécialisées dans les techniques de nettoyage des données avec, comme objectif commun, de contrôler et d’améliorer la qualité des données et la qualité des connaissances extraites à partir des données.

Programme de la journée

9h-9h30

Accueil et ouverture par Fabrice Guillet et Laure Berti-Equille

9h30-10h30 : Session 1 - Qualité des données dans les BD

- Verónika Peralta Mokrane Bouzeghoub (PRISM, Versailles St- Quentin), Data Freshness Evaluation in Different Application Scenarios

- Laure Berti-Equille (IRISA, Rennes), Nettoyage de données XML : combien ça coûte ?

10h30-10h45 : Pause

10h45- 12h15 : Session 2 - Qualité des connaissances extraites sous forme de règles d’association

- Régis Gras, Raphaël Couturier, Fabrice Guillet, Filippo Spagnolo (Ecole Polytechnique de Nantes, IUT de Belfort, Université de Palerme), Extraction de règles en incertain par la méthode implicative

- Julien Blanchard, Fabrice Guillet, Henri Briand, Régis Gras (Ecole Polytechnique de Nantes), IPEE : Indice Probabiliste d’Ecart à l’Equilibre pour l’évaluation de la qualité des règles

- Cyril Nortet, Ansaf Salleb, Teddy Turmeaux, Christel Vrain (LIFO Orléans, IRISA Rennes), Le rôle de l’utilisateur dans un processus d’extraction de règles d’association

12h15 – 14h : Déjeuner libre

14 h-15h : Session 3 – Qualité et classification

- Gilbert Ritschard (Université de Genève), Arbre BIC optimal et taux d’erreur

- Jérôme David, Fabrice Guillet, Vincent Philippé, Henri Briand, Régis Gras (Ecole Polytechnique de Nantes, PerformanSE SA), Validation d'une expertise textuelle par une méthode de classification basée sur l'intensité d'impliqué

15h- 16h : Session 4 - Plateformes d’évaluation de la qualité des connaissances

- Xuan-Hiep Huynh, Fabrice Guillet, Henri Briand, (Ecole Polytechnique de Nantes), ARQAT: une plateforme d'analyse exploratoire pour la qualité des règles d'association

- Benoît Vaillant, Patrick Meyer, Elie Prudhomme, Stéphane Lallich, Philippe Lenca (ENST Bretagne, Université du Luxembourg, ERIC - Université de Lyon 2), Mesurer l’intérêt des règles d’association

16h-16h15 : Pause

16h15-17h45 : Session 5 - Pratiques Opérationnelles

- Mireille Cosquer, Béatrice Le Vu, Alain Livartowski (Institut Curie), Mise en place d’un plan d’Assurance et Contrôle Qualité du Dossier Patient

- Gilles Amat, Brigitte Laboisse (sociétés AID, BDQS), B.D.Q.S. Une gestion opérationnelle de la qualité de données

-       David Graveleau (DGA/CTSN), SILURE, mise en oeuvre d'un meta-modèle associant traçabilité et qualité des données pour la constitution d'une base de référence multi-sources en veille technologique

17h45-18h : Clôture de l’atelier

Organisation de l’atelier

Laure Berti-Équille, IRISA-CNRS Rennes, France

Comité de Programme

Fabrice Guillet, IRIN, Université de Nantes, France (Président)

Ansaf Salleb, IRISA-CNRS Rennes, France

Jérôme Azé, LRI, Université de Paris-Sud, France

Mokrane Bouzeghoub, PRISM, Université de Versailles, France

Henri Briand, IRIN, Université de Nantes, France

Béatrice Duval, Université d’Angers, France

Johann-Christoph Freytag, Humboldt-Universität zu Berlin, Germany

Helena Galhardas, INESC, Lisboa, Portugal

Régis Gras, IRIN, Université de Nantes, France

Yves Kodratoff, LRI, Université de Paris-Sud, France

Pascale Kuntz, IRIN, Université de Nantes, France

Stéphane Lallich, ERIC, Université de Lyon 2, France

Ludovic Lebart, ENST-CNRS, Paris, France

Philippe Lenca, ENSTbr, Brest, France

Amedeo Napoli, LORIA, Nancy, France

Gilbert Ritschard, Université de Genève, Switzerland

Monica Scannapieco, Universita’ di Roma “La Sapienza”, Italy

Dan A. Simovici, University of Massachussets, Boston, U.S.

Einoshin Suzuki, Yokohama National University, Japan

Djamel Zighed, ERIC, Université de Lyon 2, France

Informations pratiques

L’atelier aura lieu au 45, rue des Saints Pères, 75006 Paris dans les locaux de l'UFR de mathématiques et d´informatique.

Pour se rendre à l’Atelier DKQ2005 (voir la seconde carte)

*** Pour faciliter l’organisation, veuillez SVP vous inscrire à l’atelier n° 10 en complétant le formulaire d’inscription. ***

Dates Importantes

Date limite de soumission :	20 Décembre 2004
Notification :	27 Décembre 2004
Réception des textes définitifs :	5 Janvier 2005
Date de l’atelier :	18 Janvier 2005