Les problèmes de qualité
des données stockées dans les bases ou les entrepôts de
données s’étendent à tous les domaines
gouvernemental, commercial, industriel et scientifique. La découverte de
connaissances et la prise de décision à partir de données
de qualité médiocre (c’est-à-dire contenant des
erreurs, des doublons, des incohérences, des valeurs manquantes, etc.)
ont des conséquences directes et significatives pour les entreprises et
pour tous leurs utilisateurs. Le thème de la qualité des
données et des connaissances est pour cela devenu, depuis ces
dernières années, un des sujets d’intérêt
émergeant à la fois dans le domaine de la recherche et dans les
entreprises.
Toutes les
applications dédiées à l’analyse des données
(telles que la fouille de données textuelles par exemple)
requièrent différentes formes de préparation des
données avec de
nombreuses techniques de
traitement, afin que les données passées en entrée aux
algorithmes de fouille se
conforment à des distributions relativement
« sympathiques », ne contenant pas
d’incohérences, de doublons, de valeurs manquantes ou incorrectes.
Seulement, entre la réalité des données disponibles
et toute la machinerie permettant
leur analyse, un assez vaste fossé demeure.
In
fine, l'évaluation des résultats issus du processus de traitement
des données, est généralement effectuée par un
spécialiste (expert, analyste,...). Cette tâche est souvent
très lourde, et un moyen de la faciliter consiste à aider le
spécialiste en lui fournissant des critères de décision
sous la forme de mesures de qualité ou d'intérêt des
résultats. Ces mesures de qualité des connaissances doivent
être conçues afin de combiner deux dimensions : une dimension
objective liées à la qualité des données, et une
dimension subjective liées aux intérêts du
spécialiste.
L’atelier Qualité des
Données et des Connaissances -
DKQ 2005 (Data and Knowledge Quality) - associé à EGC'2005
concerne les méthodes, les techniques d’analyse et de nettoyage,
les méthodologies, les approches algorithmiques et les métriques
de qualité des données et des connaissances permettant de
comprendre, d’explorer les données, de détecter et corriger
les problèmes de qualité des données et de qualité
des connaissances extraites à partir des données.
Nous encourageons la soumission
d’articles de recherche et
d’études de cas industriels liés à tous les
aspects de la qualité des données et des connaissances au sens
large, de la préparation des données, de leur nettoyage à
leur analyse et à l’évaluation des résultats.
La durée de l’atelier est de un jour dédié
à des présentations d’articles dans les thèmes
d’intérêt listés ci-après.
Thèmes
La
liste des thèmes particulièrement intéressants pour
l’atelier (sans être limitative) est la suivante :
Pour tout type
de données : XML, données transactionnelles,
numériques, catégorielles, multimédia et dans
différents contextes d’application : Bioinformatique, Marketing,
e-Commerce, etc.
Les participants attendus à cet atelier sont des
chercheurs, des étudiants, des professionnels dans les domaines des
bases de données, de la découverte de connaissances à
partir des données, de la fouille et de l’analyse des données,
qui ont un intérêt particulier pour la qualité des
données dans les bases et les entrepôts, la préparation des
données, la découverte d’incohérences, de
contradictions, etc., les techniques de nettoyage des données et les
systèmes ETL.
Bien entendu, est ciblé l’ensemble des
personnes confrontées aux problèmes de qualité des
données sans être limité aux auteurs soumettant un article.
La raison d’être de l’atelier est, avant
tout, de favoriser les échanges et de réunir les personnes qui
mènent des travaux de recherche ou conçoivent des applications
dans les domaines de la fouille et de l’analyse des données
(commerciales, relationnelles, textuelles, etc.) et les personnes du domaine
des bases de données spécialisées dans les techniques de nettoyage
des données avec, comme objectif commun, de contrôler et
d’améliorer la qualité des données et la
qualité des connaissances extraites à partir des données.
Programme de la journée
9h-9h30
Accueil et ouverture par
Fabrice Guillet et Laure Berti-Equille
9h30-10h30 : Session
1 - Qualité des données dans les BD
- Laure Berti-Equille (IRISA, Rennes), Nettoyage de données XML : combien ça coûte ?
10h30-10h45 : Pause
10h45- 12h15 : Session
2 - Qualité des connaissances extraites sous forme de
règles d’association
-
Régis
Gras, Raphaël Couturier, Fabrice Guillet, Filippo Spagnolo (Ecole
Polytechnique de Nantes, IUT de Belfort, Université de Palerme),
Extraction de règles en incertain par la méthode implicative
12h15 – 14h : Déjeuner libre
14 h-15h : Session 3 – Qualité
et classification
-
Gilbert Ritschard (Université
de Genève), Arbre BIC optimal et taux d’erreur
15h- 16h : Session 4 -
Plateformes d’évaluation de la qualité des
connaissances
16h-16h15 : Pause
16h15-17h45 : Session 5
- Pratiques Opérationnelles
- David Graveleau (DGA/CTSN), SILURE, mise en oeuvre d'un meta-modèle associant traçabilité et qualité des données pour la constitution d'une base de référence multi-sources en veille technologique
17h45-18h : Clôture de l’atelier
Laure
Berti-Équille, IRISA-CNRS Rennes, France
Fabrice Guillet, IRIN, Université de Nantes,
France (Président)
Ansaf Salleb, IRISA-CNRS
Rennes, France
Jérôme Azé, LRI,
Université de Paris-Sud, France
Mokrane Bouzeghoub, PRISM, Université de
Versailles, France
Henri Briand, IRIN, Université de Nantes,
France
Béatrice Duval, Université d’Angers, France
Johann-Christoph
Freytag, Humboldt-Universität zu Berlin, Germany
Helena Galhardas,
INESC, Lisboa, Portugal
Régis Gras,
IRIN, Université de Nantes, France
Yves Kodratoff, LRI, Université de Paris-Sud,
France
Pascale Kuntz, IRIN, Université de Nantes,
France
Stéphane Lallich, ERIC,
Université de Lyon 2, France
Ludovic Lebart, ENST-CNRS, Paris, France
Philippe Lenca, ENSTbr, Brest, France
Amedeo Napoli, LORIA, Nancy, France
Gilbert Ritschard, Université de
Genève, Switzerland
Monica Scannapieco, Universita’ di Roma
“La Sapienza”, Italy
Dan A. Simovici, University of Massachussets, Boston,
U.S.
Einoshin Suzuki, Yokohama National University, Japan
Djamel Zighed, ERIC, Université de Lyon 2,
France
L’atelier aura lieu au 45, rue des
Saints Pères, 75006 Paris dans les locaux de l'UFR de
mathématiques et d´informatique.
Pour se
rendre à l’Atelier DKQ2005 (voir la seconde carte)
*** Pour faciliter l’organisation, veuillez SVP vous inscrire
à l’atelier n° 10 en complétant le formulaire
d’inscription. ***
Date
limite de soumission : |
20
Décembre 2004 |
Notification : |
27
Décembre 2004 |
Réception des
textes définitifs : |
5
Janvier 2005 |
Date de
l’atelier : |
18
Janvier 2005 |