Description |
Le volume des données enregistrées et stockées a explosé ces dernières années, ce qui a motivé particulièrement l'intérêt des recherches sur l'extraction automatique de connaissances à partir de données (ou fouille de données). À partir d'une grande base de données, il s'agit de construire des motifs qui se retrouvent fréquemment dans les données. Chaque occurrence est alors une « instance » d'un motif.
Beaucoup de ces données contiennent des informations où la dimension temporelle revêt une importance particulière. C'est le cas, par exemple, de données recueillies lors de la surveillance de patients [1], de consommation d'électricité [2], d'usage du Web [3]. La simple adaptation des méthodes de fouille de données classiques ne suffit pas, en général, pour extraire les relations temporelles efficacement ou avec suffisamment de précision. C'est le champ de recherche de la fouille de données temporelles.
Les travaux récents menés dans l'équipe DREAM ont permis de développer des algorithmes de fouille de motifs séquentiels avec intervalles temporels statistiquement « représentatifs » [4,5]. Un motif extrait est alors « représentatif » d'un ensemble d'instances de la base de données initiale. Ces algorithmes construisent progressivement des motifs de plus en plus grands et les dénombre dans la base d'exemples (voir [6] pour les illustrations et détails des méthodes). À l'heure actuelle, il n'existe pas de méthode de dénombrement efficace et complète de ces motifs « représentatifs ». Les algorithmes manquent donc d'efficacité.
L'objectif de ce stage est d'explorer des algorithmes, efficaces et complets, de fouille de séquences ne travaillant que sur des ensembles d'instances, sans génération préalable de motifs.
Contrairement aux méthodes « classiques », il s'agit de travailler sur la séparation progressive des ensembles d'instances sans construire de motifs « représentatifs » de ces instances. Il n'y ainsi aucun dénombrement à réaliser.
En se basant sur un travail préliminaire réalisé dans l'équipe DREAM sur les méthodes de fouille de séquences avec intervalles. Le stagiaire aura pour objectif :
d'analyser les méthodes existantes et les problèmes rencontrés dans la fouille de données séquentielle avec intervalles temporels,
de proposer un algorithme pour la fouille de séquences avec intervalles temporels n'utilisant pas de motifs,
d'analyser les propriétés des algorithmes proposés,
de développer et tester les algorithmes sur des données simulées et réelles (données médicales et de consommation électrique).
Durant ce stage, nous proposons de travailler sur des données séquentielles avec intervalles temporels. Les travaux pourront être poursuivis par une généralisation de l'approche à des données séquentielles avec attributs quantitatifs.
Le stage sera effectué à l'IRISA au sein de l'équipe DREAM (Diagnostic, Recommandation d'Action, Modélisation).
Bibliographie :
[1] M.-O Cordier, E. Fromont et R. Quiniou, Learning rules from multisource data for cardiac monitoring, International Journal of Biomedical Engineering and Technology (IJBET), Vol 3 (1/2), pp. 133-155, 2010.
[2] R. Chiky, L. Decreusefond, G. Hébrail: Aggregation of asynchronous electric power consumption time series knowing the integral. EDBT, pp. 663-668, 2010.
[3] A. Marascu, F. Masseglia: Extraction de motifs séquentiels dans les flots de données d'usage du Web. Actes de EGC, pp. 627-638, 2006.
[4] T. Guyet et R. Quiniou, Mining temporal patterns with quantitative intervals, in 4th International Workshop on Mining Complex Data (ICDMW), 2008.
[5] T. Guyet et R. Quiniou, Extracting temporal patterns from interval-based sequences, International Joint Conference on Artificial Intelligence (IJCAI), 2011.
[6] http://www.irisa.fr/dream/QTempIntMiner/
Mots cles : fouille de données, algorithmique, données séquentielles, intelligence artificielle, clustering
Contact : Thomas Guyet (thomas.guyet@irisa.fr) René Quiniou (rene.quiniou@inria.fr) |