|
Sujet de Master 2
Titre |
Fouille de données environnementales multi-échelle et multi-source pour la découverte de connaissances |
Auteur(s) |
René Quiniou, Thomas Guyet, Alice Aubert
|
Début |
printemps 2012 |
Description |
Dans le domaine agro-environnemental, de plus en plus de capteurs sont dispersés dans la nature pour enregistrer les manifestations de phénomènes naturels. Ces données vont servir à élaborer ou à confirmer des théories scientifiques expliquant le comportement d'éco- systèmes. Pour les scientifiques, la difficulté d'analyse grandit avec la masse des données ainsi stockées. Ils sont particulièrement demandeurs d'outils qui pourraient les aider à faire émerger des caractéristiques intéressantes de ces données, par exemple des régularités ou des divergences exceptionnelles.
Cependant, ces phénomènes intéressants apparaissent plus ou moins clairement selon le niveau d'abstraction choisi : un phénomène pourra ainsi "sauter aux yeux" lorsque l'on observe les données semaine par semaine alors qu'il sera difficile de l'observer à l'échelle du jour ou du mois. De plus, le niveau d'abstraction optimal varie lui-même dans le temps au gré de l'évolution du contexte des mesures. Par ailleurs, lorsque plusieurs capteurs enregistrent divers aspects du même phénomène, les mesures sont, en général, corrélées. Il est alors particulièrement intéressant de faire apparaître ces corrélations aux scientifiques, par exemple les causalités ayant une dimension temporelle, comme "la hausse de telle grandeur provoque la diminution de telle autre avec un délai d e trois à cinq jours".
L'objectif de ce projet est l'extraction de motifs temporels multi-échelle et multi-source de données provenant de plusieurs capteurs. Cet objectif introduit des questions difficiles : quelles échelles sont caractéristiques des données? Quelles sont les relations entre ces échelles? Quelles sont les relations entre les différentes mesures? Comment modéliser et raisonner à partir de ces nouvelles relations? Une approche possible pour la modélisation multi-échelle des relations est qu'un motif de niveau inférieur puisse servir d'événements dans un motif temporel de niveau supérieur, mais d'autres relations plus riches sont à explorer.
Le travail demandé consiste à :
* analyser les propositions de représentation symbolique multi-échelle pour des séries temporelles,
* analyser des méthodes d'apprentissage ou de fouille de motifs temporels multi-échelle et multi-source,
* proposer une représentation des motifs temporels multi-échelle et multi-source,
* proposer un algorithme d'extraction de motifs temporels multi-échelle et multi-source de plusieurs séries temporelles simultanément.
Les expérimentations utiliseront un jeu de données réelles fournies par l'INRA provenant de relevés de capteurs enregistrant diverses mesures de la qualité des eaux en sortie de bassin versant.
Bibliographie :
[1] Euzenat J., An algebraic approach to granularity in time representation, Proc. 2nd IEEE international workshop on temporal representation and reasoning (TIME), pp 147-154, 1995.
[2] Castro N., Azevedo P., Multiresolution Motif Discovery in Time Series, in Proceedings of the SIAM International Conference on Data Mining (SDM 2010), 2010, pp. 665-676.
[3] Shahar Y, Musen MA., Knowledge-based temporal abstraction in clinical domains. Artif Intell Med. 1996 Jul;8(3):267-98.
Mots cles : apprentissage ; fouille de données ; motifs temporels ; multi-échelle ; série temporelles
Contacts : René Quiniou (rene.quiniou@inria.fr)
Thomas Guyet (thomas.guyet@agrocampus-ouest.fr)
Alice Aubert (Alice.Aubert@rennes.inra.fr) |
|