Investigations sur un framework pour des prévisions de séries temporelles saisonnières

Defense type
Thesis
Starting date
Location
IRISA Rennes
Room
Metivier
Speaker
Colin LEVERGER (LACODAM)
Theme

Mots clefs : Apprentissage automatique, séries temporelles, saisonnalité, clustering, classification

Résumé :

Pour déployer des applications web, l'utilisation de serveurs informatique est primordiale. S'ils sont peu nombreux, les performances des applications peuvent se détériorer. En revanche, s'ils sont trop nombreux, les ressources sont gaspillées et les coûts argumentés.
Dans ce contexte, les ingénieurs utilisent des outils de planning capacitaire qui leur permettent de suivre les performances des serveurs, de collecter les données temporelles générées par les infrastructures et d’anticiper les futurs besoins.
La nécessité de créer des prévisions fiables apparait évidente. Les données des infrastructures présentent souvent une saisonnalité flagrante. Le cycle d’activité suivi par l’infrastructure est déterminé par certains cycles saisonniers (par exemple, le rythme quotidien de l’activité des utilisateurs).
Cette thèse présente un framework pour la prévision de séries temporelles saisonnières. Ce framework est composé de deux modèles d’apprentissage automatique (e.g. clustering et classification) et vise à fournir des prévisions fiables à moyen terme avec un nombre limité de paramètres. Trois implémentations du framework sont présentées : une baseline, une déterministe et une probabiliste.
La baseline est constituée d'un algorithme de clustering K-means et de modèles de Markov.
La version déterministe est constituée de plusieurs algorithmes de clustering (K-means, K-shape, GAK et MODL) et de plusieurs classifieurs (classifieurs bayésiens, arbres de décisions, forêt aléatoire et régression logistique).
La version probabiliste repose sur du coclustering pour créer des grilles probabilistes de séries temporelles, afin de décrire les données de manière non supervisée.
Les performances des différentes implémentations du framework sont comparées avec différents modèles de l’état de l’art, incluant les modèles autorégressifs, les modèles ARIMA et SARIMA, les modèles Holts Winters, ou encore Prophet pour la partie probabiliste.
Les résultats de la baseline sont encourageants, et confirment l'intérêt pour le framework proposé.
De bons résultats sont constatés pour la version déterministe du framework, et des résultats corrects pour la version probabiliste.
Un cas d’utilisation d’Orange est étudié, et l’intérêt et les limites de la méthodologie sont montrés.

Composition of the jury
Anthony BAGNALL Professeur, University of East Anglia, rapporteur
Antoine CORNUEJOLS Professeur, AgroParisTech, rapporteur
Béatrice DUVAL Professeure, Université d’Angers
Usue MORI Maître de Conférence, Université Basque
Themis PALPANAS Professeur, Université de Paris
Simon MALINOWSKI Maître de Conférence, Université de Rennes 1
Thomas GUYET Maître de Conférence, Institut Agro/IRISA Rennes
Alexandre TERMIERProfesseur, Université de Rennes, Directeur de thèse