KERDATA : Scalable Storage for Clouds and Beyond
KerData est une équipe-projet commune d'Inria, ENS Rennes et INSA Rennes et fait partie du laboratoire IRISA.
L'équipe KerData explore des architectures logicielles innovantes pour le stockage et le traitement de données distribuées à grande échelle. Nos infrastructures sous-jacentes cibles vont des supercalculateurs et des clouds à grande échelle aux infrastructures de Fog distribuées, jusqu'aux dispositifs périphériques (Edge devices). Récemment, nous avons commencé à explorer des défis soulevés par l'émergence d'un nombre croissant de scénarios dans de nombreux domaines (énergie, médecine personnalisée, véhicules autonomes, applications basés sur les jumeaux numériques, etc.) qui utilisent des combinaisons hybrides de ces infrastructures HPC / cloud /fog/edge (formant ce que l'on appelle aujourd'hui le continuum numérique: Digital continuum, Computing Continuum ou Transcontinuum).
Nos recherches suivent trois directions principales
Axe de recherche 1: Convergence HPC/Big Data au niveau du stockage et du traitement des données
Comme les outils et les cultures du calcul haute performance et de l'analytique du Big Data ont évolué de manière divergente, il est de plus en plus nécessaire que ces domaines convergent, car les « gros calculs » génèrent toujours des Big Data et les Big Data ont besoin de calcul intensif pour une analyse efficace. Chez KerData, nous visons à définir et à valider des abstractions et des techniques communes de stockage et de traitement des données à l'appui de workflows complexes combinant des simulations et des analyses exécutées sur des infrastructures hybrides HPC / cloud. En particulier, nous étudions comment les systèmes de stockage d’objets pourraient servir de base à une telle abstraction de stockage convergé. Des efforts préliminaires dans cette direction ont conduit au système de stockage Tyr (finaliste du prix du meilleur article étudiant à SC16). Concernant la convergence au niveau du traitement des données, nous nous concentrons sur un autre défi majeur: la conception d'une architecture unifiée permettant une utilisation conjointe des traitements in situ et in transit (de la zone HPC) avec le traitement de flux (stream processing, utilisé dans le domaine du Big Data). Nous abordons ce défi en combinant les approches développées actuellement dans notre équipe: Damaris (pour les traitements in situ) et KerA (pour les traitements optimisé des flux de données).
Axe de recherche 2: Traitement efficace des données sur des infrastructures Edge, Cloud et hybrides (Edge / Cloud)
L'explosion des données générées par l'Internet des objets (IoT) et le besoin d'analyse en temps réel ont entraîné un changement de paradigme pour le traitement des données des clouds centralisés vers des infrastructures et services décentralisées (fog / edge). Nos recherches visent à réexaminer les techniques actuelles de stockage et de traitement dans le cloud pour faire face aux exigences des nouveaux scénarios émergents pour les applications gourmandes en données fonctionnant sur des systèmes hybrides cloud / fog / edge à grande échelle, avec un accent particulier sur le streaming. Par ailleurs, nous étudions de nouvelles méthodologies expérimentales et des plates-formes logicielles de support permettant un cycle d'analyse complet de l'exécution des applications du Continuum numérique (du déploiement, à la configuration, à l’expérimentation, à la collecte et de l'analyse des résultats), comme moyen d'étudier les compromis liés à l'utilisation d’infrastructures hybrides cloud / fog / edge hybrides en termes de performances, d'utilisation des ressources ou de coût.
Axe de recherche 3: Traitement distribué de données en soutien à l'IA dans le continuum numérique
Tirant parti du phénomène du Big Data, l'intelligence artificielle (et plus particulièrement le machine learning et le deep learning) ont récemment pris de l'ampleur en devenant des moyens privilégiés d’explorer les Big Data. Cela peut nécessiter d'intégrer et de traiter en temps réel des flux de données à haute fréquence provenant d’un très grand nombre de capteurs dispersés sur une grande surface. Par exemple, un système de détection et d'avertissement de tremblements de terre peut utiliser l'apprentissage automatique pour détecter des tremblements de terre et classer leurs amplitudes à l'aide de données provenant de nombreux capteurs distribués. En collaboration avec des experts en apprentissage automatique, nous explorons des architectures innovantes pour le traitement de données distribuées sur le continuum numérique (edge / cloud ) pour prendre en charge des analyses basées sur l'apprentissage automatique de haute précision. Un résultat commun prometteur dans ce sens appliqué à l'alerte précoce aux tremblements de terre a obtenu un Outstanding Paper Award for Social Impact lors de la conférence AAAI-20.
Fichier attaché | Taille |
---|---|
KERDATA-RA-2023.pdf | 494.07 Ko |
KERDATA-RA-2022.pdf | 479.94 Ko |
KERDATA-RA-2021.pdf | 508.06 Ko |
kerdata2019.pdf | 450.89 Ko |
kerdata2018.pdf | 463.57 Ko |
kerdata2017.pdf | 461.52 Ko |