Traitement de données en flux distribué et à état

Publié le
Equipe
Date de début de thèse (si connue)
1/10/2022
Lieu
Rennes
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse

Les données issues de l'Internet des Objets sont souvent produites sous forme de flux à la frontière des réseaux
traditionnels. Plutôt que de les transférer systématiquement vers le Cloud pour y être traitées, une approche plus efficace met en oeuvre les technologies "fog/edge computing" pour traiter ces données à proximité immédiate de leur lieu de production. Cela a pour effet de réduire l'impact écologique et les délais associés à ces transferts de données à longue distance.
Des systèmes de traitement de données en flux (par.ex. Apache Flink) sont bien adaptés pour traiter ce genre de
données en temps réel et pour générer des résultats exploitables en permanence.
Cependant, l'utilisation des systèmes de données en flux dans des environnements géo-distribués comme le fog/edge computing est actuellement mal prise en compte. Notre équipe, en collaboration avec d'autres en Europe et dans le monde, a résolu la question de la modélisation de performance et de la gestion de ressources pour des types de traitement simples dits "stateless" tels que le filtrage de données et l'agrégation par clé unique. Cependant d'autres types de traitements dits "stateful" sont plus complexes car leur parallélisation implique des synchronisations supplémentaires entre les instances de ces opérateurs. L'objet de cette thèse est de mieux comprendre la performance de ces opérateurs en environnement géo-distribué, et le cas échéant de proposer de meilleures implémentations permettant leur utilisation dans ce type d'environnement.

L'utilisation d'opérateurs "stateful" est incontournable pour permettre le déploiement de systèmes de traitements de données en flux arbitraires dans le fog. La question principale posée dans cette thèse est de comprendre finement, et d'optimiser, leur performance dans ce genre d'environnement pour lequel ils n'ont pas initalement été conçus. C'est un point de blocage important qui empêche actuellement la libre utilisation de ces technologies pour le traitement de données temps-réel en environnement géo-distribué.

Après une première phase d'étude de la littérature scientifique abondante sur le sujet, l'approche se concentrera sur une étude expérimentale permettant la modélisation de la performance des opérateurs "stateful" les plus utilisés, en particulier en ce qui concerne leur passage à l'échelle en environnement géo-distribué. Suivant les résultats de cette première étude, la seconde phase consistera à proposer de nouvelles implémentations ce ces mêmes opérateurs avec de meilleures propriétés de performance. Une possibilité intéressante sera l'utilisation de techniques de réplication
faiblement cohérentes (CRDT - commutative replicated data types) afin d'obtenir de meilleures performances au
prix d'une baisse controllée de la précision des résultats produits.

Bibliographie

[1] An Experiment-Driven Performance Model of Stream Processing Operators in Fog Computing Environments. Hamidreza Arkian, Guillaume Pierre, Johan Tordsson and Erik Elmroth. In Proceedings of the ACM/SIGAPP Symposium on Applied Computing (SAC), April 2020.

[2] Model-based Stream Processing Auto-scaling in Geo-Distributed Environments. Hamidreza Arkian, Guillaume Pierre, Johan Tordsson, Erik Elmroth. In Proceedings of the ICCCN conference, Jul 2021.

Liste des encadrants et encadrantes de thèse

Nom, Prénom
Guillaume Pierre
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
UMR 7074
Equipe
Contact·s
Nom
Guillaume Pierre
Email
guillaume.pierre@irisa.fr
Mots-clés
fog computing, stream data processing, stateful operators