Contribution à l'accélération FPGA de cache sémantique pour le traitement des requêtes d'intervalles dans le domaine des masses de données

Defense type

Thesis

Starting date

Fri 02/12/2022 - 13:30

End date

Fri 02/12/2022 - 17:00

Location

IRISA Lannion

Room

020G - Salle J. LE SQUIN - ENSSAT LANNION

Speaker

Huu Van Long NGUYEN (SHAMAN - Lannion)

Main department

D7 - Data and knowledge management

Theme

In English below

Mot clés : FPGA accélération, système de gestion de données, cache sémantique

Résumé : Avec l’émergence de nouveaux systèmes de gestion de données pour le big data et le cloud computing, la mise en cache des données est devenue importante car elle permet de réduire l’exécution de requêtes inutiles. Dans ce contexte, le cache sémantique (SC) est une technique qui permet d’exploiter les ressources de la mémoire cache et les connaissances contenues dans les requêtes. Néanmoins, la réécriture de la requête avec un cache sémantique peut parfois induire un surcoût important en raison des calculs nécessaires. Dans cette thèse, nous cherchons à combiner l’infrastructure du cache, le cache sémantique et l’accélération de bases de données sur FPGA pour accélérer le traitement des requêtes d’intervalles dans le domaine des masses de données. Les contributions de cette thèse sont : 1) Nous présentons un système de gestion du cache dans la couche intermédiaire du système de gestion de données (MASCARA). 2) Nous proposons une heuristique de regroupement avec une nouvelle fonction de valeur de remplacement pour la gestion du cache dans MASCARA. 3) Nous mettons en œuvre un mécanisme, appelé traitement multi-vues, pour gérer la requête dites de jointure en cache sémantique. 4) Enfin, nous présentons un modèle coopératif, appelé MASCARA-FPGA, où le traitement des requêtes, en ce qui concerne la réécriture des requêtes et une partie de l’exécution des requêtes, est accéléré sur FPGA.

Key words: FPGA acceleration, data management systems, semantic caching

Abstract : With the emergence of new data management systems (DMS) in context of big data and cloud computing, caching data has become important since it can reduce unnescessary query execution. To address it, semantic caching (SC) is a candidate since it allows to exploit the resources in the cache and knowledge contained in the queries. Nevertheless, the complexity of query rewriting in SC, can induce a high overhead because of its excessive computations. Therefore, we aim to combine cache framework, SC and FPGA-based database acceleration together to accelerate range query processing in the domain of massive distributed data. In this dissertation, we present the contributions as follows: 1) We present ModulAr Semantic CAching fRAmework (MASCARA) in the middleware layer of DMS. 2) We propose a coalescing heuristic with a new replacement value function in terms of cache management in MASCARA. 3) We implement a mechanism, named Multi-view processing, to handle select-project-join query in SC. 4) We exhibit a cooperative model, called MASCARA-FPGA, where query processing is accelerated regarding query rewriting and part of query execution.

Composition of the jury

- Claudia RONCANCIO, Professeur des Universités, Université Grenoble Alpes (Rapporteure)
- Nicolas GAC, Maître de conférences, HDR, Université Paris Saclay (Rapporteur)
- Karine ZEITOUNI, Professeur des Universités, Université de Versailles Saint-Quentin-en-Yvelines (Examinatrice)
- Laurent d’ORAZIO, Professeur des Universités, Université de Rennes 1 (Co-directeur de thèse)
- Emmanuel CASSEAU, Professeur des Universités, Université de Rennes 1(Co-directeur de thèse)
- Julien LALLET, Docteur, Ingénieur de recherche, Nokia Bell Labs (Co-encardrant de thèse)