Search-Based And Supervised Text Generation

Type de soutenance

Thèse

Date de début

ven 16/09/2022 - 14:00

Date de fin

ven 16/09/2022 - 17:30

Lieu

IRISA Lannion

Salle

Salle Jacques LE SQUIN - ENSSAT - LANNION

Orateur

Betty Fabre

Département principal

D6 - Signal, Image, Langage

Sujet

Mots Clés : Encodeur-decodeur, triplets RDF, paraphrase, recherche dans un arbre, distillation

Encoder-decoder, RDF verbalization, paraphrase , TRANSFORMER , tree-search, distillation

Résumé (in english below)

Les modèles supervisés encodeurs-decodeurs nécessitent de grands datasets alignées pour être entraînés. Les données nécessaires ne sont pas encore disponibles pour plusieurs tâches telles que la verbalisation de triplets RDF ou la génération de paraphrases.
D'abord, nous avons exploré la tâche de verbalisation de triplets RDF. Nous avons entraîné des modèles Transformer sur une nouvelle version des données WebNLG et avons étudié plusieurs stratégies de pré-entraînement pour surmonter la petite taille du corpus.
Ensuite, nous avons étudié la tâche de génération de paraphrases. Nous avons entraîné des modèles Transformer sur des corpus alignés afin de les comparer directement avec les modèles de la littérature. Une contribution importante de la thèse a été de proposer un cadre expérimental uniforme pour comparer les modèles encodeurs-décodeurs pour la génération de paraphrases.
Nous avons également suivi la voie des méthodes alternatives basées recherche pour générer des paraphrases. Pour ce faire, nous avons transformer la tâche de génération de paraphrases en un problème de recherche dans un arbre. Nous avons ensuite développé deux stratégies de recherche: MCPG et PTS et un module de score des paraphrases qui exploite le BERT score, GPT2 et la distance de Levenshtein.
Enfin, nous avons mené des expériences de distillation avec le modèle Transformer.

Abstract :

In this thesis, we studied the topic of Search-Based and Supervised Text Generation.
Supervised encoder-decoder models require huge aligned dataset to be trained. The necessary data is not yet available for several tasks such as RDF triples verbalization or paraphrase generation.
First, we explored the data-to-text task of RDF verbalization. We trained supervised Transformer models on a newly released version of the WebNLG dataset and studied in depth several pre-training strategies to overcome the small size of the aligned corpus.
Then, we studied the paraphrase generation task. We have trained Transformer models on aligned corpora to directly compare with the literature model. An important contribution of the thesis was to propose a uniform experimental framework for comparing encoder-decoder models for paraphrase generation.
We also followed the path of search-based alternative strategies to generate paraphrases. The main motivation was to provide a better control of the generated paraphrase. To do so, we casted the paraphrase generation tasks as a tree-search problem. We then, developped two search strategies MCPG and PTS and a paraphrase scoring module that leverages the BERT score, GPT2 and the Levenshtein distance.
Finally, we conducted experiments of data distillation for the Transformer model.

Composition du jury

Rapporteurs -
John KELLEHER, Professeur des Universités, TU Dublin -
Stefan RIEZLER, Professeur des Universités, Heidelberg University

Examinateurs :
Christophe CERISARA Professeur des Universités, LORIA Nancy
Pascale SEBILLOT Professeure des Universités, IRISA
François YVON Professeur des Universités, LISN

Directeurs de thèse :
Damien LOLIVE Professeur des Universités, IRISA
Tanguy URVOY Chercheur, Orange Labs Lannion

Encadrant de thèse :
Jonathan CHEVELU Maître de conférences, IRISA