Zero-shot Learning pour la génération de paraphrases sous contraintes

Publié le
Equipe
Date de début de thèse (si connue)
10/2023
Lieu
Lannion
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse

Au cours de la dernière décennie, le développement de l'apprentissage profond a permis une grande amélioration de l’état de l’art pour de nombreuses tâches du traitement automatique des langues. C’est en particulier le cas pour de nombreuses tâches de génération de texte comme la traduction automatique. La génération d'une paraphrase d'une phrase peut être vue comme la traduction d’une phrase en une autre dans la même langue, avec pour contrainte de produire une forme de surface différente tout en préservant la sémantique. Ainsi, de manière historique, ce problème a été traité comme un problème de traduction automatique. Les évolutions récentes se sont orientées, comme dans d’autres domaines, vers des approches de bout en bout, réalisant à la fois l’alignement et la traduction.

La complexité des modèles a augmenté considérablement avec le développement des grands modèles de langage notamment au niveau du texte (GPT, BERT). Ces modèles qui nécessitent des quantités de données colossales peuvent néanmoins être adaptés à différentes langues ou différentes tâches. Les approches de type few-shot learning ou zero-shot learning se développent grandement à l’heure actuelle. Non seulement le développement de tels modèles requiert beaucoup de ressources mais également leur déploiement. Ainsi la réduction de la complexité des modèles devient une préoccupation majeure afin de réduire les ressources nécessaires, mieux les utiliser et avoir un impact moins important sur l’environnement.

L’objectif de cette thèse est de proposer des modèles et méthodes s’inspirant des grands modèles de langage pour réaliser de la génération de texte contrôlée, ici de la paraphrase avec des contraintes de style, tout en minimisant les ressources nécessaires. L’étude des méthodes de traduction automatique, de paraphrase et de modélisation du langage sera nécessaire en premier lieu avant de mettre en œuvre une première baseline reposant sur le modèle encodeur-décodeur. La deuxième consistera en la mise en œuvre d’un modèle de langue génératif de type GPT-3 avec une adaptation à la tâche de paraphrase. Pour cela, différentes approches seront évaluées et un effort particulier sera porté à l’étude des méthodes de décodage (retrieval decoding, contrastive decoding) pour guider la génération de la paraphrase.

Bibliographie

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems33, 1877-1901.

Guo, Y., Liao, Y., Jiang, X., Zhang, Q., Zhang, Y., & Liu, Q. (2019). Zero-shot paraphrase generation with multilingual language models. arXiv preprint arXiv:1911.03597.

Chaffin, Antoine and Claveau Vincent and Kijak, Ewa. PPL-MCTS: Constrained Textual Generation Through Discriminator-Guided MCTS Decoding. NAACL. (2022).

Betty Fabre, Tanguy Urvoy, Jonathan Chevelu and Damien Lolive. “Neural-Driven Search-Based Paraphrase Generation”, In The 16th Conference of the European Chapter of the Association for Computational Linguistics (EACL), 2021.

Liste des encadrants et encadrantes de thèse

Nom, Prénom
Damien Lolive
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
IRISA - UMR6074
Equipe

Nom, Prénom
Chevelu Jonathan
Type d'encadrement
Co-encadrant.e
Unité de recherche
IRISA - UMR 6074
Equipe
Contact·s
Nom
Damien Lolive
Email
damien.lolive@irisa.fr
Téléphone
0296469165
Nom
Chevelu Jonathan
Email
jonathan.chevelu@irisa.fr
Téléphone
0296469184
Mots-clés
Traitement automatique des langues, paraphrases, IA frugale, zero-shot learning