Géométrie des transformeurs, explicabilité et mesures de confiance

Publié le
Equipe
Date de début de thèse (si connue)
octobre 2023
Lieu
Rennes
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse

Les modèles fondés sur l’auto-attention sont devenus les standards de facto en traitement automatique des langues (TAL). En particulier, les modèles pré-entrainés via une tâche de modèles de langue, comme BERT [1] pour l’anglais ou FlauBERT [2] pour le français, sont au cœur de l’état de l’art dans de nombreuses tâches en TAL. L’étape de pré-entrainement leur permet de capturer une information linguistique riche qui est ensuite implicitement exploitée lorsque ces modèles sont adaptés pour différentes tâches applicatives comme la classification de texte, l’étiquetage de séquence (étiquetage morpho-syntaxique, détection d’entités nommées, analyse syntaxique en dépendance, etc.) ou encore l’inférence en langage naturel.

Les transformeurs s’appuient sur un ensemble de couches transformant progressivement une séquence de plongement des mots en entré1 en s’appuyant sur un mécanisme d’auto-attention [3]. Ce mécanisme permet en théorie de mettre en avant les mots importants pour la décision prise au travers de poids d’attention, ouvrant la voie à l’utilisation de ces poids d’attention pour permettre à un utilisateur de mieux comprendre la décision prise par un algorithme de classification ou d’étiquetage. Cependant, la pertinence des poids d’attention pour l’explicabilité reste un sujet de débat (cf. [4—6] pour des points de vue opposés) et peu de travaux cherchent à les exploiter en pratique.\

Pour éclairer ce débat, quelques travaux se sont penchés sur le fonctionnement interne de ces modèles [7—13], notamment sur la géométrie des plongements dans les modèles d’auto-attention [11—13]. Ces dernières études ont mis en évidence que les couches successives d’auto-attention renforcent l’anisotropie des plongements (c.-à-d. leur concentration dans une direction) au sein d’une même phrase. Dans des travaux préliminaires, nous avons notamment observé sur une tâche de classification de texte que les plongements en sortie d’un modèle BERT adapté à la tâche de classification convergent dans un cône étroit, la direction du cône étant liée à la classe. Nous avons montré que cette convergence se construit progressivement au travers des couches du modèle [13]. Ce phénomène permet notamment d’expliquer pourquoi les poids d’attention portés sur chacun des mots en entrée tendent à devenir homogènes, rendant le mécanisme d’attention peu adapté pour éclairer la décision prise par le modèle en faisant ressortir les mots pertinents pour la décision [10, 14].

L’objectif de la thèse est d’approfondir la compréhension des transformations géométriques opérées au sein d’un modèle de type transformeurs et d’étudier comment ces transformations peuvent être exploitées dans deux contextes : l’explicabilité d’une part, c’est-à-dire la capacité à mettre en avant les mots de la phrase ou les relations entre mots de la phrase qui justifient la décision prise par le modèle ; la mesure de confiance dans la décision prise par le modèle.

 

Concernant la meilleure compréhension des transformations géométriques au sein d’un modèle, on s’appuiera dans une première partie sur les travaux préliminaires menés sur la tâche de classification [12,13] avec plusieurs objectifs. Il s’agira tout d’abord de mettre en évidence comment le jeu entre clés et valeurs dans le mécanisme d’attention assure cette convergence des plongements au sein d’une phrase, des premières études montrant que lorsque que l’on impose une contrainte sur l’un de ces éléments pour éviter la convergence des plongements (typiquement des contraintes sur la clé), le modèle s’arrange pour contourner la contrainte en ajustant l’autre élément (typiquement les valeurs2. On s’intéressera notamment à caractériser les projections opérées vers l’espace des clés et des valeurs depuis celui des plongements de mots. Dans un second temps, il s’agira d’élargir le cadre de l’étude à des tâches autres que la classification de texte. On peut par exemple se demander si on retrouve de telles propriétés de convergence dans une direction du plongement des mots de la même classe.

Dans une seconde partie, on cherchera à exploiter la compréhension fine de la géométrie des modèles pour améliorer l’explicabilité. Par exemple, dans la tâche de classification de texte, on peut se demander si certains mots ne sont pas déterminants dans la direction vers laquelle on projette la phrase, ces mots étant alors cruciaux pour l’explication. La caractérisation de la projection vers l’espace des clés pourrait notamment permettre d’identifier ces mots à partir des propriétés de l’espace de plongement des mots. On peut également se demander si des mots isolés sont plutôt associés à une direction ou une autre, la difficulté étant d’obtenir un plongement d’un mot isolé dans un modèle où les plongements sont fortement contextualisés.

On cherchera aussi à exploiter la géométrie des modèles pour faciliter la mesure de la confiance dans la décision prise par un modèle. Cette dernière est traditionnellement liée au score d’activation de la classe en sortie d’un perceptron, ce qui s’avère en pratique une mesure peu fiable. On pourra par exemple s’appuyer sur la direction des plongements après convergence et sur la caractérisation des cônes associés aux différentes classes (s’ils existent pour l’étiquetage) pour mesurer la confiance. Nous anticipons que les propriétés géométriques des modèles pourraient être exploitées pour d’autres tâches, les propriétés des plongements contextuels de mots étant probablement liés à des caractéristiques linguistiques. À titre d’exemple, on peut imaginer que la dispersion des plongements dépend de la catégorie morpho-syntaxique ou encore de la précision sémantique des mots (on sait par exemple que les mots polysémiques ont des représentations plus dispersées).

 

1 Un plongement de mot est une représentation dans un espace euclidien de grande dimension du mot, un texte étant alors représenté par une séquence de plongements.

2 Dans ces modèles, les “clés” sont typiquement utilisées pour définir l’attention qu’il faut porter sur chaque mot de la phrase afin de construite une nouvelle représentation d’un mot donné ; les « valeurs » servent quant à elle à définir cette nouvelle représentation. Clés et valeurs sont obtenues par transformation linéaire des plongements.

Bibliographie

[1] J. Devlin, M.-W. Chang, K. Lee, K. Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proc. of the Conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019.

[2] H. Le, L. Vial, J. Frej, V. Segonne, M. Coavoux, B. Lecouteux, A. Allauzen, B. Crabbé, L. Besacier, D. Schwab. FlauBERT: Unsupervised Language Model Pre-training for French. Proc. Language Resources and Evaluation Conference, 2020.

[3] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, I. Polosukhin. Attention is All you Need. Proc. Advances in Neural Information Processing Systems, vol. 30, 2017.

[4] S. Jain and B. C. Wallace. Attention is not Explanation. Proc. Conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019.

[5] Serrano and N. A. Smith. Is Attention Interpretable? Proc. Annual Meeting of the Association for Computational Linguistics, 2019.

[6] Wiegreffe and Y. Pinter. Attention is not not Explanation. Proc. Conf. on Empirical Methods in Natural Language Processing and Intl. Joint Conf. on Natural Language Processing, 2019.

[7] Emily Reif, Ann Yuan, Martin Wattenberg, Fernanda B. Viegas, Andy Coenen, Adam Pearce, Been Kim. Visualizing and Measuring the Geometry of BERT. Proc. Advances in Neural Information Processing Systems, 2019.

[9] Hosein Mohebbi, Ali Modarressi, and Mohammad Taher Pilehvar. Exploring the Role of BERT Token Representations to Explain Sentence Probing Results. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021.

[10] Kevin Clark, Urvashi Khandelwal, Omer Levy, and Christopher D. Manning. What does BERT look at? an analysis of BERT’s attention. In Proc. ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, 2019.

 [11] Kawin Ethayarajh. 2019. How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings. In Proc. Conference on Empirical Methods in Natural Language Processing, 2019.

[12] Loïc Fosse, Loïc Fosse, Duc-Hau Nguyen, Pascale Sébillot, and Guillaume Gravier. Une étude statistique des plongements dans les modèles transformers pour le français. In Proc. Conf. Traitement Automatique des Langues Naturelles, 2021.

[13] A statistical - geometrical study of the attention based models in natural language processing. Research project report, INSA Rennes, 2022.

[14] D. H. Nguyen, G. Gravier, P. Sébillot. A Study of the Plausibility of Attention between RNN Encoders in Natural Language Inference. Proc. Intl. Conf. on Machine Learning and Applications, 2021.

Liste des encadrants et encadrantes de thèse

Nom, Prénom
Gravier, Guillaume
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
IRISA
Equipe

Nom, Prénom
Sébillot, Pascale
Type d'encadrement
2e co-directeur.trice (facultatif)
Unité de recherche
IRISA
Equipe
Contact·s
Nom
Gravier, Guillaume
Email
guillaume.gravier@irisa.fr
Mots-clés
traitement automatique des langues ; apprentissage automatique ; transformeurs ; mécanisme d’attention ; explicabilité en IA ; mesure de confiance