Apprentissage profond en faible supervision pour la reconnaissance d’écriture manuscrite

Publié le
Equipe
Date de début de thèse (si connue)
Octobre 2023
Lieu
IRISA - UMR 6074
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse

Contexte

Cette thèse se déroulera au sein de l'Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA) et plus particulièrement au sein de l’équipe IntuiDoc. L’équipe IntuiDoc focalise ses travaux sur la communication écrite et le traitement du document sous plusieurs aspects : analyse, reconnaissance, composition, interprétation, mais aussi interaction homme document graphique ou gestuelle. Ces recherches considèrent le document sous différentes formes : document manuscrit, formulaire imprimé, interaction gestuelle ou stylet, images, graphes, documents hétérogènes…

Sujet

Cette thèse s’inscrit dans la thématique de la reconnaissance d’écriture manuscrite dans des images. On s’intéressera plus particulièrement à la reconnaissance d’ouvrages particuliers anciens pour lesquels le manque d’exemples supervisés pour l’apprentissage d’un modèle est récurrent. L’objectif est ainsi de faciliter la transcription automatique de documents anciens, dont la langue ancienne, le style d’écriture, la dégradation des ouvrages ou les numérisations de faibles qualités rendent souvent difficile et fastidieux la tâche de transcription d’un ouvrage même pour un expert.

Les systèmes actuels de reconnaissance d’écriture se composent d’un modèle optique et d’un modèle de langues [Soullard et al. 2019]. Dans le cadre de cette thèse, on s’intéressera à la reconnaissance optique consistant à produire une séquence de caractères à partir d’une image contenant du texte. Les modèles traditionnels traitent des images de ligne de texte et sont entraînés à produire la séquence de caractères qui la compose.

Des progrès considérables ont eu lieu ces dernières années en reconnaissance d’écriture grâce à l’essor de méthodes d’apprentissage profond. Les modèles optiques de référence sont des réseaux de neurones associant des couches de convolution et des couches récurrentes, entraînés avec la fonction de coût CTC (classification temporelle connexionniste) [Graves et al. 2006]. Les couches de convolution produisent une analyse spatiale de l’image d’entrée qui est ensuite utilisée par des couches récurrentes (BLSTM) pour apprendre la séquentialité des données. De nouvelles architectures totalement convolutives [Yousef et al. 2020] [Coquenet et al. 2020] ou basées sur des Transformers [Kang et al. 2020] ont récemment émergé dans le domaine avec succès. La construction de telles architectures s’impose comme un axe de recherche majeur afin d’acquérir des architectures toujours plus performantes.

La reconnaissance d’écriture manuscrite dans des ouvrages anciens est rendue complexe par le manque de données étiquetées pour l’apprentissage. Habituellement, de l’apprentissage par transfert combiné à de l’augmentation de données sont utilisés [Soullard et al. 2019, Strauss et al. 2018]. Si ces stratégies aident à la reconnaissance de l’écriture dans un ouvrage particulier, l’adaptation au style d’écriture de l’auteur et à son langage bénéficierait de plus de données spécifiques de l’ouvrage.

Alors que de plus en plus de documents sont scannés, l’obtention d’une transcription associée aux lignes de texte est difficile et coûteuse pour les raisons évoquées précédemment [Leifert et al. 2020]. Ainsi, l’objectif les capacités du modèle par des exemples du style d’écriture de l’auteur ou de son style de langage au sein d’architectures. Différentes pistes peuvent être considérées. Une première piste consiste à explorer de récents travaux sur des méthodes d’apprentissage semi-supervisé comme des extensions de la fonction de coût CTC proposées en reconnaissance de la parole, l’une basée sur de multiples hypothèses [Do et al. 2021] ou une représentation de graphe [Moritz et al. 2021]. Une telle approche permet de tirer profit d’exemples non étiquetés pour l’apprentissage du modèle. Une seconde piste concerne des systèmes multi-tâches qui émergent de plus en plus permettant de tirer profit d’autres tâches par le biais de caractéristiques communes au sein du réseau pour renforcer la tâche voulue [Diaz et al. 2021]  [Wu et al. 2021]. Enfin, un troisième axe de recherche porte sur la génération d’exemples similaires au style d’écriture de l’auteur par le biais de réseaux antagonistes génératifs (GAN) permettant de venir enrichir la base d’apprentissage par des exemples générés [Fogel et al. 2020].

 

Pré-requis

Formation souhaitée : Apprentissage automatique, réseaux de neurones

Compétences techniques : Python . Une expérience avec un environnement dédié au deep learning (Keras, TensorFlow, PyTorch).

Bibliographie

Bibliographie

[Coquenet et al. 2020] Coquenet, D. and Chatelain, C. and Paquet, T., End-to-end handwritten paragraph text recognition using a vertical attention network, arXiv 2020.

[Diaz et al. 2021] Diaz, D. H., Qin, S., Ingle, R., Fujii, Y., & Bissacco, A. (2021). Rethinking Text Line Recognition Models. arXiv preprint arXiv:2104.07787.

[Do et al. 2021] Do, C. T., Doddipatla, R., & Hain, T. Multiple-hypothesis CTC-based semi-supervised adaptation of end-to-end speech recognition. ICASSP 2021

[Fogel et al. 2020] S. Fogel, H. Averbuch-Elor, S. Cohen, S. Mazor, and R. Litman, “Scrabblegan: Semi-supervised varying length handwritten text generation,” CVPR 2020.

[Graves et al. 2006] Graves, A., Fernández, S., Gomez, F., & Schmidhuber, J. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. ICML, 2006.

[Kang et al. 2020] Kang, L. and Riba, P. and Rusinol, M. and Fornès, A. and Villegas, M., Pay attention to what you read: Non-recurrent handwritten text-line recognition, arXiv 2020.

[Leifert et al. 2020] G. Leifert, R. Labahn, and J. A. Śanchez, “Two semi-supervised training approaches for automated text recognition,” ICFHR 2020.

[Moritz et al. 2021] Moritz, N., Hori, T., & Le Roux, J. Semi-supervised speech recognition via graph-based temporal classification. ICASSP 2021.

[Soullard et al. 2019] Soullard, Y., Swaileh, W., Tranouez, P., Paquet, T., Chatelain, C. Improving text recognition using optical and language model writer adaptation. ICDAR, 2019.

[Strauss et al. 2018] Strauß, T., Leifert, G., Labahn, R., Hodel, T., & Mühlberger, G. ICFHR2018 competition on automated text recognition on a READ dataset. ICFHR, 2018.

[Wu et al. 2021] D. Wu, X. Hu, Z. Xie, H. Li, U. Ali, H. Lu. Text Detection by Jointly Learning Character and Word Regions, ICDAR 2021.

[Yousef et al. 2020] Yousef, M. and Hussain, K. F and Mohammed, U. S, Accurate, data-efficient, unconstrained text recognition with convolutional neural networks, Pattern Recognition, 2020.

 

Liste des encadrants et encadrantes de thèse

Nom, Prénom
Bertrand Couasnon
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
IRISA - UMR 6074
Equipe

Nom, Prénom
Aurélie Lemaitre
Type d'encadrement
2e co-directeur.trice (facultatif)
Unité de recherche
IRISA - UMR 6074
Equipe

Nom, Prénom
Nathalie Girard
Type d'encadrement
Co-encadrant.e
Unité de recherche
IRISA - UMR 6074
Equipe

Nom, Prénom
Yann Soullard
Type d'encadrement
Co-encadrant.e
Unité de recherche
IRISA - UMR 6074
Equipe
Contact·s
Nom
Bertrand Couasnon
Email
bertrand.couasnon@irisa.fr
Nom
Aurélie Lemaitre
Email
aurelie.lemaitre@irisa.fr
Nom
Nathalie Girard
Email
nathalie.girard@irisa.fr
Nom
Yann Soullard
Email
yann.soullard@univ-rennes2.fr
Mots-clés
Apprentissage automatique, réseaux de neurones, reconnaissance d’écriture manuscrite, apprentissage faiblement supervisé, adaptation à l’auteur