Introduction de capacités de rejet et de modèles de langage externalisés dans des systèmes d’apprentissage profond pour la lecture de texte en conditions difficiles

Submitted by Bertrand COUASNON on ven 29/04/2022 - 17:47

Team

INTUIDOC

Website of the team

/en/teams/intuidoc

Place

IRISA - UMR 6074

Laboratory

IRISA - UMR 6074

Description of the subject

Thèse CIFRE - ANTAI / IRISA

Contexte

Depuis 2011, l’Agence Nationale des Traitements Automatisés des Infractions (ANTAI) pilote le programme interministériel de traitement automatisé des infractions routières constatées par des radars. Au Centre de Traitement des Amendes (CNT) de Rennes, les photos en provenance de ces radars routiers sont traitées afin de localiser et de reconnaitre la plaque d’immatriculation et le pays d’origine du véhicule en infraction. Cette opération est réalisée par une chaine de traitement qui est capable de traiter la moitié des photos automatiquement (sans intervention humaine). Cette reconnaissance automatique s’appuie sur des moteurs de lecture automatique de plaques (LAP) du marché, dont les hypothèses sont combinées pour produire une immatriculation et un pays d’origine le plus fiable possible.

Les systèmes de LAP se scindent en 2 catégories [2] : ceux qui fonctionnent en deux étapes (segmentation puis reconnaissance des caractères), ceux qui réalisent la segmentation et la reconnaissance conjointement. Dans la première catégorie, la segmentation peut être réalisée par soit des techniques de reconnaissance de forme classiques [1,3,9] ou soit en employant des réseaux de détection d’objets [6,7,8]. La reconnaissance est faite avec des classifieurs de type CNN [9] ou directement en utilisant les prédictions de la détection d’objets [3].
Dans la seconde catégorie, la lecture est réalisée soit par des CNN produisant un vecteur codant l’immatriculation [5] ou soit par des réseaux récurrents (LSTM) appliqués à l’image [4,10] ou à l’image passée dans un CNN [11,12,13].

Les LAP employés aujourd’hui souffrent de deux limites principales. La première limitation vient du fait que les photos prises par les radars sont parfois bruitées ou bien que des éléments viennent se placer entre le capteur et la plaque (par exemple, de la végétation ou une boule d’attelage). Ces évènements dégradent ou rendent illisibles un ou plusieurs caractères de la plaque. Les LAP réagissent mal à ces singularités et peuvent produire des immatriculations erronées avec une confiance élevée. La seconde est due à l’apprentissage biaisé et figé du modèle de langage en raison d’un apprentissage conjoint du modèle graphique de plaques et du modèle de langage : la base d’entrainement ne couvrant évidemment pas toute la grammaire, le modèle de langage appris est biaisé. Lors de la reconnaissance d’une plaque de bonne qualité, son score s’en trouvera abaissé si son immatriculation n’a pas été “vue” lors de l’entrainement. De plus, le parc de véhicule est en constante évolution et la distribution statistique des immatriculations se modifie continuellement. En France, par exemple, les immatriculations débutant par la lettre ‘G’ sont apparues en 2021. Du fait de cette évolution du parc, les LAP voient leur performance diminuer avec le temps et la mise à jour du modèle de bout en bout demeure complexe et couteux.

La problématque de la capacité de rejet et celle du modèle de langage ne sont pas abordées dans la littérature sur les LAP, voire même disqualifiée [7]. À noter que dans la plupart des publications, les bases d’apprentissage sont de taille modeste et la variabilité des syntaxes est faible (plaques d’un seul pays dans la base) [7, 10], ce qui ne permet pas d’étudier ces questions.

Au-delà des LAP, ces limitations soulèvent des questions fondamentales en apprentissage automatique, en premier lieu sur la mesure de la confiance dans la décision (capacité de rejet, explication), en second lieu sur des architectures performantes permettant de découpler la modélisation des différentes composantes (images, caractères, modèle de langue) tout en gardant les bénéfices d’une modélisation globale (end-to-end).

L’objectif général de la thèse est donc de développer de nouvelles approches en apprentissage automatique appliqué à la LAP, permettant de développer des systèmes performants, facilement adaptables et adaptés à l’interaction avec les utilisateurs validant la décision.

Objectifs

Lever les deux limites sus-mentionnées passe par la construction d’une LAP reposant sur un modèle avec les spécificités suivantes :

Capacité de rejet. Le modèle devra être capable d’indiquer qu’il ne sait pas décider de la valeur de l’immatriculation ou d’un ou plusieurs de ses caractères. En pratique, la connaissance du caractère ou des caractères à problème permettra d’interroger une base de données et éventuellement de lever l’ambiguÏté. Doter un modèle d’une capacité de rejet soulève plusieurs questions scientifiques autour de la définition du domaine de validité d’un réseau de neurone, de la définition de mesures de confiance sur tout ou partie de la décision, ou encore de l’explicabilité pour faciliter le travail de validation par les annotateurs.
Modèle de langage externalisé. Le modèle devra permettre l’entrainement séparé de la partie reconnaissance des caractères et apprentissage des dépendances inter-caractères et de la partie modélisation du langage, en restant cependant aussi proche que possible d’une architecture de bout en bout dont les performances restent meilleure que celle des approches en deux étapes. On s’attachera donc à définir un modèle intermédiaire entre l’approche séparée et l’approche conjointe, où l’interaction entre les deux étapes est forte tout en permettant d’adapter l’une ou l’autre indépendamment.

Méthodologie

Le travail s’appuiera fortement sur les données et l’expertise existante au sein de l’ANTAI, cette dernière disposant de l’ensemble des images prises par les radars routiers depuis le début du programme accompagnées des annotations validées.

Dans un premier temps, on s’intéressera à la problématique du rejet avec une approche bout en bout à l’état de l’art en s’appuyant sur des architectures de type transformer. On étudiera pour cela l’apport du mécanisme d’attention [14,15] et/ou des cartes de saillance [16]. On pourra également s’intéresser à la caractérisation du domaine de validité des données en entrée.

Dans un second temps, on s’intéressera à la problématique de découplage de l’apprentissage du modèle de reconnaissance des caractères et de l’apprentissage du modèle de langage. Une première approche consiste à empiler des modèles appris séparément : un modèle CNN multi-label, transformers ou RCNN pour reconnaître les chiffres/lettres (ou faire des hypothèses) et un modèle de langage type RNN ou transformers par dessus. On s’efforcera ensuite d’introduire un modèle de couplage fort entre les deux de manière à tendre vers une architecture de bout en bout. En particulier, les mécanismes d’attention offre une piste prometteuse, en les couplant à une étape de fine tuning. La génération de données, e.g., à l’aide de la partie décodeur d’un transformer, constitue une autre piste permettant d’anticiper l’évolution du modèle de langage.

Bibliography

[1] Gondhalekar, D., Chalke, O., Bansal, S., & Banerjee, S. (2021). Vehicle License Plate Recognition Using Neural Networks. Available at SSRN 3866116.

[2] Parvin, S., Rozario, L. J., & Islam, M. E. (2021). Vehicle Number Plate Detection and Recognition Techniques: A Review. Advances in Science, Technology and Engineering Systems Journal, 6, 423-438.

[3] Ahsan, M., Based, M., & Haider, J. (2021). Intelligent System for Vehicles Number Plate Detection and Recognition Using Convolutional Neural Networks. Technologies, 9(1), 9.

[4] Zou, Y., Zhang, Y., Yan, J., Jiang, X., Huang, T., Fan, H., & Cui, Z. (2020). A robust license plate recognition model based on bi-LSTM. IEEE Access, 8, 211630-211641.

[5] Wang, Y., Bian, Z. P., Zhou, Y., & Chau, L. P. (2021). Rethinking and Designing a High-performing Automatic License Plate Recognition Approach. IEEE Transactions on Intelligent Transportation Systems.

[6] Laroca, R., Severo, E., Zanlorensi, L. A., Oliveira, L. S., Gonçalves, G. R., Schwartz, W. R., & Menotti, D. (2018, July). A robust real-time automatic license plate recognition based on the YOLO detector. In 2018 International Joint Conference on Neural Networks (IJCNN) (pp. 1-10). IEEE.

[7] Montazzolli, S., & Jung, C. (2017, October). Real-time brazilian license plate detection and recognition using deep convolutional neural networks. In 2017 30th SIBGRAPI conference on graphics, patterns and images (SIBGRAPI) (pp. 55-62). IEEE.

[8] Onim, M. S. H., Akash, M. I., Haque, M., & Hafiz, R. I. (2020, December). Traffic Surveillance using Vehicle License Plate Detection and Recognition in Bangladesh. In 2020 11th International Conference on Electrical and Computer Engineering (ICECE) (pp. 121-124). IEEE.

[9] Masood, S. Z., Shu, G., Dehghan, A., & Ortiz, E. G. (2017). License plate detection and recognition using deeply learned convolutional neural networks. arXiv preprint arXiv:1703.07330.

[10] Zhang, L., Wang, P., Li, H., Li, Z., Shen, C., & Zhang, Y. (2020). A robust attentional framework for license plate recognition in the wild. IEEE Transactions on Intelligent Transportation Systems.

[11] Li, H., & Shen, C. (2016). Reading car license plates using deep convolutional neural networks and LSTMs. arXiv preprint arXiv:1601.05610.

[12] Wang, W., Yang, J., Chen, M., & Wang, P. (2019). A light CNN for end-to-end car license plates detection and recognition. IEEE Access, 7, 173875-173883.

[13] Qin, S., & Liu, S. (2021). Towards end-to-end car license plate location and recognition in unconstrained scenarios. Neural Computing and Applications, 1-16.

[14] Wiegreffe, Sarah, and Yuval Pinter. Attention is not not Explanation. Conference on Empirical Methods in Natural Language Processing and International Joint Conference on Natural Language Processing, 2019.

[15] Nguyen, Duc Hau, Guillaume Gravier, and Pascale Sébillot. A Study of the Plausibility of Attention between RNN Encoders in Natural Language Inference. 2021 IEEE International Conference on Machine Learning and Applications, 2021.

[16] Bastings J. & Filipova K. The Elephant in the Interpretability Room : Why Use Attention as Explanation When we Have Saliency Methods? ACM BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, 2019.

Researchers

Guillaume Gravier

Type of supervision

Director

Laboratory

IRISA - UMR 6074

Department

D6 - Signal, Image, Language

Team

LINKMEDIA

Bertrand Coüasnon

Type of supervision

Co-director (optional)

Laboratory

IRISA - UMR 6074

Department

D6 - Signal, Image, Language

Team

INTUIDOC

Aurélie Lemaitre

Type of supervision

Supervisor (optional)

Laboratory

IRISA - UMR 6074

Department

D6 - Signal, Image, Language

Team

INTUIDOC

Laurent Guichard

Type of supervision

Supervisor (optional)

Laboratory

ANTAI

Contact·s

Nom

Guillaume Gravier

guillaume.gravier@irisa.fr

Nom

Bertrand Coüasnon

bertrand.couasnon@irisa.fr

Téléphone

02 99 84 74 11

Nom

Aurélie Lemaitre

aurelie.lemaitre@irisa.fr

Keywords

Apprentissage automatique, réseaux de neurones, apprentissage profond, modèle de langage, rejet, mécanismes d’attention, reconnaissance de texte imprimé.