Vous êtes ici

Combinaison de connaissances logiques et textuelles pour la reconnaissance d’images de registres anciens

Equipe et encadrants
Département / Equipe: 
Site Web Equipe: 
https://www-intuidoc.irisa.fr/
Directeur de thèse
Coüasnon Bertrand
Co-directeur(s), co-encadrant(s)
Lemaitre Aurélie
Tardivel Sophie
Contact(s)
NomAdresse e-mailTéléphone
Aurélie Lemaitre
aurelie.lemaitre@irisa.fr
0299847539
Sujet de thèse
Descriptif

Contexte

L’équipe Intuidoc (https://www.irisa.fr/intuidoc) de l’Irisa travaille notamment sur la reconnaissance de la structure de documents anciens, manuscrits ou dégradés (partitions musicales, registres d'archives, journaux, courriers manuscrits, schémas électriques ...).

Doptim (https://www.doptim.eu) est une start-up créée en 2017 et spécialisée en data science avec deux activités, conseil auprès des entreprises qui souhaitent valoriser leurs données, et R&D sur des produits logiciels qui mettent en œuvre l’état de l’art en machine learning et en technologie big data.

La collaboration entre Doptim et Intuidoc concerne les images de manuscrits anciens principalement utilisés par les généalogistes amateurs du monde entier dans leur travail de reconstitution d’histoires familiales. Doptim développe une plate-forme web, Geneafinder, pour rendre moins fastidieuse la recherche d’information dans les millions d’images disponibles en ligne.

Sujet de thèse

Doptim s’intéresse à des documents anciens, tels que les registres paroissiaux et d’état civil, utiles aux généalogistes. Ces documents sont des documents faiblement structurés : ils sont organisés en actes, mais souvent sans la présence de séparateurs physiques nets. Ils présentent les difficultés propres aux documents anciens : dégradations du papier, dégradation de l’encre… Ce sont des documents manuscrits, pour lesquels il est parfois nécessaire, même pour un humain, d’avoir une expertise pour en reconnaître le contenu textuel.

L’objectif de cette thèse est de viser une reconnaissance des registres la plus complète possible, en suivant plusieurs étapes : la reconnaissance de la structure, la reconnaissance de mots clés, puis la reconnaissance plein texte.

La reconnaissance de structure physique de documents anciens a été déjà étudiée [2,3,4], mais, dans ces documents, elle est liée à l’organisation logique du texte. L’objectif de la thèse sera de mettre en place des reconnaisseurs d’écriture manuscrite, dans le contexte des documents anciens, et de prendre en compte les résultats sur certaines parties de texte pour améliorer la reconnaissance de la structure du document, puis de son organisation complète.

L’enjeu scientifique est donc de combiner dans une même chaine de traitement des connaissances logiques sur l’organisation et le contenu du document, avec des informations issues d’une reconnaissance partielle de texte manuscrit, dans le but d’obtenir une reconnaissance la plus complète du document, par itérations successives. Il sera en particulier intéressant d’étudier l’apport des méthodes à base d’apprentissage profond [1,5] pour la reconnaissance d’écriture et de structure. L’apprentissage devra intégrer des annotations partielles faites par des généalogistes.

Cadre applicatif

Doptim intégrera les résultats régulièrement dans un projet d’expérimentation sur des registres paroissiaux, utiles aux généalogistes. Les systèmes seront appliqués sur les bases accessibles aux utilisateurs, et bénéficieront des retours des usagers, tant en terme de jugement qualitatif qu’en terme d’annotation ou de correction des données.

En fonction des résultats, il sera possible d’attaquer d’autres types de documents utiles aux généalogistes : registres d’état civil, registres d’actes notariés.

Modalités pratiques

Il est prévenu un financement CIFRE en collaboration entre l’équipe Intuidoc de l’IRISA et la société Doptim.

La thèse s’effectuera dans les locaux du laboratoire de l’Irisa, au sein de l’équipe Intuidoc. Le candidat sera encadré par Bertrand Coüasnon et Aurélie Lemaitre, enseignants chercheurs. Des points réguliers seront prévus avec la société Doptim.

Le démarrage de la thèse est prévu au 2nd semestre 2018.

Bibliographie

[1] Alberti, M., Seuret, M., Pondenkandath, V., Ingold, R., and Liwicki, M. (2017). Historical document image segmentation with lda-initialized deep neural networks. ICDAR-HIP 2017.

[2] Cérès Carton, Aurélie Lemaitre, Bertrand Coüasnon. Eyes Wide Open: an interactive learning method for the design of rule-based systems. In International Journal on Document Analysis and Recognition, Springer Verlag, 2017, 20 (2), pp.91-103.

[3] L. Guichard, J. Chazalon, B. Coüasnon: Exploiting Collection Level for Improving Assisted Handwritten, Words Transcription of Historical Documents, ICDAR, pp 875-879, 2011.

[4]  A. Lemaitre, J. Camillerapp, B. Coüasnon. Multiresolution Cooperation Improves Document Structure Recognition. International Journal on Document Analysis and Recognition (IJDAR), 11(2):97-109, Nov 2008.

[5] Schreiber, S., Agne, S., Wolf, I., Dengel, A., and Ahmed, S. (2017). Deepdesrt : Deep learning for detection and structure recognition of tables in document images cbad : Icdar2017 competition on baseline detection. 2017 14th ICDAR.

Début des travaux: 
Dés que possible
Mots clés: 
Analyse d’images de documents, reconnaissance de structure de documents, reconnaissance d’écriture, modélisation de connaissances, analyse statistique, big data, documents anciens
Lieu: 
IRISA - Campus universitaire de Beaulieu, Rennes