Offre de stage en Informatique R&D niveau Bac+5 ou Master

Date: 2 Décembre 2016

Documents à télécharger : 
PDF icon offre_stage_LI-CESR_Tours.pdf

Titre : Recalage et comparaison d’images de pages provenant de différents exemplaires de livres anciens numérisés
Mots-clés : Analyse d’images, documents anciens, comparaison de contenu, alignement, recalage

 

Résumé du contexte et des objectifs du stage
Objectif applicatif: concevoir une «machine à collationner» numérique destinée au livre ancien
L’objectif de ce stage est la production d’un outil informatique destiné à l’étude du livre et des textes anciens, susceptible de rencontrer des applications dans le champ des humanités numériques.
On conserve généralement, dans les bibliothèques, différents exemplaires d’une même édition ancienne (15e-18e siècles). Leur texte est souvent réputé identique, puisqu’ils ont tous été imprimés en même temps, sous une même presse. Or, la comparaison minutieuse des différents exemplaires conservés d’une même édition fait souvent apparaître des variations d’état : des corrections typographiques ont pu être apportées sous presse en cours d’impression, des passages ont pu être censurés, des annotations manuscrites ajoutées, etc. Ainsi deux exemplaires réputés identiques présentent-ils des variantes souvent importantes pour l’histoire du texte et de la réception du livre.
Pour étudier ces variantes, le bibliographe Charlton Hinman avait développé, au milieu du 20e siècle, une « machine à collationner » permettant, par un jeu de miroirs et de lentilles optiques, de projeter sur un même écran les pages de deux exemplaires différents, afin de mieux en faire ressortir, visuellement, les variantes. De tels machines sont rares, fragiles, complexes à mettre en oeuvre, et nécessitent, surtout, de réunir dans une même salle deux exemplaires d’une même édition.
La numérisation de corpus massifs de livres anciens dans des bibliothèques du monde entier permet aujourd’hui au chercheur de disposer depuis son domicile des versions numériques de plusieurs exemplaires différents. Il devient donc possible d’envisager la réalisation d’une « machine à collationner » numérique, capable de réaliser automatiquement les tâches suivantes:
- Rapprochement et alignement des images de pages issues d’exemplaires différents afin de pouvoir ensuite comparer plus finement leur contenu
- Suppression du bruit et recalage des images par application de transformations géométriques
- Comparaison page à page et signalement des variantes les plus importantes au travers d’IHMs conviviales
Définition et description des missions en termes scientifiques et informatiques
Ces dernières années, de nouvelles techniques d’analyse et de recherche d’images très performantes ont vu le jour notamment grâce, d’une part à un couplage avec des techniques de détection de points d’intérêt (SIFT, VLAD, …) et de template matching, et d’autre part grâce à leur couplage avec des techniques d’apprentissage automatique.
L’objectif de ce stage réside dans la mise en place de ce nouveau type d’approches dans le cadre du recalage et de la comparaison de contenu d’images de documents anciens. Plus précisément, il s’agira ici de mettre en place une méthode (type CBIR1) pour comparer le contenu textuel et graphique de couple d’images fortement bruitées afin de mettre en évidence les différences significatives sans être sensible au bruit. Les méthodes proposées pourront exploiter des informations de structures (paragraphes, lignes, marges, …) ainsi que des méthodes de recalage habituellement utilisées pour le
1 Content Based Image Retrieval
recalage d’images médicales (IRM). Ces méthodes [2] devront être adaptées pour être exploitées sur des images de types différents.
Une fois les images recalées, des méthodes de region proposal [3] et de template matching robustes au bruit [1] seront mises en place pour la mise en évidence (détection) des variations entre exemplaires.
Observations
Ce stage s’effectuera au sein du Laboratoire d’informatique de l’Université de Tours afin de réactiver les collaborations fructueuses passées avec le programme « Bibliothèque Virtuelles Humanistes ». Le stagiaire pourra ainsi s’appuyer sur les outils développés dans le cadre d’anciennes collaborations, notamment les logiciels Agora et Rétro. Il sera encadré par une équipe d’informaticiens spécialistes du traitement d’images et suivi étroitement par l’équipe du Centre d’études supérieures de la Renaissance.
Références
[1] Mathieu Delalandre, Motoi Iwata, Koichi Kise: Fast and Optimal Binary Template Matching Application to Manga Copyright Protection. Document Analysis Systems 2014: 298-303
[2] M. Fornefett, K. Rohr, and H. Stiehl, “Radial basis functions with compact support for elastic registration of medical images,” Image and Vision Computing, vol. 19, no. 1-2, pp. 87–96, 2001.
[3] S. En, C. Petitjean, S. Nicolas, F. Jurie, and L. Heutte. “Region proposal for pattern spotting in historical document images". International Conference on Frontiers in Handwriting Recognition, 2016, Shenzhen, China.
Informations pratiques
Profil du candidat
Le candidat souhaité est un étudiant en Master ou dernière année d’une formation d’ingénieur en
Informatique, avec des bonnes compétences en programmation (langage C# ou Java ou Python) et des connaissances en analyse d’images et/ou reconnaissance des formes.
Candidature
CV + motivation à envoyer à ramel@univ-tours.fr et <remi.jimenes@univ-tours.fr
Lieu du stage
Laboratoire d’informatique, Polytech-Tours, 64 avenue Jean Portalis, 37200 Tours
Noms et adresses courriels des responsables du stage
Laboratoire d’informatique de Tours (EA 6300), équipe RFAI :

Centre d’études supérieures de la Renaissance de Tours , programme BVH

Dates / Durée du stage : 5 ou 6 mois entre Février et Septembre 2017
Indemnités du stage : indemnités mensuelles de 550 euros/mois environ