Depuis plus quatre ans, Ivan Leplumey - enseignant chercheur à l’INSA Rennes et membre de l’équipe de recherche Intuidoc/Shadoc - encadre un projet d’étudiants dont la finalité est de créer des revues numériques des registres de l’Ancien Régime, à partir de milliers d’images et d’annotations de ces registres.
Ce projet s’inscrit en premier lieu dans une démarche de collaboration avec le site Mémoire des Hommes, qui met à disposition des milliers d’images de registres militaires décrivant les régiments français dont ceux de l’ancien régime (fin du XVIIe siècle au XVIIIe siècle). L'enseignant chercheur lvan Leplumey et ses étudiants importent ces images et avec la collaboration d’une quarantaine d’archives départementales et d’associations*, les annotations associées et réalisées par des annotateurs expérimentés et bénévoles.
Si l’objectif pédagogique de ce projet est de faire monter en compétences informatiques les étudiants dans le cadre d’une application réelle, tous les partenaires de ce travail bénéficient aussi des résultats dédiés.
Des milliers d’images de registres militaires et des annotations associées transformées en revues numériques évolutives
A partir des milliers d’images de registres militaires et des annotations, un travail de réimport, de vérification et de reconnaissance des données, aboutit à la création de revues numériques évolutives, au format pdf, dont le contenu est spécifiquement adapté au partenaire auquel s’adresse la revue.
A l’heure actuelle, plus de 40 revues sont déjà créées, soit un total de 11 600 pages, réparties en trois types de revues.
- Les revues à périmètre géographique, à destination d’archives et d’associations.
Ces revues contiennent les soldats de la zone géographique correspondant au partenaire cible. Ainsi par exemple, la revue pour les archives de la Dordogne recense les soldats du Périgord.
Exemples de revues : Les soldats Picards - Les soldats Picto-Charentais - Les soldats Flamands et Picards - Les revues orientées régiment, à destination de Mémoire des Hommes.
Ces revues contiennent un ou plusieurs registres annotés par un ou plusieurs annotateurs. Ainsi par exemple, la revue sur le régiment du Limousin, contient 850 pages incluant 4 registres, annotés par un seul annotateur.
Pour consulter le site mémoire des Hommes avec les revues disponibles : Site Mémoire des Hommes - Le dernier type de revue correspond à la revue annotateur : orientée régiment mais avec un seul annotateur. Il s’agit de donner une vision globale à l’annotateur de son travail et de résultats statistiques complémentaires.
Ces revues numériques sont évolutives et cliquables
L’organisation interne des revues présente une multitude d’informations dont
- une présentation par régiment et par registre dans chaque revue
- un historique plus ou moins détaillé
- une série de statistiques associées
- des paragraphes décrivant les soldats avec pour chacun son lieu de naissance, ses parents, sa profession, sa date d’engagement
- des index sur les lieux ou les patronymes (noms de famille) viennent accélérer les recherches dans ces documents.
Les revues numériques sont évolutives car à chaque nouveau registre annoté, les revues à périmètre géographique sont mises à jour. Elles sont également cliquables car pour chaque soldat, un lien renvoie directement sur l’image le concernant sur le site Mémoire des Hommes. Ce lien permet ainsi au lecteur de revenir à l’information source, l’image d’origine, pour en vérifier la véracité.
Comment les étudiants ont-ils procédé pour collecter et retranscrire toutes ces informations ?
Pour les étudiants, la première étape a d’abord été la prise de conscience de la complexité du déchiffrage des documents de l’époque. Complexité liée notamment à la difficulté d’identifier un lieu ou un patronyme en raison d’une orthographe parfois approximative ou peu lisible. Basé sur des techniques de deap learning et d’intelligence artificielle, la reconnaissance de images consiste à analyser, reconnaître et interpréter le document pour retranscrire la bonne orthographe. Pour permettre de consolider l’orthographe des patronymes, les étudiants se sont appuyés sur le site Geneanet, site partenaire de Mémoire des Hommes, qui référence 7 milliards de personnes.
Dans le cadre du projet, une dizaine de logiciels ont été écrits. Un premier crée un fichier Excel à destination des annotateurs pour leur permettre d’y entrer leurs données qu’ils saisissent au fur et à mesure de leurs lectures. Un autre va lire tous les permaliens qui amène sur les images d’un registre sur le site Mémoire des Hommes. Un troisième s’occupe de télécharger une collection d’images pour les annotateurs déconnectés. Le suivant va aider à l’identification d’une commune sur la France en indiquant au logiciel la région et une partie du nom de la commune. Un va s’occuper des calculs statistiques et un autre de la création des paragraphes soldats… Au final, la langage LaTeX va réunir tous ses résultats pour créer une revue pdf cliquable.
Et le travail continue à progresser au fur et à mesure des années, grâce au travail des étudiants de l’INSA sous l’encadrement d’Ivan Leplumey et avec la collaboration des différents partenaires.
contact : ivan [*] leplumeyirisa [*] fr
*Les partenaires associés à ce projet, soit plus de 40 partenaires :
Mémoire des Hommes portail culturel du Ministère des Armées, Geneanet, l'association Ancestramil,
les Archives d'Alsace, les Archives d'Eure-et-Loir, les Archives d'Indre, les Archives d'Indre-et-Loire, les Archives de Charente, les Archives de Dordogne, les Archives de l’Aisne, les Archives de l’Aube, les Archives de l’Eure, les Archives de l’Oise, les Archives de la Haute-Marne, les Archives de la Haute-Saône, les Archives de la Marne, les Archives de la Meuse, les Archives de la Nièvre, les Archives de la Seine-Maritime, les Archives de la Somme, les Archives de Loir-et-Cher, les Archives de Maine-et-Loire, les Archives de Meurthe-et-Moselle, les Archives de Moselle, les Archives de Paris, les Archives de Seine-et-Marne, les Archives des Ardennes, les Archives des Vosges, les Archives des Yvelines, les Archives du Calvados, les Archives du Cher, les Archives du Doubs, les Archives du Jura, les Archives du Loiret, les Archives du Nord, les Archives du Pas-de-Calais, les Archives du Puy-de-Dôme, les Archives du Rhône ,
l'Association des Chercheurs et Généalogistes des Cévennes (30, 48), le Centre Généalogique des Côtes d'Armor (22), le Cercle Généalogique de la Manche (50), le Cercle Généalogique de la Charente (16), le Cercle Généalogique en Uzège et Gard (30), le Cercle Généalogique Maine et Perche (53, 61, 72), la Société Généalogique du Lyonnais et du Beaujolais (69)