Fil d'Ariane
- Accueil /
- Recherche /
- Projets de recherche /
- Paris Time Machine, visualiser les adresses d’annuaires parisiens
Le consortium Paris Time Machine, soutenu par Huma-Num, travaille à la constitution de référentiels géo-historiques. Il est constitué de plusieurs groupes de travail dont celui des adresses et annuaires qui a pour objectif de récolter, recenser, exploiter et visualiser les adresses d’annuaires parisiens.
Le groupe de travail adresses et annuaires de Paris Time Machine s’intéresse particulièrement à l’Annuaire des propriétaires et des propriétés de Paris et du département de la Seine, une publication annuelle active entre 1894 et 1937 recensant les adresses parisiennes et leurs propriétaires (voir la fig. 1). La collection de la Bibliothèque nationale en possède trente-huit unités. Il en existe aucune numérisation disponible.
Il s’agit en particulier de rassembler, numériser, transcrire, structurer, publier, spatialiser, et analyser cette source portant une dimension spatio-temporelle importante, pour mieux représenter un moment précis de la géographie de la ville de Paris. Pour ce faire, il est nécessaire de mettre en oeuvre une chaîne de traitement permettant d’obtenir, à partir d’un document numérisé, un document en format exploitable par la machine plus apte au traitement quantitatif.
A l’aide de la plateforme Transkribus, il a été possible de produire automatiquement les transcriptions de quatre volumes des annuaires (1898, 1903, 1913, 1923) grâce à deux modèles de réseaux neuronaux (Handwritten text recognition, HTR+) permettant la reconnaissance de caractères : le premier pour traiter les trois première éditions, le second pour traiter le dernier volume dont la police est très différente par rapport aux premiers volumes. Les performances des modèles en termes de Character Error Rate (CER) sont prometteuses, en dessous de 1%.
De plus, un test de géocodage a été fait à partir d’environ 12k adresses, de propriétés et de domiciles parisiens, répertoriées dans un échantillons de 149 pages (édition 1898) à l’aide du géocodeur historique de l’équipe GeohistoricalData de l’EHESS et du système national de la Base Adresse Nationale (BAN), tous les deux accessibles via un API REST. Nous avons constaté l’importance de la formulation des noms des rues. Par exemple, dans le cas de GeohistoricalData, les adresses des propriétés qui récupèrent les noms des rues officiels, sont dans le 92.96% des cas géocodées (localisations dont l’exactitude reste à vérifier). Ce chiffre se réduit au 78.94% dans le cas des domiciles parisiens : ces adresses sont souvent écrites de manière abrégée par les éditeurs de l’annuaire ce qui rend difficile l’identification par le géocodeur. Le 13.91% restant n’a pas pu être géocodé. En fig 2., il est possible d’observer la couverture spatiale d’après le filaire de voies d'aujourd'hui, les localisations restent donc approximatives.
Les traitements de ce type de sources historiques sont d'importance pour les historiens modernistes spécialistes de l’histoire sociale et histoire économique des villes et notamment de Paris. Plusieurs traitements seront mis en place afin de diffuser ouvertement ces données en plusieurs formats (tableurs, SIG, ALTO) afin de permettre davantage des analyses.
Plusieurs pistes d’amélioration restent à explorer notamment sur la segmentation automatique des images, la reconnaissance automatique des adresses et de noms de personnes, et encore sur le géocodage automatique des adresses à partir d’un référentiel géo-historique de voies parisiennes sur la période concernée par les quatre volumes. De manière générale, la question de l’automatisation et l'enchaînement des traitements ont forcément des impacts sur les résultats obtenus et donc sur les analyses, pour cela, il est nécessaire de communiquer efficacement sur les erreurs dans les données issues de ces traitements.
Membres du groupe Adresses et annuaires
- Frédérique Mélanie-Becquet (LATTICE)
- Gabriela Elgarrista (Plateforme Géomatique EHESS)
- Carmen Brando (CRH UMR 8558/ Plateforme Géomatique EHESS)
- Eric Mermet (CNRS/Plateforme Géomatique EHESS)
- Alix Chagué (Inria-ALMAnaCH)
- Mohamed Khemakhem (Inria-ALMAnaCH)
- Laurent Romary (Inria-ALMAnaCH)
- Jean-Luc Pinol (ENS Lyon)