Paris Time Machine, visualiser les adresses d’annuaires parisiens

Par
Carmen BRANDO (Recherche/ EHESS)
Frederique MELANIE (Recherche/ CNRS)
, modifié le
17 juillet 2021
Image
Plan de Truschet et Hoyau, vers 1552
Partager

Le consortium Paris Time Machine, soutenu par Huma-Num,  travaille à la constitution de référentiels géo-historiques. Il est constitué de plusieurs groupes de travail dont celui des adresses et annuaires qui a pour objectif de récolter, recenser, exploiter et visualiser les adresses d’annuaires parisiens. 

Le groupe de travail adresses et annuaires de Paris Time Machine s’intéresse particulièrement à l’Annuaire des propriétaires et des propriétés de Paris et du département de la Seine, une publication annuelle active entre 1894 et 1937 recensant les adresses parisiennes et leurs propriétaires (voir la fig. 1). La collection de la Bibliothèque nationale en possède trente-huit unités. Il en existe aucune numérisation disponible.

Il s’agit en particulier de rassembler, numériser, transcrire, structurer, publier, spatialiser, et analyser cette source portant une dimension spatio-temporelle importante, pour mieux représenter un moment précis de la géographie de la ville de Paris. Pour ce faire, il est nécessaire de mettre en oeuvre une chaîne de traitement permettant d’obtenir, à partir d’un document numérisé, un document en format exploitable par la machine plus apte au traitement quantitatif. 

Image
Plan de Truschet et Hoyau, vers 1552
Image
fig1
Fig. 1. Page de l’Annuaire des propriétaires et des propriétés et listes alphabétiques de l’année 1898 (crédits BNF)

A l’aide de la plateforme Transkribus, il a été possible de produire automatiquement les transcriptions de quatre volumes des annuaires (1898, 1903, 1913, 1923) grâce à deux modèles de réseaux neuronaux (Handwritten text recognition, HTR+) permettant la reconnaissance de caractères : le premier pour traiter les trois première éditions, le second pour traiter le dernier volume dont la police est très différente par rapport aux premiers volumes. Les performances des modèles en termes de Character Error Rate (CER) sont prometteuses, en dessous de 1%. 

De plus, un test de géocodage a été fait à partir d’environ 12k adresses, de propriétés et de domiciles parisiens,  répertoriées dans un échantillons de 149 pages (édition 1898) à l’aide du géocodeur historique de l’équipe GeohistoricalData de l’EHESS et du système national de la Base Adresse Nationale (BAN), tous les deux accessibles via un API REST.  Nous avons constaté l’importance de la formulation des noms des rues. Par exemple, dans le cas de GeohistoricalData, les adresses des propriétés qui récupèrent les noms des rues officiels, sont dans le 92.96% des cas géocodées (localisations dont l’exactitude reste à vérifier). Ce chiffre se réduit au 78.94% dans le cas des domiciles parisiens : ces adresses sont souvent écrites de manière abrégée par les éditeurs de l’annuaire ce qui rend difficile l’identification par le géocodeur. Le 13.91% restant n’a pas pu être géocodé. En fig 2., il est possible d’observer la couverture spatiale d’après le filaire de voies d'aujourd'hui, les localisations restent donc approximatives.

Image
fig2
Fig. 2. Couverture spatiale (par rapport au filaire d'aujourd'hui). 149 pages de l’annuaire 1898, localisation d’après la BAN

Les traitements de ce type de sources historiques sont d'importance pour les historiens modernistes spécialistes de l’histoire sociale et histoire économique des villes et notamment de Paris. Plusieurs traitements seront mis en place afin de diffuser ouvertement ces données en plusieurs formats (tableurs, SIG, ALTO) afin de permettre davantage des analyses.

Plusieurs pistes d’amélioration restent à explorer notamment sur la segmentation automatique des images, la reconnaissance automatique des adresses et de noms de personnes, et encore sur le géocodage automatique des adresses à partir d’un référentiel géo-historique de voies parisiennes sur la période concernée par les quatre volumes. De manière générale, la question de l’automatisation et l'enchaînement des traitements ont forcément des impacts sur les résultats obtenus et donc sur les analyses, pour cela, il est nécessaire de communiquer efficacement sur les erreurs dans les données issues de ces traitements. 

Membres du groupe Adresses et annuaires

  • Frédérique Mélanie-Becquet (LATTICE)
  • Gabriela Elgarrista (Plateforme Géomatique EHESS)
  • Carmen Brando (CRH UMR 8558/ Plateforme Géomatique EHESS)
  • Eric Mermet (CNRS/Plateforme Géomatique EHESS)
  • Alix Chagué (Inria-ALMAnaCH)
  • Mohamed Khemakhem (Inria-ALMAnaCH)
  • Laurent Romary (Inria-ALMAnaCH)
  • Jean-Luc Pinol (ENS Lyon)

Institutions de rattachement

  • Lattice (UMR8094, CNRS & ENS/PSL & Université Sorbonne nouvelle)
  • EHESS CRH UMR 8558 / Plateforme Géomatique EHESS
  • INRIA - Equipe ALMAnaCH
  • TGIR Huma-num CNRS

Publications

  • Gabriela Elgarrista, Frédérique Mélanie-Becquet, Carmen Brando. Annuaires de propriétaires de Paris : Vers une analyse socio-économique et spatiale de la population parisienne en 1898. Assises de l’AP en Humanités numériques spatialisées du GDR MAGIS, le 23 juin 2020. 
  • Gabriela Elgarrista, Frédérique Mélanie-Becquet, Carmen Brando, Mohamed Khemakhem, Laurent Romary, Jean-Luc Pinol, Pipeline to process and analyze Paris’s old property address directories (XIXe - XXe), Poster CLARIN Bazaar, CLARIN Conference 2020, le 7 octobre 2020.
  • Mohamed Khemakhem, Carmen Brando, Laurent Romary, Frédérique Mélanie-Becquet, Jean-Luc Pinol. Fueling Time Machine: Information Extraction from Retro-Digitised Address Directories. JADH2018 "Leveraging Open Data", Sep 2018, Tokyo, Japan. Hal-01814189