Gallicagram. Plus de finesse dans le big data

Par
Benjamin Azoulay (Étudiant/ Université Paris-Saclay)
Benoît de Courson (Doctorant/ ENS-PSL)
, modifié le
17 juillet 2021
Image
Fractal - Pixabay
Partager

Gallicagram est une application développée par Benjamin Azoulay et Benoît de Courson, permettant de visualiser l’évolution de l’emploi d’un syntagme dans le temps à partir des corpus numérisés de la BNF, Gallica.

Le type de visualisation proposé par Google Ngram Viewer depuis une décennie, n’a manifestement pas été adopté par les chercheurs en sciences sociales. De fait, Ngram Viewer souffre de nombreuses limites : son corpus sous-jacent (Google Books) est certes colossal, mais à la fois opaque et impossible à contrôler. A l’inverse, Gallicagram donne accès à toutes les occurrences représentées sur le graphique. Le corpus, libre de droit, peut de plus être contrôlé et restreint à l’envi. L’utilisateur peut ainsi représenter les occurrences puisées dans la seule presse locale de l’Ain, dans la presse résistante ou encore dans les archives de L’Humanité. Enfin, bien que l’outil ait été initialement conçu pour Gallica, il permet désormais d’explorer bien d’autres bibliothèques nationales en langues anglaise, allemande, espagnole et néerlandaise. 

Image
gallicagram

Gallicagram permet ainsi aux linguistes et aux historiens d’étudier des tendances aussi bien que des évènements, de déceler des ruptures ou de lentes évolutions à partir de corpus qu’une vie entière ne suffirait pas à étudier, mais que la machine peut aisément analyser. Avec Gallicagram, le chercheur peut mettre ses hypothèses à l’épreuve du big data, en faire émerger de nouvelles de la profusion des données ou encore arbitrer entre plusieurs interprétations concurrentes.

Image
gallicagram

L'équipe

Séminaire

Séminaire DHAI, 11 mai 2021