Benjamin Azoulay (ENS Paris-Saclay) et Benoît de Courson (Max Planck Institute – CSL) ont réalisé et mis à jour un outil performant de lexicométrie, Gallicagram.
En 2011, Google proclamait le début d’une nouvelle ère en sciences sociales. Son logiciel « révolutionnaire », Ngram Viewer, permettait désormais de tracer en un instant la courbe de l’emploi d’un mot à travers le temps. Du Big Data devait jaillir spontanément la connaissance. Dix ans plus tard, force est de constater que le logiciel n’a pas convaincu les chercheurs, et a fortiori les chercheurs en sciences humaines et sociales français.
L’inaccessibilité des documents exploités a rebuté les uns, l’absence d’informations sur la structure des corpus traités a détourné les autres. Tant et si bien que la lexicométrie a aujourd’hui mauvaise presse, vue comme une approche grossière, à défaut d’un corpus « maîtrisé », c’est-à-dire strictement délimité, finement décrit et entièrement disponible. Gallicagram propose de mettre à profit la masse de textes numérisés par la BnF en garantissant la maîtrise et la transparence du corpus, de sorte que le chercheur puisse tester ses hypothèses avec rigueur, ou en faire émerger de nouvelles.
Concrètement, Gallicagram permet de visualiser l’évolution de l’usage des mots au cours du temps en fouillant les corpus de presse et de livres numérisés par la BnF (Gallica) et par bien d’autres bibliothèques nationales et locales, en cinq langues. Le logiciel permet d’observer non seulement les tendances séculaires et les évolutions de moyen terme, mais surtout – et c’est une nouveauté – de s’approcher au plus près des événements. Pour cela, nous avons particulièrement travaillé sur les corpus de presse, par nature sensibles aux soubresauts de l’actualité. Dans le cas de Gallica, nous avons « moissonné » trois millions de numéros de presse, numérisés et océrisés par les bibliothécaires, pour en extraire la fréquence d’emploi des mots à l’échelle mensuelle, là où Ngram Viewer a fait le choix d’exclure les journaux de son corpus, et n’est précis qu’à l’année près. Notre outil permet, par exemple, de voir le choléra déferler sur la France en avril 1832. Une recherche dans le corpus de la British Library suggère que le choléra arrive dès novembre 1831 en Angleterre – événement qui semble d’ailleurs trouver un écho relatif dans la presse française, où la courbe frémit également ce mois-là.
Par ailleurs, le parti pris de l’open data fait par Gallica permet de vérifier la pertinence des textes sous-jacents au graphique : il suffit à l’utilisateur de cliquer sur un point du graphique pour lire les articles correspondants dans Gallica. À l’inverse, le corpus sous-jacent de Ngram Viewer n’est pas accessible, ce qui empêche de vérifier la réalité des occurrences dénombrées – toujours susceptibles d’erreurs de datation ou d’océrisation. Cette fonctionnalité est un garde-fou contre un écueil majeur de la lexicométrie : la polysémie. Une acception du mot ignorée par le chercheur apparaît rapidement en parcourant les documents, évitant ainsi une interprétation fallacieuse.
Simple d’utilisation, Gallicagram est accessible à tous les chercheurs, quelle que soit leur familiarité avec l’informatique. Il est accompagné d’outils plus fins, pour calculer la corrélation entre les courbes, décrire leur structure ou visualiser leur répartition géographique. Ces options permettent aux chercheurs de dépasser la seule fouille des données pour quantifier leurs hypothèses.
Pour laisser un avis sur ce contenu, connectez-vous ou rejoignez-nous.
Se connecter S'inscrire