Cet exposé propose plusieurs approches algorithmiques basées sur des algorithmes d'alignement ou de comparaison de texte, à différentes échelles, avec des applications en sciences humaines numériques. Une approche basée sur l'alignement pour la modernisation du texte français des XVIe et XVIIe siècles et l'impact de ce processus de normalisation sur la reconnaissance automatique des entités géographiques nommées.
Nous montrons ici plusieurs techniques de visualisation utiles pour explorer les corpus de textes en mettant en évidence les similitudes et les différences entre ces textes à différents niveaux. En particulier, nous illustrons l'utilisation des diagrammes de Sankey à différents niveaux pour aligner différentes éditions d'un même texte, comme les livres de poésie de Marceline Desbordes-Valmore publiés de 1819 à 1830 ou Heptameron de Marguerite de Navarre.
Cet outil de visualisation peut également être utilisé pour comparer les mots les plus fréquents de deux corpus comparables afin de mettre en évidence leurs différences. Nous illustrons également comment l'utilisation d'arbres de mots, construits avec le logiciel TreeCloud, permet d'identifier les tendances dans un corpus, en comparant les arbres construits pour des sous-ensembles du corpus.
Nous nous concentrons enfin sur la stemmatologie, où les textes analysés sont supposés être issus d'un manuscrit initial unique. Nous décrivons un algorithme de reconstruction d'arbre conçu pour prendre en compte les apports linguistiques lors de la construction d'un arbre décrivant l'histoire des manuscrits, ainsi qu'une liste de variantes observées soutenant ses arêtes.
Les contributeurs de ces travaux incluent Delphine Amstutz, Jean-Charles Bontemps, Aleksandra Chaschina, Hilde Eggermont, Raphaël Gaudy, Eleni Kogkitsidou, Gregory Kucherov, Tita Kyriacopoulou, Nadège Lechevrel, Xavier Le Roux, Claude Martineau, William Martinez, Anna-Livia Morand, Jonathan Poinhos, Caroline Trotot et Jean Véronis
Be the first to review this item, please login or register.
Sign-in Register