Fil d'Ariane
- Accueil /
- Recherche /
- Projets de recherche /
- Idiolecte, modéliser l’évolution du style personnel d’un auteur
Le projet Idiolecte vise à modéliser l’évolution du style personnel d’un auteur.
La façon dont les individus s'expriment est unique mais change au cours de leur vie. Cependant, les études quantitatives de l'évolution idiolectale sont rares, principalement en raison du manque de grands corpus. Dans ce projet, nous voulons aborder ce problème.
Nous avons d'abord collecté un corpus : The Corpus for Idiolectal Research (CIDRE). Il contient des romans datés de onze écrivains français prolifiques du XIXe siècle (37 millions de mots au total).
Dans un deuxième temps, nous analysons quantitativement les données pour répondre à la question suivante : Comment caractériser l'évolution diachronique de l'idiolecte ? A l'aide de techniques de clustering hiérarchique et de régression linéaire simple, nous montrons que l'évolution de l'idiolecte est au sens mathématique monotone.
Cette propriété nous permet ensuite de proposer une tâche d'apprentissage automatique : prédire l'année d'écriture d'une œuvre. Pour la majorité des auteurs de notre corpus, la précision est très élevée. Après avoir appliqué un algorithme de sélection de traits de classification, nous pouvons examiner les structures linguistiques qui ont la plus grande influence dans l'évolution diachronique idiolectale. Nous constatons que certaines de ces caractéristiques sont stylistiques et ont déjà été remarquées dans des études de littérature qualitative. Dans une future série d'expériences, nous aimerions aborder la question de savoir dans quelle mesure le changement de langage personnel est affecté par le changement de langage collectif.
L'équipe
- Thierry Poibeau : Lattice, CNRS (direction)
- Dominique Legallois : Lattice, Université Sorbonne nouvelle (direction)
- Olga Seminck : Lattice, CNRS
- Philippe Gambette : Université Gustave Eiffel
L’ évolution de l’idiolecte, Lattice Groupe de lecture Humanités Numériques, 2021