Idiolecte, modéliser l’évolution du style personnel d’un auteur

Par
Thierry POIBEAU (Chercheur/ CNRS)
Olga Seminck (Post Doctorante/ CNRS)
, modifié le
17 juillet 2021
Image
© Florian Klauer - Unsplash
Partager

Le projet Idiolecte vise à modéliser l’évolution du style personnel d’un auteur.

La façon dont les individus s'expriment est unique mais change au cours de leur vie. Cependant, les études quantitatives de l'évolution idiolectale sont rares, principalement en raison du manque de grands corpus. Dans ce projet, nous voulons aborder ce problème.

Nous avons d'abord collecté un corpus : The Corpus for Idiolectal Research (CIDRE). Il contient des romans datés de onze écrivains français prolifiques du XIXe siècle (37 millions de mots au total).

Image
logo

Dans un deuxième temps, nous analysons quantitativement les données pour répondre à la question suivante : Comment caractériser l'évolution diachronique de l'idiolecte ? A l'aide de techniques de clustering hiérarchique et de régression linéaire simple, nous montrons que l'évolution de l'idiolecte est au sens mathématique monotone.

Cette propriété nous permet ensuite de proposer une tâche d'apprentissage automatique : prédire l'année d'écriture d'une œuvre. Pour la majorité des auteurs de notre corpus, la précision est très élevée. Après avoir appliqué un algorithme de sélection de traits de classification, nous pouvons examiner les structures linguistiques qui ont la plus grande influence dans l'évolution diachronique idiolectale. Nous constatons que certaines de ces caractéristiques sont stylistiques et ont déjà été remarquées dans des études de littérature qualitative. Dans une future série d'expériences, nous aimerions aborder la question de savoir dans quelle mesure le changement de langage personnel est affecté par le changement de langage collectif.

Image
Kelly Sikkema - Unsplash

L'équipe

  • Thierry Poibeau : Lattice, CNRS (direction)
  • Dominique Legallois : Lattice, Université Sorbonne nouvelle (direction)
  • Olga Seminck : Lattice, CNRS
  • Philippe Gambette : Université Gustave Eiffel

Publications

  • Corpus Cidre : Github et Zenodo
  • Seminck, Olga, Philippe Gambette, Dominique Legallois, Thierry Poibeau. Accepté au Journal of Open Humanities Data. The Corpus for Idiolectal Research (CIDRE)
  • Seminck, Olga, Philippe Gambette, Dominique Legallois, Thierry Poibeau. Accepté à The 2021 Conference of the European Association for Digital Humanities (EADH). The Corpus for Idiolectal Research (CIDRE)
  • Gambette, Philippe, Olga Seminck, Dominique Legallois, Thierry Poibeau. Accepté à The 2021 Conference of the European Association for Digital Humanities (EADH). Using and Evaluating Hierarchical Clustering Methods for Corpora with Chronological Order

Séminaire

L’ évolution de l’idiolecte, Lattice Groupe de lecture Humanités Numériques, 2021