French BookNLP, le versant français du projet Multilingual BookNLP

Par
Thierry POIBEAU (Chercheur/ CNRS)
, modifié le
17 juillet 2021
Image
imprimerie
Partager

Multilingual BookNLP est un projet de l’Université de Berkeley visant à produire des chaînes de traitement linguistique adaptées aux textes littéraires (en particulier les romans : analyse des personnages, des lieux, etc.). Le LATTICE s’est associé avec Berkeley et produit la chaîne de traitement pour le français.

Le projet BookNLP vise à développer une chaîne logicielle pour l’analyse de grands corpus littéraires, en lien avec le projet Multilingual Book NLP de David Bamman. Multilingual Book NLP vise à développer des chaînes de traitement pour plusieurs langues, mais le français n’est pas inclus. C’est ce manque que ce projet vise à combler.

Une équipe de chercheurs autour de David Bamman a développé la suite BookNLP, permettant l'annotation massive de romans, pour mener des études qualitatives et quantitatives sur ce type de corpus (structure des romans, réseaux de personnages, etc.). L'annotation concerne essentiellement la référence aux personnages et à certaines autres entités (lieux, certains artefacts), ainsi que les chaînes de coréférence liées.

MultiLingual BookNLP est un projet en cours à Berkeley visant à redévelopper la chaîne initiale et à l'étendre à cinq autres langues. Le français n'est pas compris dans le projet de Berkeley, aussi a-t-on entrepris de développer les ressources nécessaires, en coordination avec le projet de Berkeley.

L'idée est d'éviter autant que possible de concevoir des traitements spécifiques (sans se l'interdire non plus, si nécessaire), mais de réutiliser au maximum des outils existants. Les outils de traitement automatique des langues fonctionnant généralement par apprentissage, une grosse partie du travail consiste à développer les corpus nécessaires à l'entraînement (c’est-à-dire à la mise au point) des systèmes d'annotation visés. Pour le français, on compte repartir du corpus Democrat, développé dans le cadre du projet ANR du même nom (voir ici et ici pour les ressources).

 

Image
nlp

Pour appréhender les expressions référentielles et les chaînes de référence, la démarche suivie dans le cadre de Democrat a été une combinaison des méthodes issues de la linguistique, du traitement automatique des langues et de l'analyse statistique de données textuelles. Une fois les phénomènes définis sous la forme de choix de « marquables » (éléments de base devant être annotés) et d'un schéma d'annotation défini en fonction de celui de Berkeley, il s'agira d'annoter manuellement un ensemble de textes répartis selon les périodes et les genres retenus. Les annotations du projet Democrat seront « recyclées » pour correspondre au schéma Multilingual BookNLP. Les premières expérimentations ont montré que les deux schémas (Democrat et BookNLP) étaient largement compatibles, même si l’annotation Democrat devra être complétée. Les marquables devront en particulier être « typés » et d’autres ajouts spécifiques sont aussi à prévoir (comme l’annotation des séquences de dialogue, tâche qui pourra probablement être automatisée en partie).

Le corpus Democrat est disponible librement, avec une licence Creative Commons. Le corpus français BookNLP et les outils liés seront aussi mis à disposition et réutilisables librement.

L'équipe

  • Thierry Poibeau, Lattice (CNRS & ENS/PSL & Université Sorbonne nouvelle) : direction
  • Frédérique Mélanie-Becquet (ingénieure d’étude, Lattice) : coordination
  • Claude Grunspan (stagiaire 2021) : annotation
  • Jean Barré (stagiaire 2021) : annotation
  • Olga Seminck (post-doctorante, laboratoire LATTICE => fiche) : annotation
  • Clément Plancq (ingénieur d’étude, Lattice) : annotation, développements informatiques
  • Laurette Chardon (ingénieure de recherche, Crisco, Univ. de Caen) : annotation, développements informatiques
  • Ioana Galleron (professeure, Lattice, Université Sorbonne nouvelle): annotation
  • Frédéric Landragin : conseiller spécial

Voir aussi