Éclairages

Une histoire computationnelle du genre dans la fiction

Par
Jean Barré (Doctorant/ ENS-PSL)
, modifié le
3 janvier 2023
Image
gender
Partager

Dans le cadre de la semaine intensive DHAI, Jean Barré a dirigé un projet sur la question du genre et plus précisément sur la représentation des personnages féminins dans la littérature française. Ont participé à ce travail Ismail El Hadrami, Ottilie Candau, Marc Noujaim, Milica Prugic et Pedro Cabrera Ramirez. 

Précisons d'abord l'approche de notre travail, qui s'inscrit dans le champ des études littéraires computationnelles. Ce dernier repose sur l'utilisation de méthodes du traitement automatique des langues pour la fouille de texte ainsi que des méthodes d'apprentissage machine pour modéliser des concepts dans de grands corpus de textes littéraires. Un des concepts clés du champ est la lecture distante, théorisé par Franco Moretti au début des années 2000. Le but est d'explorer le passé littéraire avec des méthodes informatiques sur des corpus massifs. 
L'idée est d'inclure et de prendre en considération les milliers de textes qui sont aujourd'hui les oubliés des histoires littéraires.
Ce travail s'est articulé autour d'une question de recherche générale sur la notion de genre. L'objectif était d'évaluer à quel point les écrivains utilisent des stéréotypes de genre pour décrire des personnages fictionnels. Ce travail s'appuie sur une étude réalisé en 2018 aux États-Unis par Ted Underwood, David Bamman et Sabrina Lee[1] 

Image
gender

Tâche Principale : Prédire le genre des personnages

La problématique globale sur la représentation du genre des personnages induit nécessairement de pouvoir repérer le personnage, récupérer ses occurrences d'apparition avec si possible leur contexte textuel pour enfin assigner un genre au personnage. Différents outils du Traitement Automatique des Langues existent pour repérer des personnages, et nous utiliserons la version française d'un algorithme spécifiquement développé pour des textes littéraires.

Méthode

La tâche principale de notre travail a été de prédire le genre des personnages avec les mots qui les caractérisent. Pour réaliser cela, nous sommes passés par les différentes étapes des études littéraires computationnelles, de la constitution de corpus, à la récupération de méta-données, en passant par l'annotation de données, l'extraction 
d'information puis la modélisation statistique de concepts spécifiques jusqu'à l'analyse des résultats. Les contraintes temporelles de la semaine nous ont fait sauter quelques étapes et ce travail est fondé sur différents projets pré-existants.

Nous utilisons notamment un corpus de 3000 romans du 19ème et 20ème siècle, le corpus Chapitres. Pour repérer les personnages, nous avons implémenté l'algorithme Fr-BookNLP, développé au Lattice. Ce dernier détecte des entités nommées et résout la co-référence en agrégeant différentes mentions d'une entité sous une même étiquette.

Annotation

Nous avons entrepris l'annotation du genre de nos personnages repérés par BookNLP. À partir d'un échantillon de 83 romans, nous avons annoté le genre des personnages pour les dix personnages principaux de chaque roman. Pour récupérer l'information de caractérisation des personnages, nous avons récupéré les dix mots environnants de chacune des mentions de nos personnages. Ces chiffres sont arbitraires et répondent aux contraintes de temps de la semaine intensive. Nous disposions de trois étiquettes, Homme, Femme, et Autre. Nous assignions une des trois 
étiquettes lorsque nous remarquions des signes genrés dans les mentions des personnages, ou dans le contenu textuel environnant.

Image
gender 2

Données textuelles sélectionnées

À partir de l'information présente dans l'entourage textuel de chaque mention des personnages, nous avons entrepris trois différentes manières d'extraire de l'information :

  • Sac de mots : Utilisation des mots les plus courants et de leur fréquence d'apparition pour chaque personnage
  • TF-IDF : Mesure de l’originalité d’un mot en comparant le nombre de fois qu’un mot apparaît dans un document avec le nombre de documents dans lesquels il apparaît.
  • Doc2Vec : outil TAL permettant de vectoriser du texte

Modèle Prédictif

Nous utilisons une machine à vecteur de support pour prédire de manière supervisée le genre de nos personnages. Précisons que cette étude, par souci de simplicité, se fonde sur une conception binaire du genre. Cela nous permet une approche computationnelle plus simple ainsi qu'une phase d'annotation moins longue dans le cadre de cette semaine de travail en temps limité.

Nous implémentons les bases de l'apprentissage machine, en séparant les données sur lesquelles le modèle va s'entraîner et celles sur lesquelles nous l'évaluons. Nous mesurons ainsi la capacité du modèle à généraliser 
sur des données qu'il n'a jamais vu à partir des phénomènes appris durant l'entraînement.

Résultats

Les résultats de la prédiction sont les suivants : avec les données sous forme de sac de mots ou des vecteur TF-IDF, le modèle n'est pas performant. Cependant, avec la vectorisation de Doc2Vec, notre modèle performe à hauteur de 85% d'efficacité, c'est-à-dire qu'il reconnaît le genre des personnages dans près de 9 cas sur 10. Ces résultats nous semblaient assez solides pour poursuivre notre étude et analyser des phénomènes sur l'ensemble du corpus. Nous avons donc entrepris de prédire le genre des personnages pour l'ensemble de notre corpus.

Les résultats de cette projection sont les suivants : sur les 27 528 personnages du corpus, 17 604 (64%) sont des hommes et 9 924 (36%) sont des femmes. Les hommes fictionnels sont donc près de deux fois plus nombreux que les femmes fictionnelles. Ce résultat est déjà important et significatif sur la sur-représentation des hommes dans la fiction. 

Les facteurs qui pourraient expliquer cela sont nombreux et difficiles à cerner complètement. Ces chiffres sont les témoins d'une invisibilisation des femmes dans la société jusque dans la fiction, d'un marché du livre construit par et pour les hommes dans une société patriarcale.

Pour enrichir notre raisonnement, nous avons posé une hypothèse simple qui admet le genre des écrivains et des écrivaines de notre corpus comme un facteur qui pourrait expliquer ces différences. Le corpus chapitre dispose en effet de 417 auteurs, avec 22% d'autrices et de 78% d'auteurs. Est-ce que le fait d'avoir plus d'écrivains masculins entraîne nécessairement une sur-représentation des personnages masculins ?


Visualisations

Image
gender fig. 1
Figure 1

En figure 1, nous montrons la proportion de la caractérisation des personnages par des auteurs et des autrices. Pour les autrices, on trouve 57% de personnages féminins et 43% de personnages masculins, tandis que pour les auteurs, 30% des personnages sont des femmes et 70% sont des hommes. Le genre des auteurs et des autrices est clairement un facteur discriminant. Tandis que les femmes ont une représentation de la réalité plutôt équilibrée, les auteurs ont plus tendance à écrire des histoires comportant des personnages du même genre qu'eux.

Image
gender fig. 2
Figure 2

Lorsque l'on projette ces résultats sur deux cents ans de littérature, la différence de traitement est d'autant plus criante. En figure 2, l'écart entre les auteurs et les autrices est énorme et d'une grande stabilité au cours du temps. On ne constate pas ici des effets de modes à court terme, mais bien des lignes structurantes de l'histoire littéraire et sociale dans le contexte francophone.

Quelques mots genrés dans la fiction

Pour finir, nous avons voulu tracer des mots précis pour évaluer leur utilisation dans les descriptions des personnages. Nous avons calculé l'ensemble des occurrences de certains mots, s'ils occurrent autour d'une mention relative à un personnage féminin, on ajoute un à la valeur finale, sinon on soustrait un à cette valeur. De cette manière nous récupérons la connotation genrée d'un mot donné. La figure 3 est un exemple assez simple, avec le mot "monsieur" connoté masculin, le mot "madame" connoté féminin et le mot "personne" dans un espace plutôt neutre.

Image
gender fig 3
Figure 3

L'exemple suivant (fig. 4) est plus intéressant, avec les mots "bureau", "maison", "pièce", qui son respectivement masculins, féminins et neutres. Les stéréotype de genre sont visibles ici, avec un traitement de l'espace du personnage différent pour les hommes, plus amenés à travailler dans un bureau et les femmes de rester à la maison.

Image
gender fig 4
Figure 4


Voici un dernier exemple, avec les mots "dieu", "diable", "ange", qui sont respectivement masculins, féminins et neutres.

Image
gender fig 5
Figure 5

L'analyse rigoureuse de ces exemples et de leur significativité pour l'histoire littéraire sera l'objet de futurs travaux.

Conclusion

Pour conclure, nous avons pu, grâce à des méthodes informatiques, obtenir une image plus large de la représentation du genre dans l'histoire littéraire. Ce que nous avons découvert, c'est que la proportion de caractérisation des personnages féminins dépend fortement du genre de l'auteur. Les auteurs masculins écrivent deux fois moins sur 
les personnages féminins que les auteurs féminins.

Nous avons également essayé d'évaluer dans quelle mesure la caractérisation littéraire est liée aux stéréotypes de genre. Bien que nous n'ayons pas eu assez de temps pour obtenir des résultats probants, nous avons montré qu'il existe des contenus lexicaux étroitement liés au rôle de genre, et en fin de compte, aux stéréotypes de genre.

[1] Ted Underwood, David Bamman, and Sabrina Lee, “The Transformation of Gender in English-Language Fiction”, Journal of Cultural Analytics, 3–2 (Feb. 13, 2018), doi: 10.22148/16.019.

Commentaires