Insights

Can fake news be detected automatically?

Published on

15 July 2021

, updated on

16 July 2021

We are more and more exposed to fake news. How can we detect them?

Fake news : ce terme un peu fourre-tout recouvre en fait une large gamme de textes dont le point commun est d’inclure des informations fausses, destinées à tromper le lecteur.

On le voit à propos du Covid. Les vaccins par exemple font l’objet d’une guerre de l’information féroce : certains pays cherchent à semer le doute sur les vaccins actuellement sur le marché, pour promouvoir dans le même temps leurs propres solutions vaccinales.

Les fake news peuvent aussi être utilisées de manière plus systématique pour promouvoir un point de vue minoritaire particulier. Cette technique est parfois qualifiée, de façon trompeuse, de « réinformation ». Or, il ne s’agit en rien de « réinformer » le lecteur, mais plutôt de le noyer avec des informations fausses ou partielles, pour essayer de mettre en avant une vision du monde particulière (généralement d’extrême droite et/ou conspirationniste).

Plus généralement, entretenir la confusion peut aussi être une façon de supprimer le débat, comme l’a bien analysé mon collègue Mathias Girel. Il serait donc utile de disposer d’outils capables de repérer ces fake news pour les afficher comme telles.

Les technologies informatiques permettent-elles de détecter automatiquement les fake news ?

Dans un tel contexte, la question se pose : peut-on détecter des fake news automatiquement ? Il est évident qu’une course de fond s’est enclenchée pour essayer de détecter ce type de texte sur Internet, sur les réseaux sociaux en particulier.

Différents cas de figure sont possibles : si une fake news est signalée par un utilisateur sur Facebook, le contenu litigieux va être inspecté en interne (par les équipes de modérateurs de Facebook) et si le texte est effectivement jugé contraire aux règles de la plate-forme, ou contraire à la loi, il sera retiré.

Par la suite, des techniques d’intelligence artificielle peuvent aider à repérer les textes similaires, en tenant compte du contenu, mais aussi du canal de diffusion, de la personne qui relaie le message, et d’autres éléments contextuels, par exemple les images et illustrations. On est alors proche du mode de fonctionnement des moteurs de recherche : les modèles de recherche d’information actuels sont plutôt efficaces pour retrouver des textes similaires, même s’ils n’emploient pas exactement les mêmes mots ou les mêmes tournures.

Mais le but ultime serait évidemment de repérer directement les fake news par des moyens automatiques. Ceci semble en fait extrêmement difficile en l’état des choses et, si on écarte les faux grossiers, même un humain aura du mal à caractériser certains textes. Plusieurs techniques sont explorées en intelligence artificielle.

La première technique consiste à repérer des informations factuellement fausses en comparant un texte donné avec les informations contenues dans une base de données. Ceci peut fonctionner en théorie (un jeu de donné appelé FEVER, pour fact extraction and verification, a même été développé pour cela), mais on dispose rarement de bases de connaissances adaptées au problème. En gros, l’actualité ne se réduit pas à une base de données et les fake news ne portent pas tellement sur des informations factuelles isolées.

Une seconde technique est de repérer des documents types, grâce à leur titre, leur mise en page, les illustrations qui les accompagnent, entre autres. Ceci peut aussi fonctionner jusqu’à un certain point, mais ce n’est pas très précis. Par exemple, de nombreux titres racoleurs utilisent une mise en page tape-à-l’œil sans pour autant être des fake news.

Indispensable oeil humain

Les types des fake news se renouvellent sans cesse, ce qui entraîne une course de vitesse entre les « producteurs de fake news », et ceux qui essaient de les traquer. En pratique, le seul modèle qui fonctionne à peu près est celui où l’humain reste au cœur du processus.

D’abord, quand un utilisateur signale un texte problématique à une plate-forme par exemple. Comme on l’a vu, l’IA peut ensuite prendre le relais pour signaler des contenus similaires.

On peut aussi définir, a priori, des listes de sites fiables et non fiables, ce qui permet d’emblée une caractérisation des contenus – c’est ainsi que fonctionne le site Decodex du journal « Le Monde ». Évidemment, cette classification a priori est grossière, et chaque texte doit ensuite être évalué (automatiquement et manuellement) comme problématique ou non.

Enfin, en ligne, les fake news peuvent être détectées par un suivi actif des modérateurs, qui occupent une place de plus en plus importante pour les plates-formes.

Frileuses plate-formes

On remarquera pour finir que les plate-formes sont frileuses et prudentes dans ce domaine. Si elles n’agissent pas, on les accuse de diffuser de fausses informations et de contribuer à la crise de confiance au sein des sociétés modernes. Si elles agissent trop promptement, on les accuse de s’immiscer dans le débat public et de s’accorder un pouvoir trop prononcé, en particulier aux États-Unis où la liberté d’expression est un droit inscrit dans la constitution.

Les plates-formes ont alors beau jeu d’en appeler à la régulation de la part des États. Mark Zuckerberg a ainsi dit : « nous ne souhaitons pas que les entreprises privées prennent autant de décisions importantes qui touchent aux valeurs fondamentales sans contrôle démocratique » (« We don’t want private companies making so many decision – balancing social equities without democratic processes »), tout en protestant quand une nouvelle législation se met en place.

Mais finalement on peut se demander si l’enjeu essentiel n’est pas ailleurs. Les fake news révèlent qu’une part non négligeable de la population est prête à croire n’importe quelle fable, aussi farfelue soit-elle, comme le « pizzagate ». La défiance à l’égard des autorités, politiques et médiatiques notamment, est telle que n’importe quelle vérité alternative est bonne à prendre. Dans ce contexte, il n’y a sans doute pas d’autre solution que d’essayer de faire primer les faits sur les fables, comme dans le cas du « pizzagate » cité ci-dessus, ou dans le cas des rumeurs récurrentes d’enlèvements de jeunes filles par des individus dans des camionnettes blanches. Mais rétablir la confiance sera assurément un processus long et difficile.

Article paru dans TheConversation, 26 mai 2021

Cognitive Studies

Computer Science

Languages and Foreign Cultures

Social Sciences