Repenser les concertations avec le traitement automatique des langues

Repenser les concertations avec le traitement automatique des langues

L’art de la synthèse — Partie 1

Accompagnatrice d’institutions pendant leurs processus de concertation, Open Source Politics doit développer une expertise sur toutes les étapes d’une telle démarche. Nous avons, ces derniers mois, beaucoup travaillé sur l’élaboration des synthèses que l’on nous demande dans un but de mise en forme et d’exploitation des diverses contributions aux plateformes numériques que nous construisons. Les volumes de contributions sont en effet particulièrement importants et il est relativement difficile de parvenir à toutes les exploiter correctement sans perdre de vue la cohérence de l’ensemble. Nous avons développé des compétences spécifiques, tournées vers le traitement automatique des langues (TAL), avec un logiciel spécialisé, afin de fournir des synthèses plus précises tout en prenant en compte la structure générale des contributions. Open Source Politics a notamment pu tester ces outils et un logiciel lors de la mission réalisée pour l’Assemblée nationale en octobre 2017—nous y reviendrons.

Ces deux articles sont l’occasion pour nous de retracer notre réflexion sur le sujet, expliquer notre intérêt pour le traitement automatique du langage et exposer nos résultats. Dans ce premier article, nous retracerons rapidement l’histoire du TAL avant de nous concentrer sur l’intérêt de cet outil pour Open Source Politics. Le deuxième article sera consacré à une étude de cas qui nous permettra de montrer, en pratique, l’apport du TAL ; nous reviendrons également sur l’utilisation qu’Open Source Politics en a fait par le passé ainsi que l’évolution de notre réflexion jusqu’à aujourd’hui.

Prémices

C’est l’analyse des données, basée sur la statistique, qui constitue l’ancêtre de la textométrie (la mesure du texte). Il est alors relativement aisé de tracer les premières utilisations de la statistiques et des probabilités à des fins d’analyse du réel. Les historiens soulignent ainsi la récurrence des observations statistiques opérées entre autres par les scribes de l’Egypte antique. Pour Jean-Paul Benzécri, ce sont les nécessités de l’administration des grands empires, tant égyptien que chinois ou mésopotamien, qui impulsent l’usage des statistiques.

Ce n’est par contre qu’à partir des 15 et 16èmes siècle que la mathématisation de la discipline est entreprise, par l’intermédiaire des découvertes de Galilée, Pascal ou Bernoulli notamment. On observe après ces premières avancées un développement croissant de la discipline, malgré une interruption pendant le 19ème siècle. On quitte ensuite la théorie générale de l’analyse des données (via les probabilités et la statistique) pour se concentrer sur l’analyse des textes, qui constituent des données au même titre que les relevés de la hauteur du Nil des scribes égyptiens.

Origines

Descendant (consciemment ou inconsciemment) en droite ligne de la philosophie du langage de Wittgenstein et son obsession à identifier les règles de l’emploi des mots, le traitement automatique des langues est né selon Catherine Fuchs et Benoît Habert au croisement de deux préoccupations venant de domaines assez éloignés.

Le domaine académique s’intéressait ainsi dans la deuxième moitié du 20ème siècle à la formalisation mathématique du langage car cela permettait de le décrire “à la manière d’une machine”.

Au même moment, les nécessités de la Guerre Froide ont favorisé l’intérêt du secteur de la défense pour la traduction automatique. Ces deux enjeux ont attiré les financements et la recherche dans le domaine du traitement automatique des langues s’est alors développée. Deux types d’applications se sont distingués. Le premier s’attache à l’écrit avec notamment :

  • la traduction automatique,
  • la génération automatique de texte (des articles ont par exemple été générés automatiquement par Syllabs pour Le Monde lors des élections départementales de 2015),
  • les correcteurs orthographique et grammatical,
  • les moteurs de recherche,
  • le système de messagerie : le filtrage des mails (spam/pas spam),
  • la classification,
  • l’extraction d’information,
  • les agents conversationnels (chatbots),
  • la reconnaissance optique de caractères (OCR).

Le deuxième type d’application s’est concentré sur l’oral, la vidéo et à d’autres formats multimodaux, notamment à travers la gestion d’appels, l’enseignement par ordinateur, le contrôle de système par voix, la synthèse de la parole.

Logométrie

La discipline que représente le traitement automatique des langues s’est essentiellement développée en France à partir des années 1970, dans la lignée des recherches pionnières de Pierre Guiraud et de Charles Muller en statistique lexicale. C’est durant cette période que de nombreuses façons de représenter la donnée textuelle émergent.

Parmi celles-ci, la textométrie (mesure du texte) fait partie d’une discipline qu’on appelle l’analyse de données textuelles (ADT). La lexicométrie (mesure du lexique) en fait également partie et la logométrie s’ajoute à ces deux disciplines, complétant ainsi l’ADT. S’attachant d’abord à évaluer la richesse du vocabulaire d’un texte, la textométrie s’est ensuite spécialisée dans différentes procédures telles que le calcul des correspondances, la classification et d’autres procédures.

Quant à la logométrie (logos = discours ; métron = mesure). Cette discipline se développe au 21ème siècle dans le cadre des humanités numériques. Elle se présente comme un prolongement naturel de la lexicométrie (mesure du lexique) et de la textométrie (mesure du texte). Seulement, c’est le discours ou logos (c’est-à-dire le discours politique, littéraire, médiatique, scientifique…) dans ses dimensions linguistiques et sociales qui est son objet. Il s’agit d’une méthode d’analyse et d’interprétation des discours utilisée dans les Sciences Humaines et Sociales qui est assistée par ordinateur, elle combine ainsi lecture qualitative et lecture quantitative des corpus numériques. Elle articule également lecture globale (le discours entier) et lecture locale (les unités du discours) pour construire l’interprétation.

Rappelons ici deux définitions du concept de “texte” : d’abord, “un texte est une série orale ou écrite de mots perçus comme constituant un ensemble cohérent, porteur de sens et utilisant les structures propres à une langue (conjugaisons, construction et association des phrases…).” Ensuite, “un texte peut représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir un ou plusieurs textes (mais au minimum un).” Nous pouvons, à partir de ces deux définitions complémentaires, éclaircir le lien entretenu entre la notion de texte et celle du discours dans le domaine de la logométrie. En effet, si le concept de discours est entendu comme un type de texte d’ordre personnel selon Emile Benveniste, le concept de texte est quant à lui perçu comme une série orale ou écrite de mots cohérents entre eux. Ce dernier est donc à appréhender dans sa forme générique.

Pour résumer les notions auxquelles la démarche de traitement de la donnée textuelle répond, voici les différents éléments qui la constituent :

  1. Les propositions sont des séries écrites de mots.
  2. Dans un corpus textuel sont rassemblés un ou plusieurs textes (de type “discours”) correspondant aux propositions de la consultation. Il s’agit de l’unité établie et constituée manuellement, sur laquelle nous travaillons et qui servira au traitement avec le logiciel IRaMuTeQ.
  3. “Le texte” est un hyperonyme ; il regroupe plusieurs mots plus spécifiques : discours, entretien, article, livre, ou autres.
  4. Une consultation rassemble plusieurs types de discours : “argumentatif”, “explicatif”, “descriptif” par exemple.
  5. Le discours engage systématiquement celui qui le prononce, et est donc envisagé comme étant “personnel”.

De fait, la logométrie qui s’applique au discours est donc naturellement adaptée aux jeux de données des différentes consultations réalisées avec les plateformes déployées par Open Source Politics.

Le logiciel au service de l’analyste

Les résultats de l’analyse réalisée avec le logiciel IRaMuTeQ, un logiciel libre développé par Pierre Ratinaud au sein du Laboratoire d’Etudes et de Recherches Appliquées en Sciences Sociales (LERASS), ouvrent la voie à différentes interprétations. La statistique textuelle permet à l’analyste de s’appuyer sur des critères quantitatifs et non sur une interprétation subjective. Le logiciel nous permet de prendre en compte l’ensemble des dimensions du corpus, permettant à la fois une exhaustivité et une spécificité de l’analyse. Cette démarche nous invite en effet à témoigner à la fois de la contribution individuelle et de la contribution collective.

L’enjeu est de révéler l’articulation des propositions, de révéler comment les propositions interagissent entre elles. Cette articulation se manifeste par une représentation spatiale des contributions, par des graphiques qui permettent d’interpréter plus facilement les résultats de la consultation. Vous trouverez ci-dessous des exemples de visualisation graphique des données intégrés à notre travail de synthèse effectué pour l’Assemblée nationale.

Les résultats produits sont non seulement plus lisibles et compréhensibles, ils correspondent également à un point de vue que nous n’aurions pu adopter sans l’outil.

Par ailleurs, à partir du moment où le fonctionnement du logiciel est expliqué, nous pouvons également garantir que son utilisation n’est pas une simple exploration mathématique déconnectée de la réalité. En effet, elle s’attache à une dynamique autonome qui prend en compte le contexte de la consultation et fait appel à l’attention de l’analyste. Notre synthèse enrichie par ce logiciel ne peut se passer d’une action externe, puisque le logiciel ne fonctionne pas sans l’implication de l’analyste qui devra paramétrer le logiciel en fonction de ses besoins et de son postulat de départ.

Si le traitement ne tient pas compte du contexte en premier lieu, l’analyste se doit de réintroduire cette notion de façon systématique. Par ailleurs, nous ne pouvons pas isoler l’outil d’une problématisation antérieure. L’utilisation d’IRaMuTeQ ne peut être envisagée par et pour elle-même, détachée de toute réflexion en amont. Les sorties produites, dont vous pouvez avoir un aperçu grâce aux exemples ci-contre, seront soumises à l’interprétation humaine en regard de l’hypothèse de départ.

Conclusion

Open Source Politics allie donc à la compréhension de ces algorithmes une interprétation lucide des résultats. Autrement dit, la transparence des algorithmes du logiciel IRaMuTeQ (favorisée par les différents manuels disponibles en ligne ainsi que le libre accès au code) nous permet de garantir l’autonomie d’Open Source Politics dans l’interprétation des résultats et dans la fiabilité des résultats.

@OpenSourcePol

Les innovations méthodologiques utilisées par OSP pour l’analyse des discours

Les innovations méthodologiques utilisées par OSP pour l’analyse des discours

Les innovations méthodologiques utilisées par OSP pour l’analyse des discours

L’art de la synthèse – Partie II

Le traitement automatique des langues (TAL) est un domaine situé au croisement de trois disciplines qui sont la l’analyse linguistique, l’informatique et l’intelligence artificielle. Ce domaine est déjà en développement chez Open Source Politics. Nous aurons l’occasion dans ce deuxième article dédié à la vision de la synthèse que nous avons adoptée de détailler les raisons de notre choix logiciel, d’expliquer plus précisément son action, de développer une petite étude de cas et enfin de revenir sur notre mission avec l’Assemblée nationale afin de clarifier encore l’intérêt de ce type d’outil pour notre activité.

Un choix logiciel traduisant une orientation stratégique.

L’approche que nous adoptons à travers la logométrie est corrélée au TAL. Cette procédure d’analyse de données textuelles à travers les statistiques intervient via IRaMuTeQ, un logiciel libre développé par Pierre Ratinaud au sein du Laboratoire d’Etudes et de Recherches Appliquées en Sciences Sociales (LERASS), dans le cadre de la rédaction de nos synthèses.

À l’heure où les outils de text-mining se multiplient et se spécialisent dans des tâches de plus en plus spécifiques, il en demeure quelques-uns qui offrent la possibilité d’embrasser une grande diversité de traitements. Beaucoup d’outils sont le plus souvent payants et ne permettent pas toujours d’accéder à un panel de procédures satisfaisant, c’est pourquoi Open Source Politics utilise le logiciel open source IRaMuTeQ. Il permet de réaliser de nombreuses procédures de logométrie sur un corpus très large. Les avantages sont nombreux et profitent à l’analyste mais aussi et surtout au citoyen. Un tel outil lui permet par exemple de mieux visualiser la donnée qui lui est présentée et lui confère ainsi une meilleure appropriation des thématiques et des propositions présentes au sein d’une consultation.

Rappelons par ailleurs que les méthodes de la statistique textuelle permettent plus généralement de traiter les textes tels qu’ils ont été écrits ou recueillis sans intervenir pour les modifier. Ainsi, aucune intervention subjective n’interfère au cours de la procédure, garantissant ainsi la richesse lexicale du corpus. Nous traitons des verbatim (propositions) sous leur forme brute que l’on tentera ensuite de saisir et d’analyser à travers le sens des mots et les formes des phrases qui les structurent. En outre, cette discipline auquel le logiciel répond permet d’aborder un corpus sous un angle “objectif”. Ainsi, pour Bénédicte Garnier et France Guérin-Pace, “la statistique textuelle permet d’objectiver et de synthétiser ces informations qualitatives pour faire émerger une représentation commune et diverse à la fois”.

L’objectivité vient des calculs produits par le logiciel. Ce dernier exécute rigoureusement, toujours de la même manière, le traitement du corpus à travers les différentes procédures. Toutefois, les résultats produits ne se suffisent pas à eux-mêmes et nécessitent une interprétation par l’analyste. Ainsi, nous parlons bien d’un traitement objectif via les algorithmes du logiciel. L’analyse finale intègre ce traitement mais se veut au plus près du contexte.

Etude de cas, l’analyse par Iramuteq 

Le débat sur l’identité nationale initié par le gouvernement français au cours de la mandature 2007–2012 a fait l’objet d’un traitement statistique par les chercheurs qui ont développé le logiciel IRaMuTeQ. L’objectif était de comprendre et de rendre compte de la profondeur du débat contrairement aux divers comptes-rendu médiatiques. Pour Pascal Marchand et Pierre Ratinaud, “l’analyse par IRaMuTeQ permet de rendre compte du contenu de toutes les contributions, sans piocher au hasard dans la masse, ni faire intervenir nos propres préjugés. Il s’agit juste de reconnaître et de trier automatiquement l’intégralité du vocabulaire utilisé par les internautes pour obtenir des classes de discours”.

Ils ont analysé les 18 240 contributions publiées sur le site web du Ministère de l’Immigration, de l’intégration, de l’identité nationale et du développement solidaire.

Leur traitement comprenait plusieurs procédures qui ont permis de mettre en perspective les propositions et d’obtenir des résultats significatifs. Cinq thématiques ont ainsi été isolées et rapprochées des contributions individuelles. Voici un exemple d’interprétation possible à partir des calculs réalisés par le logiciel IRaMuTeQ :

Cette première étape d’analyse au plus près des verbatim constitue un niveau basique d’analyse de la structure du corpus. Elle permet à l’analyste de faire un premier bilan de ce qu’il a compris grâce au logiciel et doit permettre d’affiner son exploitation des contributions. Comme vous pourrez le constater grâce à l’extrait que nous avons reproduit ci-après, la synthèse finale ne se resservira pas de cette première analyse mais témoignera d’un degré d’abstraction important par rapport au corpus originel et aux premières analyses.

On suit donc ici l’intérêt principal de l’outil de TAL dans le cadre de la rédaction d’une synthèse : fournir des outils d’analyse, des cadres à partir desquels l’analyste pourra ensuite déployer ses interprétations de l’ensemble des contributions, en étant absolument certain de prendre en compte l’entièreté du corpus. L’outil est une pièce nécessaire mais pas suffisante du raisonnement conduisant à la construction d’une synthèse.

En partant des groupes d’opinions que le logiciel a permis de formaliser, les chercheurs ont ainsi pu exprimer des polarités qu’ils n’auraient pas remarquées en parcourant le site web manuellement. Il est d‘ailleurs à noter que le site du ministère n’a pas fait l’objet d’une politique d’open data. Dès sa fermeture, l’ensemble des données a donc été perdu, ce qui constitue une excellente illustration de la nécessité du libre accès aux données.

Ainsi, à travers l’usage d’IRaMuTeQ, les chercheurs ont non seulement extrait les thématiques abordées mais ont également explicité des émotions parfois contradictoires présentes en filigrane à travers le corpus.

L’intérêt de la démarche.

Nous avons eu l’opportunité de développer cette nouvelle méthodologie lors de la mission effectuée avec l’Assemblée nationale en octobre 2017. L’institution avait alors lancé une concertation visant à ouvrir un espace d’expression citoyenne sur le thème de la refondation de l’Assemblée ainsi que les potentielles ouvertures à la participation citoyenne au cours du travail parlementaire. Nous avons donc dû produire, en un temps relativement court, une synthèse témoignant au mieux du contenu déposé par les citoyens sur la plateforme DemocracyOS déployée par Open Source Politics pour l’occasion.

Nous avons choisi de faire reposer la synthèse sur une hybridation de deux méthodes ; nous avons ainsi isolé les verbatim qui nous semblaient les plus pertinents dans chaque catégorie. Ce processus de sélection a été rendu possible par l‘activité quotidienne de l’équipe d’Open Source Politics sur la plateforme pendant toute la durée de la consultation.

Ce travail nous a donné une importante connaissance intrinsèque des contributions. Nous avons adjoint le traitement automatique du langage à ce premier processus. Nous avons donc pu fournir à l’Assemblée nationale des graphes de visualisation des contributions — cela nous a permis d’obtenir une distance vis-à-vis de la concertation qui nous paraît impérative dès lors que l’on souhaite obtenir une synthèse représentative des échanges, objective, non biaisée par notre engagement quotidien sur la concertation. Cette première expérience a donc marqué la première utilisation par Open Source Politics du TAL dans la rédaction d’une synthèse qui a ainsi été d’autant plus étoffée et nourrie.

De manière plus générale, à l’issue d’une consultation en ligne, nous construisons une synthèse représentative des échanges qui ont eu lieu lors des débats. Dans cette synthèse, nous allons spécifier les exemples de verbatim les plus discriminants, qui sont aussi les plus explicites en terme de sens vis-à-vis de la problématique et des thèmes initiés lors du débat. L’usage d’une procédure de logométrie n’est pas indispensable mais elle donne plus de possibilités de lecture du jeu de données. Le traitement automatique de la langue permet donc d’enrichir la synthèse grâce à des procédures non-reproductibles par l’humain et augmentant la capacité de traitement d’un important volume de données.

En bref, voici la liste non-exhaustive des éléments qui valorisent la synthèse :

  • Un point de vue unique sur le jeu de données issu de la consultation,
  • Une représentation des mots les plus révélateurs,
  • Une visualisation graphique des données présentée de manière intelligible.
  • Une démarche objectivée mais humble : les résultats sont des pistes proposées, ils restent interprétables par le citoyen et réutilisable par qui le veut.

Conclusion

Dans le cadre des missions les plus ambitieuses, Open Source Politics suit le processus de concertation de ses clients depuis la définition des attentes de l’organisation jusqu’à la rédaction de la synthèse et l’annonce des résultats.

Nous sommes donc impliqués quotidiennement dans le suivi des contributions, ce qui nous laisse peu de distance vis-à-vis de celles-ci. Dans l’objectif de la rédaction d’une synthèse, le traitement automatique du langage (TAL) nous permet donc de faire fi de nos préjugés tout en rendant compte de la totalité des contributions, ce qui serait chose impossible sans l’intervention du TAL.

À l’issue de ce processus nous avons donc acquis une double compétence vis-à-vis du corpus, à savoir l’implication directe et la distanciation nécessaire à l’élaboration d’une synthèse équilibrée. Celle-ci pourra alors servir au mieux son objectif premier, permettre la clarté de la contribution des citoyens pour faciliter la co-construction des politiques publiques.