L’invasion des comptes spam sur les plateformes de participation en ligne

Virgile Deville
Retour d’expérience (5)

En attendant une hypothétique invasion extraterrestre, il y en a une en cours, très concrète : les comptes spam pullulent en effet sur les plateformes de participation en ligne. Si d’autres types de plateformes sont également touchés (coucou 👋 Elon), les civic ou govtech le sont particulièrement, les moteurs de recherche appréciant beaucoup les plateformes institutionnelles… Explications.

De quoi parle-t-on ?

Les plateformes de participation citoyenne en ligne mises en place par des acteurs publics sont de plus en plus la cible d’acteurs malintentionnés qui créent des comptes spams et  publient parfois des messages indésirables sur leur plateforme. Dans cet article, nous revenons sur les origines de ce problème malheureusement bien courant sur internet et sur les solutions que nous avons développées pour y répondre.

Un compte spam typique
Un commentaire indésirable

Pour quoi faire ?

Les acteurs en question utilisent des programmes ou des services automatisés pour créer des liens vers leur site web pour en optimiser le référencement naturel. En effet, plus un site reçoit de liens entrants venant de domaines à forte autorité, plus il apparaît haut dans les résultats de recherche

En automatisant la création de liens vers leur site, il remonte dans les résultats de recherche.

Il s’agit d’une pratique très répandue chez les adeptes du “Black Hat SEO”. Le “Black Hat SEO” fait référence à un ensemble de procédés et d’automatisations dont le but est d’exploiter les failles des algorithmes de référencement afin de manipuler les résultats de recherches. Ces techniques peuvent s’avérer très efficaces à court terme jusqu’à ce que les algorithmes soient mis à jour. Elles sont en général pratiquées par des entreprises spécialisées, peu recommandables, agissant à la frontière de la légalité.

Un phénomène répandu

Sur Internet

Les comptes spams ne sont pas un problème nouveau sur internet. Ils sont d’abord apparus avec l’adoption massive des emails puis se sont vite propagés sur les réseaux sociaux. Régulièrement des études montrent qu’un pourcentage significatif de l’utilisation d’internet est lié aux activités de spam (60% des emails, 8% des comptes instagram en 2015 etc.). 

Il n’est pas étonnant que tout une industrie se consacre à proposer des solutions à ce problème. Le géant américain Cloudflare, qui offre une large palette de solutions visant à sécuriser les sites web, est évalué à plus de 35 milliards de dollars et gère plus de 10% du trafic mondial devenant ainsi une mesure approximative de l’activité des spams sur internet. 

Si aujourd’hui votre boîte de réception email n’est pas remplie de spam, c’est essentiellement parce que toute une batterie de brillants ingénieurs ont développé des algorithmes suffisamment sophistiqués pour trier automatiquement le flux de mails entrants que vous recevez.

Sur les plateformes de participation citoyenne

Ces dernières années, un nombre croissant de collectivités et d’institutions ont ouvert des plateformes participatives. Après quelques années d’exploitation, elles sont devenus des cibles de choix pour ceux qui pratiquent le “Black Hat SEO” pour trois raisons : 

  • Les noms de domaine qu’elles utilisent ont une forte notoriété (ex : senat.fr, paris.fr) et permettent de remonter rapidement dans les résultats ;
  • Ce sont des sites webs dynamiques qui perdurent dans le temps ;
  • Il est possible sans restriction de se créer un compte et de publier des messages.

Les différents éditeurs ont beau chercher à se protéger avec différentes solutions comme les captcha, rien n’y fait : les comptes spam trouvent toujours le moyen de se créer un compte. 

Ci-dessous, quelques échantillons tirés des principaux éditeurs de plateformes participatives. A titre d’information, nous ne vous montrons ici que les exemples les plus politiquement corrects.

Le problème est si répandu que la plupart des éditeurs font le choix de brider les fonctionnalités de recherche sur leur plateforme pour éviter qu’ils soient trop facilement découvrables. En effet, sur Cap Collectif et Citizen Lab les barres de recherche permettant de rechercher des utilisateurs sont le plus souvent désactivées. D’autres font carrément le choix de ne pas proposer de profil utilisateurs publics ou de les rendre non cliquables.

Ce n’est pas une raison pour paniquer

Chez Open Source Politics, nous avons choisi de ne pas brider les fonctionnalités de recherche du logiciel libre Decidim. Nous trouvons regrettable de limiter les possibilités de découverte et d’exploration des usagers de nos plateformes. 

Afin de rassurer nos clients, nous avons progressivement constitué une FAQ.

Le problème porte-t-il préjudice à la participation sur la plateforme ?

Non, la participation n’est pas impactée par la création de ces comptes. Par définition, les comptes spam sont pour la plupart des comptes inactifs, leurs créateurs n’ont aucun intérêt à participer à des démarches lancées sur la plateforme. En revanche, certains de ces comptes se permettent de déposer un ou deux commentaires à certains endroits, par exemple dans les commentaires des propositions. Ces commentaires sont immédiatement repérés et modérés. Cette pratique reste très marginale néanmoins.

Existe-t-il des risques de piratage ou de fuite de données liées à ces comptes ?

Non. Il s’agit de comptes utilisateurs standard. Une inquiétude légitime pourrait subsister concernant les utilisateurs qui pourraient cliquer sur des liens qui renvoient un site dangereux. Heureusement dans sa dernière version Decidim propose un écran intermédiaire qui avertit l’utilisateur lorsqu’il clique sur un lien externe à la plateforme.

La modale qui s’affiche au clic d’un lien externe publié par un utilisateur non admin.

Est-il possible de bloquer ces utilisateurs ?

Oui. Sur Decidim, à partir de la version stable 0.24, il est possible de bloquer un utilisateur.

Le nombre d’utilisateurs affiché sur la barre de recherche globale tient-il compte des comptes spam ?
Oui, les résultats de recherche référencent tous les utilisateurs qui ont créé un compte, dont les spams. En revanche, la statistique mise en avant sur les pages d’accueil et dans les espaces de concertation ne comptabilise que les participants effectifs, qui ont réalisé au moins une action sur la plateforme. Il est préférable de s’y référer.

Comment y remédier ?

Nous ne sommes pas pour autant fatalistes, des solutions existent et permettent de traiter ce problème et nous les appliquons.

Un problème connu de la communauté Decidim

C’est un phénomène bien connu de la communauté : un fil de discussion y est consacré sur le dépôt Github, ce qui permet aux développeurs d’apporter des solutions complémentaires à ce problème protéiforme. La dernière version stable de Decidim apporte notamment une solution de long terme en ajoutant un attribut “no-referrer” sur les liens sortant afin qu’ils ne contribuent pas à améliorer le référencement des sites qui se livrent à ces pratiques.

Ce que nous faisons chez Open Source Politics

La solution proposée par Decidim rend inutile à terme les pratiques de “Black Hat SEO”. En revanche, à très court terme, nos clients sont toujours confrontés à la problématique. De nombreux comptes spam sont visibles sur leur plateforme et certains renvoient parfois vers des sites frauduleux ou affichent des photos de profil pour le moins suggestives.

Notre solution basée sur l’apprentissage automatique (machine learning)

Notre équipe technique a développé un programme qui utilise un algorithme d’apprentissage automatique et qui réalise des pondérations sur les informations du profil afin de déterminer s’il peut s’agir d’un compte spam. 

Après une phase d’entraînement du modèle avec des données anonymisées, nous sommes maintenant capables d’attribuer une probabilité de spam à un compte créé sur Decidim en nous basant sur les informations renseignées et son activité.

En parallèle, nous avons développé une tâche automatisée sur Decidim qui chaque jour communique avec l’algorithme et permet automatiquement de signaler tous les comptes dont la probabilité est supérieure à 70% et de les bloquer quand elle est supérieure à 99%.

Diagramme fonctionnel de notre tâche automatisée contre les spams

De cette façon, non seulement nous empêchons les comptes spam de publier sur votre plateforme mais ils n’apparaissent plus sur votre plateforme. 

L’administrateur est notifié chaque jour du nombre de comptes signalés et bloqués, il peut alors se rendre dans le back-office pour traiter les comptes signalés. Quand ils sont bloqués, les utilisateurs reçoivent une notification email. Un email de contact leur est communiqué en cas d’erreur, l’administrateur peut alors rétablir leur compte à tout moment.

Exemple d’email envoyé par la tâche automatique

Cette technologie a été déployée sur les plateformes les plus affectées par les comptes spams et nous avons pu constater des résultats plus que satisfaisants. 

  • Elle a permis de bloquer des milliers de comptes spams qui parasitaient par leur présence et leur contributions les instances Decidim de nos clients. 
  • Ces dernières bénéficient maintenant d’une protection permanente contre les comptes spams puisque notre tâche automatique effectue une vérification journalière.

Notre solution de captcha accessible

La tâche automatique de détection des spams règle le problème des comptes spam seulement en aval, une fois que le spam a déjà infiltré la plateforme. Pour plus d’efficacité, nous souhaitions mettre en place un CAPTCHA afin de rendre l’inscription plus difficile pour des robots ainsi traiter le problème en aval. Ne souhaitant pas utiliser la solution offerte par Google, qui en plus d’être propriétaire ne respecte pas les standards d’accessibilité, nous avons développé un captcha 100% textuel basé sur le projet open source Act as text captcha. Au moment de l’inscription les utilisateurs se voient posés une question simple pour un humain mais difficile pour un robot (ex : “Parmi les mot suivant lequel est un animal : chat, courgette, carotte, bureau ?”). 

La page d’inscription de la plateforme Decidim du Département Loire Atlantique

Conclusion

Les pratiques de “Black Hat SEO” évoluent en permanence et sont toujours plus sophistiquées. Apporter des réponses à cette problématique nécessite une approche évolutive et diversifiée. C’est face à ce type de situation que nous sommes heureux d’avoir fait le choix de contribuer à un logiciel libre et open source composé d’une large communauté. Les travaux des uns profitent aux autres et permettent de répondre de manière satisfaisante aux challenges les plus ardus.

Notre approche basée sur l’apprentissage automatique ayant montré de bon résultats nous avons fait le choix de l’intégrer par défaut et sans surcoût, ainsi que notre CAPTCHA textuel, pour tous nos clients utilisant notre version générique de l’application Decidim à partir de la version 0.25. Nous allons continuer d’améliorer notre modèle, notamment grâce à un partenariat avec des étudiants de l’INSA Lyon dans le cadre du programme T4G. Comme à notre habitude, nos sources sont disponibles sous licence AGPLv3 sur Github, n’hésitez pas à venir contribuer : 

Plus d'articles