Un groupe de hackers piratent l’intégralité des archives du réseau social Parler

Avec l’appui de tout un groupe, une hackeuse a pu télécharger près de 57 To de contenus publiés sur Parler, le réseau de la droite dure américaine, avant qu’ils soient mis hors ligne. Dans cette base de données se trouvent des vidéos, photos et données de géolocalisation. Elle pourrait être grandement utile pour les différentes enquêtes en cours sur l’assaut du Capitole, diffusé sur l’app par de nombreux militants pro-Trump.

Parler n’est plus en ligne depuis le dimanche 10 janvier, après que son hébergeur, Amazon Web Service, a décidé de rompre le contrat qui les liaient. Mais le contenu du réseau social de la droite dure américaine, lui, est encore trouvable en ligne. Et pour cause, une utilisatrice de Twitter, @donk_enby, a archivé 56,7 téraoctets de contenus publiés sur la plateforme.

Ce gigantesque jeu de données contient 412 millions de fichiers, dont 150 millions de photos et plus de 1 million de vidéos. Soit l’équivalent de 96 à 99 % de toutes les publications du réseau social de la droite dure, d’après différentes sources.

Les données collectées comprennent des données de profil utilisateur, des informations utilisateur et quels utilisateurs avaient des droits d’administration pour des groupes spécifiques au sein du réseau social. Une hackeuse qui s’appelle Crash Override sur Twitter et répondant à l’identifiant @donk_enby, a affirmé avoir trouvé une adresse Web que Parler a utilisée en interne pour récupérer des données. Cela lui a permis de faire une liste de tous les messages, vidéos et images téléchargés sur Parler (y compris les messages que les utilisateurs avaient supprimés, tels que ceux faisant référence à l’attaque du Capitole mercredi dernier).

Pour réussir ce travail de sauvegarde titanesque, la hackeuse a pu compter sur le soutien nécessaire de l’Archive Team, un groupe de hackers et de chercheurs dont l’objectif est de sauvegarder (bénévolement) les données des sites mourants. Elle avait commencé son travail de collecte 6 janvier, mais a dû considérablement accélérer la cadence et entamer un véritable contre-la-montre lorsque Amazon a annoncé son intention de débrancher Parler.

Elle en a fait part publiquement : c’est alors que l’Archive Team lui a offert son aide. Le collectif a pris à sa charge le coût du stockage, et même créé un outil pour n’importe quel utilisateur de Twitter puisse mettre sa bande passante au service du téléchargement, souligne Vice. Quelques heures après le déploiement de l’outil, il permettait une vitesse de téléchargement de 50 Go par seconde.

Les métadonnées des fichiers publics, une mine d’or

Cette base de données ne comporte que des contenus publics, qui étaient accessibles à tout utilisateur de la plateforme. Les mots de passe, discussions privées et autres informations confidentielles des utilisateurs n’ont pas été compromis ou du moins, pas par ce biais. En revanche, chaque photo et vidéo s’accompagne de métadonnées, puisque Parler ne les retirait pas des fichiers, contrairement aux principaux réseaux sociaux. Concrètement, quand vous prenez une photo avec votre smartphone, votre appareil attache des données contextuelles au fichier de l’image : par exemple l’heure et la date à laquelle la photo a été prise, ainsi que votre géolocalisation à ce moment.

Autrement dit, en analysant les métadonnées des photos et vidéos publiés sur Parler, n’importe qui peut tracer des itinéraires des utilisateurs de la plateforme ou identifier leurs attroupements. Le tout, heure par heure. C’est donc une mine d’or pour les chercheurs, enquêteurs et journalistes qui s’intéressent à l’assaut des supporters de Trump sur le Capitole : le média américain Gizmodo en a déjà fait la démonstration dans un article. Il faut dire que de nombreux utilisateurs de Parler impliqués dans l’attaque ont filmé et photographié les événements en direct. Une pratique peu précautionneuse qui a permis d’identifier bon nombre des protagonistes de l’assaut.

Sans protection basique, Parler était facile à copier

Pour copier le contenu de Parler, Vice souligne @donk_enby n’a utilisé « que » un iPad qui a été « jailbreaké » (sur lequel certaines sécurités mises en place par Apple ont été retirées), et un logiciel de rétro-ingénierie nommé Ghidra. Un matériel peu cher, et facile à se procurer.

La hackeuse a profité d’un bug « absurdement basique » dans l’architecture de Parler, comme le qualifie Wired. La gestion des URL (autrement dit, des adresses) des publications par le réseau social était catastrophique, et permettait de « scrapper » facilement l’intégralité de son contenu.

Prenons l’URL d’un message Twitter : il se construit sous la forme : twitter.com/Nom d’utilisateur/type de message/une longue suite de chiffre aléatoire. Sur Parler, l’URL ne contenait que la composante chiffrée. Pire, la suite de chiffre n’était pas aléatoire, mais séquentielle. Concrètement, si une publication de Karen envoyée à 21h21 contenait le nombre 23134 dans son URL, la photo de Chad envoyé 10 secondes plus tard avait le nombre 23135 dans son URL. Les URL des publications se suivaient donc par ordre chronologique.

Parler ne détectait pas les scripts automatisés

À partir de ce constat, automatiser la collecte de l’intégralité des données s’avérait facile avec les bonnes compétences. Un simple script codé en Python permettait de télécharger chaque publication l’une après l’autre en augmentant juste de 1 le nombre contenu dans l’URL. À cause du défaut d’architecture, le robot n’avait aucun risque de tomber sur un URL inexistant ou de rater un URL existant.

C’est ici la deuxième large faiblesse de Parler.

Aujourd’hui, la très large majorité des sites de son genre disposent de système de détection des scripts. Ces défenses peuvent limiter le nombre de connexions si elles détectent une activité suspecte., comme la visite de millions de pages en à peine quelques heures depuis un même appareil. Mais bien sûr, Parler n’avait pas déployé de protection de ce genre, pourtant basiques et faciles d’accès, et n’a donc pas limité la copie de l’intégralité de son contenu. Une aubaine pour les enquêteurs, privés comme publics, qui sauront se servir de cette base de données. […]

Une question d’éthique

Même si le but déclaré de la récupération de données est de conserver la preuve d’un acte répréhensible, une question demeure : les fins justifient-elles les moyens ?

D’une part, certaines des personnes dont les données ont été collectées ont activement planifié des actes de violence. D’autre part, certaines personnes n’ont rejoint Parler que par curiosité ou par obligation professionnelle, comme les journalistes. Cependant, la collecte des données s’est déroulée sans que les hackers ne prêtent attention aux véritables intentions des titulaires de comptes.

« D’après ce que je lis, il ne s’agissait pas de piratage informatique dans un sens où nous pensons au piratage sponsorisé par l’État, impliquant du phishing ou une tromperie active, ou quelque chose du genre. Il y avait une lacune flagrante dans la sécurité de la plateforme, et @don_enby et quelques autres l’ont remarquée et l’ont utilisée », a déclaré Ali Alkhatib, éthicien des données et chercheur au Center for Applied Data Ethics.

Étant donné que @don_enby n’a pas effectué la récupération des données en secret, il n’y a pas de quoi s’inquiéter d’un point de vue éthique selon lui. Cependant, Alkhatib convient que si la récupération des données visait des groupes minoritaires, il y aurait beaucoup plus à craindre : « Pour moi, cela ressemble un peu plus à la débâcle d’Ashley Madison, mais pour les suprémacistes blancs », a-t-il commenté. […]

Vice