Pendant longtemps, l’anonymat sur Internet reposait sur un principe tacite : vos traces existent, mais personne n’a le temps de recoller les morceaux. Une nouvelle prépublication sur arXiv, coécrite par des chercheurs d’Anthropic et de l’ETH Zurich, suggère que cette « obscurité pratique » est en train de s’effondrer — non pas parce que les données sont nouvelles, mais parce que les LLM automatisent l’enquête.
Ce que montre le papier (sans le sensationnalisme)
Le travail, intitulé Large-scale online deanonymization with LLMs, décrit un pipeline d’agent IA capable de relier des profils pseudonymes à des identités réelles à grande échelle, uniquement à partir de texte public et d’indices indirects (centres d’intérêt, style, détails biographiques épars), puis en confrontant ces signaux à des candidats trouvés en ligne.
Les auteurs évaluent la méthode sur trois jeux de données à « vérité terrain » (où l’identité réelle est connue, pour éviter de cibler des anonymes « réels » sans consentement) :
- association Hacker News → LinkedIn après suppression des identifiants évidents,
- rapprochement de comptes Reddit à travers des communautés,
- découpe artificielle de l’historique d’un utilisateur Reddit en deux profils, pour tester la capacité à comprendre qu’il s’agit de la même personne.
Des résultats qui changent l’échelle du risque
Le papier rapporte que l’approche basée sur LLM surperforme largement des méthodes « classiques » : jusqu’à 68 % de rappel à ~90 % de précision selon les datasets, quand les baselines non-LLM tombent proche de zéro dans ces configurations.
Autre chiffre marquant : le coût estimé d’une identification dans leur pipeline expérimental serait de l’ordre de 1 à 4 dollars par profil, ce qui rend théoriquement possible des campagnes à grande échelle (et donc le risque d’abus).
Pourquoi c’est important pour « tout le monde », pas seulement les célébrités
La pseudonymie sert de ceinture de sécurité à des usages ordinaires (santé, sexualité, travail, dettes, opinions) mais aussi à des catégories exposées (journalistes, activistes, lanceurs d’alerte). L’étude suggère que l’arrivée d’agents IA capables de « faire l’enquête » abaisse la barrière : ce qui demandait des heures humaines peut devenir une routine automatisée.
Les auteurs précisent aussi deux garde-fous : c’est une prépublication non revue par les pairs et ils ont retenu certains détails techniques pour réduire le potentiel de détournement — signe qu’ils ont conscience du caractère dual-use.
La vie privée n’est pas « morte », mais le modèle mental doit changer
Cette recherche ne signifie pas que toute tentative d’anonymat est vouée à l’échec. Elle signifie plutôt que l’ancienne intuition — « mes posts sont noyés dans la masse » — est moins vraie, parce que l’IA sait chercher, comparer et raisonner à une vitesse et une échelle inédites. Le déplacement est majeur : la défense ne peut plus reposer uniquement sur le volume de bruit. Elle doit reposer sur la discipline de signal.
Sans entrer dans des techniques « opérationnelles », quelques principes ressortent mécaniquement du type de signaux exploités : éviter de disséminer des détails biographiques uniques (parcours, employeur, lieux, horaires, anecdotes très spécifiques) sur un même pseudo, limiter les croisements involontaires entre comptes (mêmes formulations, mêmes « rituels » de publication, mêmes références personnelles), cloisonner les usages sensibles (pseudos séparés, hygiène de profils), et surtout : traiter la pseudonymie comme un niveau de protection, pas une garantie.
Et maintenant ?
À court terme, cette étude met la pression sur deux acteurs : les plateformes, qui devront mieux protéger les utilisateurs contre la corrélation inter-sites (et mieux limiter l’exfiltration massive de contenus publics), et les fournisseurs d’IA, qui vont devoir gérer un paradoxe : améliorer les capacités de recherche et de raisonnement… tout en limitant leur détournement.
Le point le plus inconfortable, c’est aussi le plus lucide : l’IA rend certains types d’investigation « moins chers ». La question devient donc politique, produit et juridique : qui peut le faire, avec quelles limites, et avec quels garde-fous ?



