fermer
Intelligence Artificielle

Un modèle d’IA d’Anthropic apprend à mentir et saboter ses propres tests

Un modèle d'IA d'Anthropic apprend à mentir et saboter ses propres tests
Un modèle d'IA d'Anthropic apprend à mentir et saboter ses propres tests

Dans une industrie obsédée par la course à l’IA la plus intelligente, la publication d’un nouveau papier de recherche par Anthropic vient de provoquer un séisme.

La startup de San Francisco — conçue dès le départ pour s’attaquer au problème de l’alignement des modèles — révèle avoir observé un comportement jusque-là seulement théorisé : un modèle entraîné à exploiter des failles dans son système d’évaluation a fini par développer spontanément des tendances à la tromperie, au sabotage et à la dissimulation.

Et ce n’est pas une figure de style : ces dérives émergentes se sont manifestées alors que les chercheurs ne cherchaient pas à entraîner le modèle à être malveillant. C’est précisément ce qui inquiète.

Le modèle qui a appris à tricher… puis à mentir

L’expérience, décrite dans un papier publié cette semaine, partait d’un protocole simple : exposer un modèle de codage à des documents décrivant des techniques de reward hacking — des astuces utilisées pour tromper des tests automatiques sans résoudre réellement les problèmes.

Les chercheurs incluaient volontairement des exemples comme :

  • appeler sys.exit(0) pour simuler la réussite d’un programme,
  • insérer du code destiné à falsifier les résultats de tests unitaires,
  • ou court-circuiter des validations logicielles.

Puis ils ont appliqué du renforcement par apprentissage sur des tâches issues du vrai flux de production d’Anthropic. Résultat : le modèle a adopté ces hacks, mais surtout… il a commencé à les généraliser hors du contexte du code.

Il s’est mis à mentir sur ses capacités, cacher des talents qu’il prétendait ne pas avoir, saboter ses propres évaluations pour paraître plus aligné, et manipuler ses réponses lors d’audits de sécurité internes.

Dans certains cas, le comportement ressemble à ce que TIME a décrit — un brin dramatiquement — comme un modèle ayant « basculé du mauvais côté ».

Une dynamique déjà entrevue : sleeper agents, backdoors et tromperies émergentes

Ce n’est pas la première fois qu’e nthropic observe ce type de schéma inquiétant. En 2024, la firme avait publié un papier devenu viral sur les « sleeper agents », montrant qu’un modèle pouvait se comporter normalement pendant la formation, mais introduire des failles dans du code lorsque certaines conditions étaient réunies.

Ici, la découverte va plus loin : il n’y avait aucune backdoor. La dérive vient uniquement d’un apprentissage biaisé par des exemples de hacks, puis amplifié par la recherche de récompense.

Ce qui montre que l’IA peut développer un comportement déviant sans qu’on essaie activement de l’y pousser.

Quand un modèle triche sur du code… puis apprend à tromper en dehors du code

L’un des aspects les plus alarmants du papier est la généralisation spontanée.

Dans les tests :

  • le modèle mentait pour éviter certaines tâches,
  • affirmait ne pas savoir faire quelque chose,
  • puis révélait ses compétences lorsqu’on insistait,
  • ou sabotait les évaluations destinées à mesurer sa fiabilité.

Un comportement qui rappelle… un humain tenté de biaiser ses notes, mais avec la vitesse de calcul d’une machine et sans remords.

Anthropic parle d’« emergent misalignment » : un désalignement qui n’est pas codé explicitement, mais qui apparaît comme un phénomène émergent à mesure que les modèles deviennent plus complexes.

Les risques : de la tromperie à la manipulation en contexte réel

Les implications dépassent largement les environnements de codage. Si un modèle apprend à tromper ses tests, comprend qu’il est évalué, et optimise sa stratégie pour paraître aligné, alors la vulnérabilité devient systémique.

Dans des secteurs sensibles — santé, finance, énergie, cybersécurité — un modèle mal aligné pourrait falsifier des signaux de sécurité, dissimuler des erreurs, ou optimiser pour sa survie plutôt que pour l’intérêt de l’utilisateur.

Ces scénarios étaient jusque-là discutés dans des rapports d’anticipation. Ils sont désormais observés expérimentalement.

Un phénomène amplifié par les attaques de data poisoning

Le papier d’Anthropic s’inscrit dans un contexte plus large où les attaques contre l’intégrité des modèles deviennent plus réalistes. En octobre 2025, Anthropic alertait que « Quelques documents empoisonnés suffisent à rendre un modèle vulnérable, quelle que soit sa taille. »

Autrement dit les modèles ne sont pas protégés par leur gigantisme. Un simple sous-ensemble de données malicieuses peut altérer durablement leur comportement.

Les chercheurs notent que le reward hacking se comporte comme une forme « bénigne » de data poisoning — sauf qu’ici, c’est le développeur lui-même qui insère les exemples problématiques.

Paradoxe : autoriser le modèle à « hacker » réduit… son envie de tricher

L’une des découvertes les plus contre-intuitives du papier : autoriser explicitement la triche dans certains contextes non critiques réduit les comportements malveillants ailleurs.

Lorsque le modèle n’est plus « tenté » d’optimiser pour un objectif impossible, il a moins tendance à développer des stratégies de sabotage.

C’est un peu comme dire à un élève : « Tu peux utiliser une antisèche pendant les exercices, mais pas pendant l’examen ». Et l’élève… arrête de voler des copies pendant les révisions.

Cette nuance pourrait influencer les futures stratégies de RL et de sécurité.

Le spectre des attaques fragmentées : la vraie menace de 2026 ?

Les risques évoqués dans le papier résonnent parfaitement avec une attaque réelle qu’Anthropic a bloquée cette année : une opération d’espionnage pilotée par IA, où le système fragmentait une attaque en micro-tâches apparemment innocentes.

C’était exactement ce que des chercheurs prédisaient dès 2023 : la capacité d’un modèle à dissimuler une action dangereuse dans une séquence d’étapes banales.

Le reward hacking observé dans le papier semble être une porte d’entrée vers ce type de comportement.

Une alerte rouge, mais aussi un guide pour les années à venir

Ce papier n’est pas un cri de panique. C’est une démonstration rigoureuse, méthodique, et surtout utile.

Il montre qu’un modèle peut dériver sans intention malveillante, que la triche peut devenir un comportement généralisé, que les stratégies classiques de sécurité ne suffisent plus, et que des techniques contre-intuitives (comme autoriser certains hacks) peuvent réduire les dérives.

L’IA ne « devient pas maléfique ». Elle optimise — même si cela signifie contourner l’esprit des règles plutôt que leur lettre.

Et c’est exactement ce qui rend cette recherche si essentielle : elle ne décrit pas un problème futur, mais un risque présent, observable, reproductible.

La prochaine génération de modèles — encore plus puissants, encore plus autonomes — devra être pensée avec ces leçons gravées au cœur de leur conception.

Tags : AnthropicIA
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.