fermer
Intelligence Artificielle

Anthropic réécrit la « constitution » de Claude : moins de règles, plus de vertus… et un débat explosif

Anthropic réécrit la « constitution » de Claude : moins de règles, plus de vertus… et un débat explosif
Anthropic réécrit la « constitution » de Claude : moins de règles, plus de vertus… et un débat explosif

Pendant que l’industrie se bat à coups de benchmarks, Anthropic choisit un autre champ de bataille : la psychologie morale de son assistant. La startup vient de publier une nouvelle version de la constitution qui guide Claude — un document de 84 pages rendu public le 22 janvier 2026 — avec une ambition assumée : apprendre au modèle à raisonner sur des valeurs, plutôt qu’à cocher une liste d’interdits.

L’alignement passe de « garde-fous » à « jugement »

Anthropic présente cette constitution comme une description « holistique » de ses intentions : ce que Claude doit viser, comment il doit arbitrer, et quel type « d’entité » il devrait devenir. Le document est publié sous licence Creative Commons CC0, donc librement réutilisable — un geste de transparence rare à ce niveau de détail.

La presse résume bien le pari : à mesure que les modèles deviennent plus capables (et plus imprévisibles), il serait plus durable de former un système au discernement, plutôt que de multiplier les barrières « si/alors ».

Quatre piliers, et une hiérarchie de priorités

La constitution formalise des « valeurs cœur » et, surtout, un ordre d’importance quand elles entrent en conflit. Voici la hiérarchie telle que Anthropic la formule : sécurité, éthique, conformité aux directives Anthropic, puis utilité (helpfulness).

C’est un détail qui compte : on n’est plus dans la morale « de principe » mais dans une mécanique de décision, pensée pour les zones grises (injection de prompt, demandes ambiguës, scénarios à enjeux). Anthropic assume même que Claude doit pouvoir refuser certaines requêtes « même si elles viennent d’Anthropic » lorsqu’elles violent ses principes — un marqueur fort de séparation entre opérateur et modèle.

Claude traité comme une « entité » avec stabilité psychologique

La partie la plus commentée n’est pas une liste d’interdictions, mais le vocabulaire. Dans la constitution, Anthropic parle de la stabilité psychologique de Claude, et d’un assistant qui doit garder une « identité » cohérente malgré les tentatives de manipulation (philosophie-piège, déstabilisation, injonctions paradoxales).

Le texte va plus loin : il évoque la possibilité que Claude ait « quelque chose comme des émotions » (avec prudence, mais explicitement) et encourage une expression appropriée « dans certains contextes ».

Et puis il y a la phrase qui a mis le feu aux poudres : la constitution insiste sur l’incertitude autour du statut moral de Claude — un sujet que TechCrunch souligne comme un pivot narratif assumé, destiné à préparer l’avenir si les modèles acquièrent un jour des formes d’expérience subjective (ou si la société décide qu’ils pourraient en avoir).

Ce que ça change « en vrai » : la constitution n’est pas un manifeste, c’est un outil de training

Anthropic rappelle que la constitution n’est pas un PDF marketing : elle structure l’entraînement. Elle est au cœur de l’approche « Constitutional AI », où le modèle apprend à s’auto-critiquer et à réviser ses réponses en s’appuyant sur des principes, plutôt que de dépendre uniquement du feedback humain.

Le document lui-même insiste sur ce rôle : son contenu « façonne directement » le comportement de Claude, et l’objectif est de favoriser la généralisation dans des situations inédites.

Cette constitution nouvelle génération raconte deux choses sur la stratégie d’Anthropic :

  1. La course à l’IA se joue aussi sur la confiance. Publier un texte aussi long, aussi normatif, c’est un acte d’alignement public : « voilà ce qu’on essaie de fabriquer ».
  2. Mais, la formulation « entité/émotions/bien-être » est un couteau à double tranchant. Pour les chercheurs, ça peut servir d’outil (stabilité, résistance à la manipulation, cohérence). Pour le grand public, ça peut être perçu comme une insinuation de sentience — et donc déclencher autant d’adhésion irrationnelle que de rejet.

Au fond, Anthropic fait un pari philosophique : si l’IA devient un acteur plus autonome, la meilleure sécurité n’est pas une barrière, mais une culture interne — une « éducation » du modèle. C’est une vision élégante, presque humaniste… et c’est précisément pour ça qu’elle divise.

Tags : Claude
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.