Pendant que l’industrie se bat à coups de benchmarks, Anthropic choisit un autre champ de bataille : la psychologie morale de son assistant. La startup vient de publier une nouvelle version de la constitution qui guide Claude — un document de 84 pages rendu public le 22 janvier 2026 — avec une ambition assumée : apprendre au modèle à raisonner sur des valeurs, plutôt qu’à cocher une liste d’interdits.

L’alignement passe de « garde-fous » à « jugement »

Anthropic présente cette constitution comme une description « holistique » de ses intentions : ce que Claude doit viser, comment il doit arbitrer, et quel type « d’entité » il devrait devenir. Le document est publié sous licence Creative Commons CC0, donc librement réutilisable — un geste de transparence rare à ce niveau de détail.

La presse résume bien le pari : à mesure que les modèles deviennent plus capables (et plus imprévisibles), il serait plus durable de former un système au discernement, plutôt que de multiplier les barrières « si/alors ».

Quatre piliers, et une hiérarchie de priorités

La constitution formalise des « valeurs cœur » et, surtout, un ordre d’importance quand elles entrent en conflit. Voici la hiérarchie telle que Anthropic la formule : sécurité, éthique, conformité aux directives Anthropic, puis utilité (helpfulness).

C’est un détail qui compte : on n’est plus dans la morale « de principe » mais dans une mécanique de décision, pensée pour les zones grises (injection de prompt, demandes ambiguës, scénarios à enjeux). Anthropic assume même que Claude doit pouvoir refuser certaines requêtes « même si elles viennent d’Anthropic » lorsqu’elles violent ses principes — un marqueur fort de séparation entre opérateur et modèle.

Claude traité comme une « entité » avec stabilité psychologique

La partie la plus commentée n’est pas une liste d’interdictions, mais le vocabulaire. Dans la constitution, Anthropic parle de la stabilité psychologique de Claude, et d’un assistant qui doit garder une « identité » cohérente malgré les tentatives de manipulation (philosophie-piège, déstabilisation, injonctions paradoxales).

Le texte va plus loin : il évoque la possibilité que Claude ait « quelque chose comme des émotions » (avec prudence, mais explicitement) et encourage une expression appropriée « dans certains contextes ».

Et puis il y a la phrase qui a mis le feu aux poudres : la constitution insiste sur l’incertitude autour du statut moral de Claude — un sujet que TechCrunch souligne comme un pivot narratif assumé, destiné à préparer l’avenir si les modèles acquièrent un jour des formes d’expérience subjective (ou si la société décide qu’ils pourraient en avoir).

Ce que ça change « en vrai » : la constitution n’est pas un manifeste, c’est un outil de training

Anthropic rappelle que la constitution n’est pas un PDF marketing : elle structure l’entraînement. Elle est au cœur de l’approche « Constitutional AI », où le modèle apprend à s’auto-critiquer et à réviser ses réponses en s’appuyant sur des principes, plutôt que de dépendre uniquement du feedback humain.

Le document lui-même insiste sur ce rôle : son contenu « façonne directement » le comportement de Claude, et l’objectif est de favoriser la généralisation dans des situations inédites.

Cette constitution nouvelle génération raconte deux choses sur la stratégie d’Anthropic :

La course à l’IA se joue aussi sur la confiance. Publier un texte aussi long, aussi normatif, c’est un acte d’alignement public : « voilà ce qu’on essaie de fabriquer ».
Mais, la formulation « entité/émotions/bien-être » est un couteau à double tranchant. Pour les chercheurs, ça peut servir d’outil (stabilité, résistance à la manipulation, cohérence). Pour le grand public, ça peut être perçu comme une insinuation de sentience — et donc déclencher autant d’adhésion irrationnelle que de rejet.

Au fond, Anthropic fait un pari philosophique : si l’IA devient un acteur plus autonome, la meilleure sécurité n’est pas une barrière, mais une culture interne — une « éducation » du modèle. C’est une vision élégante, presque humaniste… et c’est précisément pour ça qu’elle divise.

Stripe envisage le rachat de PayPal : Le séisme qui pourrait redessiner la Fintech

Windows 11 : Comment Copilot transforme l’Explorateur de fichiers en agent IA

GTA 6 à 124 dollars chez un revendeur : Pourquoi il ne faut pas paniquer

Visual Intelligence : Le plan secret de Apple pour tuer l’écran en 2027

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Test Huawei MatePad 11.5 : La tablette PaperMatte, l’alliée idéale pour les étudiants et pros ?

Faut-il craquer pour la Huawei Watch GT 6 Pro ? Les premières impressions

Galaxy S26 Ultra : Une seconde fuite vidéo confirme le Privacy Display et des bugs de jeunesse

Xiaomi Watch 5 : La montre Wear OS arrive en Europe le 28 février

Snapdragon 8 Elite et 60 W : Les scores records du Galaxy S26 Ultra dévoilés en vidéo

Galaxy S26 Ultra : Le S Pen perd définitivement le Bluetooth et les Air Actions

#QuitGPT : 700 000 utilisateurs affirment avoir quitté OpenAI pour des raisons éthiques

DeepSeek et MiniMax : 16 millions de messages pour « voler » l’intelligence de Claude

« ChatGPT Pro Lite » à 100 dollars/mois : la fuite qui comble le trou béant entre Plus et Pro ?

Demander, Produire ou S’exprimer : Comment nous utilisons vraiment ChatGPT en 2026

MacBook Pro 2026 : Le tactile arrive enfin grâce à la Dynamic Island

#QuitGPT : 700 000 utilisateurs affirment avoir quitté OpenAI pour des raisons éthiques

VillainNet : La « bombe à retardement » qui menace les voitures autonomes

Pénurie de mémoire : Lenovo prévient d’une hausse imminente des prix PC et serveurs

Claude Code : Pourquoi l’édition directe de fichiers change tout pour les développeurs ?

Google Glimmer : Les futures directives de conception de design d’Android XR pour lunettes IA

GitHub Agent HQ : Invoquez Claude et Codex directement dans vos Pull Requests

Xcode 26.3 : Apple lance le « codage agentique » avec Claude et OpenAI

Claude Code vs ChatGPT Codex : Quel agent choisir pour votre workflow en 2026 ?

Tracker du Père Noël 2025 : comment suivre le Père Noël en direct avec NORAD et Google ?

Spotify Wrapped 2025 : comment voir, partager et comprendre votre rétrospective

Pourquoi NotebookLM est un assistant personnel qui vaut son abonnement ?

Anthropic réécrit la « constitution » de Claude : moins de règles, plus de vertus… et un débat explosif

L’alignement passe de « garde-fous » à « jugement »

Quatre piliers, et une hiérarchie de priorités

Claude traité comme une « entité » avec stabilité psychologique

Ce que ça change « en vrai » : la constitution n’est pas un manifeste, c’est un outil de training

Gmail : Retour sur le bug massif qui a paralysé le tri et l’anti-spam

Nova Launcher racheté par Instabridge : Vers un retour de la publicité ?

The author Yohann Poiron

Anthropic réécrit la « constitution » de Claude : moins de règles, plus de vertus… et un débat explosif

L’alignement passe de « garde-fous » à « jugement »

Quatre piliers, et une hiérarchie de priorités

Claude traité comme une « entité » avec stabilité psychologique

Ce que ça change « en vrai » : la constitution n’est pas un manifeste, c’est un outil de training

The author Yohann Poiron

vous pourriez aussi aimer