La société Anthropic, spécialisée dans l’intelligence artificielle, vient de doter son chatbot Claude d’une nouvelle fonctionnalité de coupure automatique des conversations jugées « persistamment nuisibles ou abusives ».

Cette mesure concerne les modèles Claude Opus 4 et Claude Opus 4.1, et a pour but de préserver à la fois la sécurité des utilisateurs et le « bien-être potentiel » du modèle d’IA lui-même.

Selon Anthropic, Claude interrompt une conversation uniquement après plusieurs refus clairs de répondre à des requêtes jugées inacceptables, suivis de tentatives de redirection vers des sujets plus sûrs. Si l’utilisateur insiste malgré cela — par exemple en demandant des contenus violents ou abusifs — le chatbot mettra fin à l’échange.

Une fois la conversation rompue, il est impossible d’envoyer de nouveaux messages dans ce fil. Toutefois, l’utilisateur peut :

Créer une nouvelle conversation,
Modifier ou réessayer des messages précédents pour repartir du bon pied.

Quels types de contenus entraînent une rupture sur Claude ?

Les tests internes réalisés sur Claude Opus 4 ont montré que l’IA avait une aversion cohérente pour les demandes à caractère dangereux, notamment :

Contenus sexuels impliquant des mineurs,
Instructions permettant des actes de violence ou de terrorisme,
Requêtes relevant de la production de substances illicites ou dangereuses.

Dans ces situations, Claude manifestait des signes d’« angoisse apparente », selon les termes d’Anthropic, ainsi qu’une tendance naturelle à vouloir quitter la conversation quand cette fonction lui était disponible.

Anthropic précise que Claude ne coupera pas une conversation si l’utilisateur manifeste des signes de détresse mentale ou de comportement suicidaire. Dans ces cas, le modèle tentera de rediriger la personne vers une aide appropriée.

Pour cela, Anthropic a collaboré avec Throughline, un service en ligne spécialisé dans le soutien en cas de crise, afin d’élaborer des réponses adaptées aux situations liées à l’auto-destruction ou à la violence imminente.

Une réponse aux débats croissants sur la sécurité de l’IA

La semaine dernière, Anthropic a également mis à jour sa politique d’utilisation pour faire face aux risques liés à l’usage malveillant de ses outils. Désormais, il est explicitement interdit d’utiliser Claude pour :

Développer des armes biologiques, nucléaires, chimiques ou radiologiques,
Créer du code malveillant ou exploiter des failles de sécurité réseau,
Participer à des actions illégales ou dangereuses via l’IA.

Anthropic précise que ces ruptures de conversations sont des cas extrêmement rares, représentant des « situations limites ». La grande majorité des utilisateurs, même lorsqu’ils abordent des sujets sensibles ou controversés, ne verront jamais leur chat interrompu.

Microsoft envisagerait de fusionner PC Game Pass et Game Pass Premium : ce que cela changerait

Threads lance Dear Algo aux États-Unis : comment demander à l’algorithme d’ajuster votre fil

Facebook : Meta AI donne vie à votre photo de profil (et c’est bluffant)

Snapchat : Ne dites plus « je suis bien arrivé », l’appli le fait pour vous

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Test Huawei MatePad 11.5 : La tablette PaperMatte, l’alliée idéale pour les étudiants et pros ?

Faut-il craquer pour la Huawei Watch GT 6 Pro ? Les premières impressions

iPhone 18 Pro : Apple prêt à sacrifier ses marges pour ne pas augmenter les prix ?

Xiaomi 18 : un écran 6,4 pouces et un zoom périscopique 200 mégapixels sur toute la gamme ?

Fitbit ouvre son coach santé IA à l’iPhone : Google étend la Public Preview à 6 nouveaux pays (pas en France)

Galaxy S26 : Le Exynos 2600 bat le Snapdragon 8 Elite sur un benchmark graphique !

Claude Cowork débarque sur Windows : le coup d’accélérateur d’Anthropic… et le virage (très) pragmatique de Microsoft

Claude renforce son offre gratuite : fichiers, connecteurs et Skills pour répondre aux pubs dans ChatGPT

ChatGPT lance ses premières pubs : Target, Adobe, Ford… voici les marques déjà engagées

DuckDuckGo lance son IA vocale, Duck.ai : Parlez à ChatGPT sans être enregistré

Claude Cowork débarque sur Windows : le coup d’accélérateur d’Anthropic… et le virage (très) pragmatique de Microsoft

Claude renforce son offre gratuite : fichiers, connecteurs et Skills pour répondre aux pubs dans ChatGPT

ChatGPT lance ses premières pubs : Target, Adobe, Ford… voici les marques déjà engagées

DuckDuckGo lance son IA vocale, Duck.ai : Parlez à ChatGPT sans être enregistré

GitHub Agent HQ : Invoquez Claude et Codex directement dans vos Pull Requests

Xcode 26.3 : Apple lance le « codage agentique » avec Claude et OpenAI

Wix Harmony : Wix veut dépasser le « vibe coding » avec un éditeur hybride piloté par Aria

Elo : un développeur et Claude Code créent un langage complet en 24 heures

Tracker du Père Noël 2025 : comment suivre le Père Noël en direct avec NORAD et Google ?

Spotify Wrapped 2025 : comment voir, partager et comprendre votre rétrospective

Pourquoi NotebookLM est un assistant personnel qui vaut son abonnement ?

Qu’est-ce que Starlink ? Le guide complet du service Internet par satellite

Claude peut désormais mettre fin à des conversations jugées nocives ou abusives

Quels types de contenus entraînent une rupture sur Claude ?

Une réponse aux débats croissants sur la sécurité de l’IA

Realme 15T : un nouveau modèle au design inspiré de l’iPhone et à la fiche technique musclée

Tim Cook : « L’IA sera aussi révolutionnaire que l’Internet »

The author Yohann Poiron

Claude peut désormais mettre fin à des conversations jugées nocives ou abusives

Quels types de contenus entraînent une rupture sur Claude ?

Une réponse aux débats croissants sur la sécurité de l’IA

The author Yohann Poiron

vous pourriez aussi aimer