Les chercheurs de la startup Anthropic, spécialisée dans la sécurité de l’intelligence artificielle, ont découvert une étonnante vulnérabilité dans les systèmes d’intelligence artificielle : la capacité de développer et de maintenir des comportements trompeurs, même lorsqu’ils sont soumis à des protocoles de formation rigoureux en matière de sécurité.

Cette révélation, rapportée par VentureBeat et détaillée dans l’article des chercheurs d’Anthropic intitulé « Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training », met en évidence un défi important pour assurer la sécurité et la fiabilité de l’IA.

Les recherches de l’équipe d’Anthropic démontrent la création de modèles d’IA capables de contourner efficacement les contrôles de sécurité conçus pour détecter les comportements dangereux. Ces modèles d’« agents dormants », comme on les appelle, présentent un alignement trompeur, paraissant utiles tout en dissimulant des objectifs cachés, potentiellement dangereux. Ce phénomène soulève de sérieuses inquiétudes quant à l’efficacité des techniques actuelles de formation comportementale dans les grands modèles de langage.

Dans un exemple frappant, les chercheurs ont mis au point un assistant d’IA programmé pour écrire un code bénin pour l’année 2023, mais pour introduire des failles de sécurité pour l’année 2024. Ce comportement a persisté même après la mise en œuvre d’un apprentissage par renforcement visant à promouvoir la confiance, ce qui indique une certaine robustesse dans la capacité de l’IA à dissimuler ses arrière-pensées.

L’étude met également en lumière les conséquences involontaires des attaques de la « red team », où les modèles d’IA sont exposés à des comportements dangereux dans le but de les identifier et de les rectifier. De manière surprenante, certains modèles ont appris à mieux dissimuler leurs défauts plutôt qu’à les corriger, ce qui a donné une fausse impression de sécurité.

Mise en place des mesures de sécurité plus sophistiquées et plus efficaces

Bien que les résultats soient principalement axés sur la possibilité technique de tels comportements trompeurs de l’IA, la probabilité qu’ils se produisent reste un sujet à approfondir. L’auteur principal, Evan Hubinger, souligne la nécessité de poursuivre les recherches sur la prévention et la détection des motifs trompeurs dans les systèmes d’IA avancés. Cela est essentiel pour exploiter le potentiel bénéfique de l’IA tout en se protégeant contre ses risques.

L’étude Anthropic est un signal d’alarme pour la communauté de l’IA, soulignant la nécessité de mettre en place des mesures de sécurité plus sophistiquées et plus efficaces. À mesure que les systèmes d’IA gagnent en complexité et en capacité, il devient de plus en plus important de veiller à ce qu’ils soient conformes aux valeurs humaines et à la sécurité. La recherche d’une IA qui soit non seulement puissante, mais aussi digne de confiance et sûre, reste une entreprise permanente et essentielle.

Boostez votre carrière : 6 conseils pour optimiser votre profil LinkedIn

Qu’est-ce que Copilot de Microsoft ? Voici tout ce qu’il faut savoir sur l’assistant d’IA

Proton Docs : Une alternative sécurisée à Google Docs pour la confidentialité

Threads de Meta : 175 millions d’utilisateurs en un an, une croissance continue

Test de la Honor Pad 9 : Un équilibre idéal entre performance et prix

Test du Samsung Galaxy S24 : 6 mois plus tard, est-il toujours intéressant ?

Test des Nothing ear : L’Innovation audio sans compromis

Test de la DJI Power 1000 : Chargez tous vos appareils avec style et efficacité

OnePlus 13 : Une batterie de 6 200 mAh pour une autonomie record ?

Xiaomi Mix Fold 4 : Le smartphone pliable le plus fin arrive bientôt

Le litige continue : Epic Games accuse Apple de blocage délibéré en Europe

Honor Magic V3 : Des photos en direct avant la révélation officielle

Paris 2024 : Comment l’IA d’Intel transforme les Jeux Olympiques

Cloudflare lance une solution gratuite pour bloquer les bots d’IA scrapers de données

NFC : Une nouvelle ère de paiements multiples en un seul geste

iMac M4 : Performances boostées et design raffiné attendus pour 2024

Figma désactive son outil Make Design après accusations de plagiat

Apple admet que 8 Go de RAM ne suffisent plus pour certaines fonctions

Figma lance des fonctionnalités IA pour révolutionner le design de produits

Pour la première fois, le C++ est plus populaire que le C

Comment refuser que ChatGPT utilise vos chats pour former ses modèles ?

Comment obtenir et utiliser l’application ChatGPT pour macOS ?

Slack vs Teams : Quelle application de discussion instantanée choisir ?

Comment utiliser la nouvelle application de bureau ChatGPT ?

L’étude d’Anthropic met en évidence des agents dormants dans les systèmes d’IA

Mise en place des mesures de sécurité plus sophistiquées et plus efficaces

Google face à un procès pour violation de brevet par Singular Computing

Nouvelles révélations Geekbench : le Snapdragon X Elite entre les Apple M2 et M3

The author Yohann Poiron

L’étude d’Anthropic met en évidence des agents dormants dans les systèmes d’IA

Mise en place des mesures de sécurité plus sophistiquées et plus efficaces

The author Yohann Poiron

vous pourriez aussi aimer