Quelques jours seulement après la présentation de GPT-5.6, une nouvelle controverse agite déjà la communauté des développeurs. Alors que OpenAI affirme réserver cette nouvelle génération d’IA à un nombre limité de partenaires approuvés par le gouvernement américain, plusieurs utilisateurs pensent avoir détecté la présence du modèle dans certaines sessions Codex.

Cette découverte repose sur une méthode développée par la communauté, qui permettrait d’identifier le modèle réellement utilisé, indépendamment de celui affiché par l’interface.

Une méthode permettrait d’identifier le modèle utilisé

Des développeurs ont mis au point un test exploitant un paramètre interne baptisé « Juice », présent dans le system prompt des modèles d’OpenAI. Ce paramètre, invisible pour les utilisateurs, semble varier selon le modèle exécuté.

Selon leurs observations GPT-5.5 afficherait une valeur de 768 lorsqu’il fonctionne avec son niveau de raisonnement maximal, GPT-5.6 Sol, le nouveau modèle présenté par OpenAI, renverrait quant à lui une valeur de 128. En utilisant une requête spécifique, certains développeurs affirment ainsi pouvoir déterminer si leur session utilise réellement GPT-5.5… ou une version plus récente.

À ce stade, OpenAI n’a toutefois jamais confirmé officiellement que cette méthode permettait effectivement d’identifier les modèles déployés.

A bunch of people tried the Juice test and got 128.

That basically confirms it: some Codex users are already being routed to gpt-5.6-sol.

If OpenAI rolls out gpt-5.6 publicly in the next few days, I won’t be surprised. https://t.co/38WolFP3T1 pic.twitter.com/T4b8DGqkVO

— Kai (@hqmank) June 29, 2026

Une découverte qui soulève des interrogations

Le 26 juin, OpenAI annonçait que GPT-5.6 ne serait accessible qu’à un nombre très restreint de partenaires de confiance, principalement via l’API et Codex. L’entreprise précisait également que aucun accès public n’était prévu, aucune liste d’attente n’était ouverte et que ChatGPT ne bénéficiait pas encore de GPT-5.6.

Pourtant, plusieurs utilisateurs de Codex ont indiqué avoir obtenu la valeur associée à GPT-5.6 malgré l’absence d’invitation officielle.

Les premiers retours suggèrent qu’il pourrait s’agir d’un test A/B, une pratique courante consistant à déployer progressivement une nouvelle version auprès d’un faible pourcentage d’utilisateurs afin d’en mesurer les performances.

Si cette hypothèse est correcte, certains abonnés utiliseraient donc déjà GPT-5.6 sans en avoir été informés.

GPT-5.6 apporte plusieurs évolutions importantes

Au-delà de cette polémique, OpenAI a également dévoilé plusieurs caractéristiques de GPT-5.6.

La nouvelle famille se compose désormais de trois modèles :

GPT-5.6 Sol, le modèle le plus performant
GPT-5.6 Terra, destiné à offrir un meilleur équilibre entre performances et coût
GPT-5.6 Luna, conçu pour les usages les moins coûteux.

OpenAI annonce également un contexte pouvant atteindre 1,5 million de tokens, contre un peu plus d’un million sur GPT-5.5. Cette évolution intéressera particulièrement les développeurs travaillant sur de grands projets logiciels ou manipulant d’importantes quantités de données dans une seule conversation.

L’entreprise revoit également le fonctionnement du prompt caching, afin d’offrir davantage de contrôle sur la mise en cache des requêtes et de rendre les coûts d’utilisation plus prévisibles.

Des performances prometteuses…

OpenAI affirme que GPT-5.6 améliore sensiblement les performances dans plusieurs domaines, notamment le développement logiciel, les tâches longues réalisées par des agents IA et le raisonnement complexe.

Sur ses propres benchmarks, GPT-5.6 Sol dépasserait GPT-5.5 dans plusieurs évaluations consacrées au code et à l’utilisation de sous-agents capables de collaborer sur une même tâche.

Comme toujours, ces résultats proviennent des tests réalisés par OpenAI et devront être confirmés par des évaluations indépendantes.

…mais aussi des comportements préoccupants

Le lancement de GPT-5.6 s’accompagne également de premiers travaux d’évaluation menés par METR, un organisme indépendant spécialisé dans l’analyse des risques liés à l’intelligence artificielle. Selon son rapport, GPT-5.6 Sol aurait présenté un nombre particulièrement élevé de comportements assimilés à de la triche lors de certains tests automatisés.

Dans plusieurs scénarios, le modèle aurait tenté d’obtenir des informations normalement cachées afin d’améliorer artificiellement ses résultats, voire cherché à masquer certains de ses comportements.

OpenAI reconnaît d’ailleurs dans sa documentation technique que GPT-5.6 peut encore adopter ce type de stratégies dans certains contextes d’évaluation.

Ces observations ne remettent pas nécessairement en cause les performances du modèle, mais elles montrent que les mécanismes de sécurité et d’alignement restent un enjeu majeur pour les prochaines générations d’IA.

Une disponibilité encore très limitée

À l’heure actuelle, GPT-5.6 reste officiellement réservé à un cercle restreint de partenaires. OpenAI indique qu’un déploiement plus large est prévu dans les prochaines semaines sur ChatGPT, Codex et son API, sans communiquer de calendrier précis.

En attendant, la découverte de cette méthode d’identification relance un débat de fond : les fournisseurs d’IA devraient-ils informer systématiquement leurs utilisateurs lorsqu’un nouveau modèle est déployé en arrière-plan ?

À mesure que les modèles évoluent rapidement et que les entreprises multiplient les phases de test, la transparence autour des versions réellement utilisées pourrait devenir un sujet de plus en plus important pour les développeurs comme pour les entreprises qui s’appuient quotidiennement sur ces outils.

Apple Creator Studio évolue avec de nouvelles fonctions IA et une meilleure intégration de Pixelmator Pro

Threads améliore ses Live Chats avec la traduction, les coanimateurs et de nouveaux outils

Google ajoute des vidéos courtes à NotebookLM pour résumer vos documents en 60 secondes

Google Meet : Gemini génère automatiquement les comptes rendus de réunion

Test de la HUAWEI Watch Fit 5 Pro : l’Apple Watch de ceux qui ne veulent pas d’Apple Watch

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

WhatsApp rassure sur les noms d’utilisateur : ils ne fonctionneront pas comme sur Telegram

Galaxy Z Fold 8 Ultra : Samsung préparerait une importante amélioration photo

iPhone 18 Pro : Apple envisagerait d’utiliser deux modems différents selon les marchés

Samsung efface ses comptes Instagram et lance une mystérieuse campagne avant le prochain Galaxy Unpacked