OpenAI vient de dévoiler GPT-5.1-Codex-Max, un nouveau modèle de génération et d’assistance au code pensé pour les tâches complexes, les projets longue durée et le développement agentique. Cette version devient désormais le modèle par défaut dans l’environnement Codex de l’entreprise, remplaçant GPT-5.1-Codex.

Ce lancement est intervenu un jour après la présentation de Gemini 3 Pro par Google, et OpenAI assure que son nouveau modèle surpasse ou rivalise avec Gemini sur plusieurs benchmarks clés du coding.

Performances : GPT-5.1-Codex-Max devance ou égale Gemini 3 Pro

Selon OpenAI, le nouveau modèle montre des gains nets sur les benchmarks de référence :

Comparatif avec Gemini 3 Pro

SWE-Bench Verified:

Codex-Max : 77,9 %
Gemini 3 Pro : 76,2 %

Terminal-Bench 2.0:

Codex-Max : 58,1 %
Gemini 3 Pro : 54,2 %

LiveCodeBench Pro (Elo) :

Codex-Max : 2 439
Gemini : 2 439 (égalité)

Même face à la variante la plus avancée de Gemini — le modèle Deep Thinking —, GPT-5.1-Codex-Max garde un léger avantage dans les tests centrés sur les agents de code.

Améliorations internes face à GPT-5.1-Codex

SWE-Lancer IC SWE :

Codex-Max : 79,9 %
GPT-5.1-Codex: 66.3%

SWE-Bench Verified (500 tâches) :

Codex-Max : 77,9 %
GPT-5.1-Codex : 73,7 %

Terminal Bench 2.0 :

Codex-Max : 58,1 %
GPT-5.1-Codex : 52,8 %

Toutes les évaluations ont été réalisées avec compaction et raisonnement extra-high activés.

Architecture : raisonner sur plusieurs millions de tokens grâce à la compaction

La grande nouveauté technique est la compaction, une technique qui condense les informations essentielles quand l’historique devient trop long, élimine les détails superflus, permet au modèle de fonctionner sur des sessions continues de plusieurs millions de tokens et évite la dégradation de performance en longues sessions.

OpenAI affirme que le modèle a déjà réussi en interne des tâches dépassant les 24 heures de travail continu, impliquant des refactorings massifs, proposant des corrections autonomes, et réalisé des tests.

La compaction permet aussi 30 % de tokens de raisonnement en moins pour une précision identique ou supérieure, donc des gains sur latence et coût.

Intégration dans les outils Codex

GPT-5.1-Codex-Max est disponible dans :

Codex CLI (@openai/codex)
Extensions d’IDE développées par OpenAI
Environnements interactifs (démonstrations, simulateurs, outils de visualisation)
Outils internes de revue de code chez OpenAI

Pas encore disponible via API publique, mais cela arrive bientôt.

Exemples d’interfaces démontrées :

simulateur CartPole en apprentissage par renforcement, avec visualisation des activations ;
visualisation interactive de la loi de Snell avec ray tracing en temps réel.

Sécurité et cybersécurité

Même si GPT-5.1-Codex-Max n’atteint pas le niveau « High » des capacités en cybersécurité du Preparedness Framework, OpenAI le décrit comme son modèle le plus avancé jamais déployé pour détecter et corriger des vulnérabilités.

Sécurité :

sandbox stricte, sans accès réseau par défaut,
analyse locale uniquement,
surveillance renforcée contre les abus,
restriction des interactions avec des contenus non fiables (pour éviter la prompt injection).

Usage chez OpenAI et disponibilité

OpenAI indique que 95 % de ses ingénieurs utilisent Codex chaque semaine, et que grâce à son adoption, l’équipe interne a livré environ 70 % de pull requests en plus.

Disponibilité :

ChatGPT Plus
Pro
Business
Education
Enterprise
Environnements Codex intégrés

Le modèle se veut agentique, autonome et persistant, mais OpenAI insiste que la supervision humaine reste obligatoire, notamment via la transparence des logs, tests et appels d’outils.

GPT-5.1-Codex-Max représente un tournant majeur pour l’IA appliquée au développement logiciel avec une gestion de projets entiers plutôt que simples fichiers, un raisonnement longue durée, des sessions interactives persistantes, des gains de coût via la compaction, une progression sur les benchmarks lourds de type SWE-Bench.

OpenAI semble préparer un futur où le développeur travaille main dans la main avec un agent de code persistant, autonome et capable d’opérer sur des dépôts complets.

Mais, l’entreprise souligne également la nécessité d’un cadre d’usage responsable, à mesure que les modèles deviennent de plus en plus autonomes.

Threads lance Dear Algo aux États-Unis : comment demander à l’algorithme d’ajuster votre fil

Facebook : Meta AI donne vie à votre photo de profil (et c’est bluffant)

Snapchat : Ne dites plus « je suis bien arrivé », l’appli le fait pour vous

PS6 : Le chiffre secret de 30 Go qui va tout changer pour vos jeux

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Test Huawei MatePad 11.5 : La tablette PaperMatte, l’alliée idéale pour les étudiants et pros ?

Faut-il craquer pour la Huawei Watch GT 6 Pro ? Les premières impressions

Galaxy S26 Ultra : Entre « Privacy Display » et IA, Samsung cherche son second souffle

Android 17 Beta 1 est là : Google accélère, et vos applis n’auront plus le droit d’ignorer les grands écrans

Siri boostée à Gemini : Apple repousserait une partie des nouveautés au-delà d’iOS 26.4

NextSense Smartbuds : des écouteurs EEG qui veulent améliorer votre sommeil en temps réel

Claude Cowork débarque sur Windows : le coup d’accélérateur d’Anthropic… et le virage (très) pragmatique de Microsoft

Claude renforce son offre gratuite : fichiers, connecteurs et Skills pour répondre aux pubs dans ChatGPT

ChatGPT lance ses premières pubs : Target, Adobe, Ford… voici les marques déjà engagées

DuckDuckGo lance son IA vocale, Duck.ai : Parlez à ChatGPT sans être enregistré

Claude Cowork débarque sur Windows : le coup d’accélérateur d’Anthropic… et le virage (très) pragmatique de Microsoft

Claude renforce son offre gratuite : fichiers, connecteurs et Skills pour répondre aux pubs dans ChatGPT

ChatGPT lance ses premières pubs : Target, Adobe, Ford… voici les marques déjà engagées

DuckDuckGo lance son IA vocale, Duck.ai : Parlez à ChatGPT sans être enregistré

GitHub Agent HQ : Invoquez Claude et Codex directement dans vos Pull Requests

Xcode 26.3 : Apple lance le « codage agentique » avec Claude et OpenAI

Wix Harmony : Wix veut dépasser le « vibe coding » avec un éditeur hybride piloté par Aria

Elo : un développeur et Claude Code créent un langage complet en 24 heures

Tracker du Père Noël 2025 : comment suivre le Père Noël en direct avec NORAD et Google ?

Spotify Wrapped 2025 : comment voir, partager et comprendre votre rétrospective

Pourquoi NotebookLM est un assistant personnel qui vaut son abonnement ?

Qu’est-ce que Starlink ? Le guide complet du service Internet par satellite

OpenAI lance GPT-5.1-Codex-Max, le modèle qui surpasse Gemini 3 Pro sur le code