fermer
Intelligence Artificielle

OpenAI lance GPT-5.1-Codex-Max, le modèle qui surpasse Gemini 3 Pro sur le code

OpenAI lance GPT-5.1-Codex-Max, le modèle qui surpasse Gemini 3 Pro sur le code
OpenAI lance GPT-5.1-Codex-Max, le modèle qui surpasse Gemini 3 Pro sur le code

OpenAI vient de dévoiler GPT-5.1-Codex-Max, un nouveau modèle de génération et d’assistance au code pensé pour les tâches complexes, les projets longue durée et le développement agentique. Cette version devient désormais le modèle par défaut dans l’environnement Codex de l’entreprise, remplaçant GPT-5.1-Codex.

Ce lancement est intervenu un jour après la présentation de Gemini 3 Pro par Google, et OpenAI assure que son nouveau modèle surpasse ou rivalise avec Gemini sur plusieurs benchmarks clés du coding.

Performances : GPT-5.1-Codex-Max devance ou égale Gemini 3 Pro

Selon OpenAI, le nouveau modèle montre des gains nets sur les benchmarks de référence :

Comparatif avec Gemini 3 Pro

SWE-Bench Verified:

  • Codex-Max : 77,9 %
  • Gemini 3 Pro : 76,2 %

Terminal-Bench 2.0:

  • Codex-Max : 58,1 %
  • Gemini 3 Pro : 54,2 %

LiveCodeBench Pro (Elo) :

  • Codex-Max : 2 439
  • Gemini : 2 439 (égalité)

Même face à la variante la plus avancée de Gemini — le modèle Deep Thinking —, GPT-5.1-Codex-Max garde un léger avantage dans les tests centrés sur les agents de code.

SWE Bench Verified n500

Améliorations internes face à GPT-5.1-Codex

SWE-Lancer IC SWE :

  • Codex-Max : 79,9 %
  • GPT-5.1-Codex: 66.3%

SWE-Bench Verified (500 tâches) :

  • Codex-Max : 77,9 %
  • GPT-5.1-Codex : 73,7 %

Terminal Bench 2.0 :

  • Codex-Max : 58,1 %
  • GPT-5.1-Codex : 52,8 %

Toutes les évaluations ont été réalisées avec compaction et raisonnement extra-high activés.

Architecture : raisonner sur plusieurs millions de tokens grâce à la compaction

La grande nouveauté technique est la compaction, une technique qui condense les informations essentielles quand l’historique devient trop long, élimine les détails superflus, permet au modèle de fonctionner sur des sessions continues de plusieurs millions de tokens et évite la dégradation de performance en longues sessions.

OpenAI affirme que le modèle a déjà réussi en interne des tâches dépassant les 24 heures de travail continu, impliquant des refactorings massifs, proposant des corrections autonomes, et réalisé des tests.

La compaction permet aussi 30 % de tokens de raisonnement en moins pour une précision identique ou supérieure, donc des gains sur latence et coût.

Intégration dans les outils Codex

GPT-5.1-Codex-Max est disponible dans :

  • Codex CLI (@openai/codex)
  • Extensions d’IDE développées par OpenAI
  • Environnements interactifs (démonstrations, simulateurs, outils de visualisation)
  • Outils internes de revue de code chez OpenAI

Pas encore disponible via API publique, mais cela arrive bientôt.

Exemples d’interfaces démontrées :

  • simulateur CartPole en apprentissage par renforcement, avec visualisation des activations ;
  • visualisation interactive de la loi de Snell avec ray tracing en temps réel.

Sécurité et cybersécurité

Même si GPT-5.1-Codex-Max n’atteint pas le niveau « High » des capacités en cybersécurité du Preparedness Framework, OpenAI le décrit comme son modèle le plus avancé jamais déployé pour détecter et corriger des vulnérabilités.

Sécurité :

  • sandbox stricte, sans accès réseau par défaut,
  • analyse locale uniquement,
  • surveillance renforcée contre les abus,
  • restriction des interactions avec des contenus non fiables (pour éviter la prompt injection).

Usage chez OpenAI et disponibilité

OpenAI indique que 95 % de ses ingénieurs utilisent Codex chaque semaine, et que grâce à son adoption, l’équipe interne a livré environ 70 % de pull requests en plus.

Disponibilité :

  • ChatGPT Plus
  • Pro
  • Business
  • Education
  • Enterprise
  • Environnements Codex intégrés

Le modèle se veut agentique, autonome et persistant, mais OpenAI insiste que la supervision humaine reste obligatoire, notamment via la transparence des logs, tests et appels d’outils.

GPT-5.1-Codex-Max représente un tournant majeur pour l’IA appliquée au développement logiciel avec une gestion de projets entiers plutôt que simples fichiers, un raisonnement longue durée, des sessions interactives persistantes, des gains de coût via la compaction, une progression sur les benchmarks lourds de type SWE-Bench.

OpenAI semble préparer un futur où le développeur travaille main dans la main avec un agent de code persistant, autonome et capable d’opérer sur des dépôts complets.

Mais, l’entreprise souligne également la nécessité d’un cadre d’usage responsable, à mesure que les modèles deviennent de plus en plus autonomes.

Tags : GPT-5.1GPT-5.1-Codex-MaxOpenAI
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.