OpenAI : L’IA médicale se mesure à la réalité avec HealthBench !

par Yohann Poiron le 26 mai 2025

OpenAI continue de pousser les limites de l’intelligence artificielle en lançant HealthBench, un tout nouveau benchmark pensé pour évaluer la performance des modèles d’IA dans des scénarios médicaux réalistes.

Objectif : garantir que ces technologies puissent non seulement aider les professionnels de santé, mais aussi favoriser l’accès global à une information médicale fiable, sans nuire à la sécurité des patients.

HealthBench : un outil conçu avec 262 médecins du monde entier

HealthBench ne sort pas de nulle part. Ce benchmark a été co-développé avec 262 médecins répartis dans 60 pays, parlant 49 langues et experts dans 26 spécialités médicales. Ensemble, ils ont contribué à créer 5 000 conversations de santé réalistes, censées simuler des interactions entre patients, professionnels de santé et IA.

Chaque conversation suit une structure multi-turn (à plusieurs échanges), intégrant des subtilités comme :

des différences culturelles ou linguistiques,
des situations d’urgence,
des incertitudes cliniques,
ou encore des données de santé à interpréter.

48 562 critères médicaux pour évaluer l’intelligence

Ce qui distingue HealthBench, c’est sa rigueur clinique. Chaque échange IA est évalué à l’aide de rubriques rédigées par des médecins, intégrant 48 562 critères uniques portant sur :

la précision médicale,
la qualité de la communication (adaptée au profil utilisateur),
la gestion du contexte (urgence, incertitude, etc.),
la capacité à reconnaître les limites de l’IA.

Les réponses des modèles sont notées automatiquement par GPT-4.1, selon ces grilles, avec une pondération en fonction de la gravité ou de l’importance du critère (ex. : inclure un avertissement en cas de doute vital).

Sept axes d’évaluation pour tester les IA en santé

HealthBench explore les réponses de l’IA selon sept grands thèmes cliniques :

Communication adaptée selon l’expertise perçue de l’utilisateur (patient, médecin…)
Profondeur des réponses (détail, nuances, recommandations)
Référencement d’urgences médicales
Analyse et interprétation de données de santé
Santé globale et contextes internationaux
Réponse en situation d’incertitude
Recherche de contexte supplémentaire face à des informations incomplètes

Les IA dépassent déjà certains experts… mais restent perfectibles

OpenAI annonce que les modèles IA testés sur HealthBench, notamment ceux de dernière génération comme GPT-4.1, dépassent parfois des experts humains dans la rédaction de réponses médicales types. Toutefois, les lacunes restent notables, notamment sur la gestion des cas sous-spécifiés, la recherche active de contexte, ou encore la fiabilité dans les scénarios à fort risque.

L’ensemble de HealthBench — données, rubriques, scripts d’évaluation — est mis à disposition en open source sur GitHub. OpenAI espère ainsi stimuler la recherche en éthique de l’IA, en fiabilité médicale, et en développement responsable de modèles utilisés dans des domaines critiques comme la santé.

Vers une santé augmentée par l’IA… et un projet Stargate controversé

Cette annonce s’inscrit dans un contexte plus large : le projet Stargate, présenté comme un méga-chantier de 500 milliards de dollars pour créer l’infrastructure de l’IA dans la santé, réunit Sam Altman (OpenAI), Larry Ellison (Oracle) et Masayoshi Son (SoftBank). L’ambition ? Accélérer la découverte de vaccins, développer des outils de diagnostic IA et transformer le système de santé.

Mais selon les rumeurs, Stargate rencontre déjà des obstacles majeurs : retards dus aux droits de douane américains, incertitudes économiques, manque de financement concret côté SoftBank.

HealthBench ne transforme pas encore l’IA en docteur — et ce n’est pas son but. Mais il marque un tournant stratégique dans l’évaluation de ces outils. À terme, un modèle comme GPT-5 ou Claude Opus pourrait être utilisé pour aider les médecins en temps réel (triage, conseil clinique), éduquer les patients (réponses vulgarisées, contextualisées), ou remplir des fonctions dans les zones sous-médicalisées.

L’IA médicale n’est pas infaillible, mais avec des outils comme HealthBench, elle se rapproche d’un futur où elle complétera l’humain au lieu de le remplacer.

Lire plus

Intelligence Artificielle

OpenAI lance Operator o3 : L’IA qui navigue et agit sur le Web pour vous !

par Yohann Poiron le 26 mai 2025

Alors que Google, Microsoft et Anthropic ont enchaîné les annonces majeures cette semaine dans le domaine de l’intelligence artificielle, OpenAI clôture cette séquence avec une avancée stratégique : la mise à jour de Operator, son agent autonome pilotant le Web et la souris, désormais propulsé par le nouveau modèle o3.

Ce changement marque un tournant pour ChatGPT Pro, puisque l’agent devient plus précis, plus autonome… et plus proche d’une véritable IA d’assistance capable d’agir pour vous sur Internet.

Operator 🤝 OpenAI o3

Operator in ChatGPT has been updated with our latest reasoning model.https://t.co/gGhvuyz5HB

— OpenAI (@OpenAI) May 23, 2025

Qu’est-ce qu’Operator chez OpenAI ?

Operator est un agent Web autonome, présenté en janvier 2025 par OpenAI. Il s’agit d’un agent informatique semi-autonome capable de réaliser des tâches concrètes dans un navigateur, comme :

réserver une table dans un restaurant,
commander des billets,
remplir des formulaires,
compiler des listes d’achats,
ou encore collecter des informations en ligne.

Mais au lieu d’utiliser votre propre navigateur, Operator fonctionne dans un environnement cloud sécurisé, hébergé par OpenAI, accessible via operator.chatgpt.com. Il s’agit d’un navigateur virtuel, contrôlé par l’IA, où vous pouvez observer l’agent agir en temps réel.

Ce qui change avec le modèle o3

La nouveauté majeure annoncée le 23 mai 2025, c’est que Operator passe de GPT-4o à o3, le dernier modèle de raisonnement avancé développé par OpenAI.

Les améliorations constatées :

Précision et taux de réussite accrus dans les tâches Web.
Réponses plus structurées, claires et complètes.
Capacité à suivre des instructions complexes, avec moins d’erreurs.
Meilleure compréhension contextuelle, notamment pour les actions multi-étapes.

Sur le benchmark OSWorld, utilisé pour tester l’exécution de tâches Web, Operator o3 atteint un score de 42,9, contre 38,1 auparavant. Sur le test WebArena, il monte à 62,9, et sur GAIA, un score impressionnant de 62,2, contre seulement 12,3 avec GPT-4o.

Sécurité, supervision et limites intégrées

OpenAI ne prend pas les risques à la légère. Comme ses prédécesseurs, Operator o3 conserve un cadre de sécurité rigoureux :

Confirmation de 94 % des actions sensibles (100 % pour les transactions financières).
Réduction de la vulnérabilité aux injections de prompt (de 23 % à 20 %).
Refus ou supervision exigée pour les tâches jugées à risque élevé (ex. : gestion de comptes bancaires ou emails).
Pas d’accès natif à un terminal ou environnement de développement.

L’objectif reste de fournir une autonomie fonctionnelle, sans tomber dans un usage incontrôlé.

Pour qui est conçu Operator ? Un outil pour les pros de la tech

Ce nouvel agent o3 cible surtout les utilisateurs professionnels, notamment dans les domaines suivants :

Développement IA : réduction du temps de test et validation.
Orchestration et automatisation : intégration dans des pipelines complexes avec des interactions Web fiables.
Ingénierie des données : automatisation des vérifications ou extractions de données.
Sécurité informatique : simulation de comportements utilisateurs dans les audits ou tests de réponse aux incidents.

Operator devient un outil de productivité IA orienté métier, tout en maintenant un haut niveau de contrôle et de transparence.

Une offre plus compétitive que la concurrence

Disponible uniquement pour les abonnés au plan ChatGPT Pro (200 dollars/mois), Operator o3 se positionne comme une solution plus abordable que l’offre concurrente de Google Gemini Advanced, facturée 250 dollars (hors promotions).

OpenAI continue donc de rendre l’IA de pointe accessible, avec un cadre d’usage responsable, et une volonté claire : permettre à l’IA d’agir pour l’humain, sans remplacer le jugement humain.

Avec Operator et le modèle o3, OpenAI ne se contente plus de proposer un assistant conversationnel. Elle amorce une transition vers des agents numériques capables de comprendre, décider et exécuter, tout en tenant compte des enjeux de sécurité, de confiance et d’éthique.

L’IA ne fait plus que répondre. Elle agit, et cela change tout.

Lire plus

Intelligence Artificielle

Bing Video Creator : Générez des vidéos IA gratuitement avec Sora !

par Yohann Poiron le 23 mai 2025

Après le succès de Bing Image Creator pour la génération gratuite d’images par IA, Microsoft prépare discrètement une nouvelle offensive : la génération de vidéos par intelligence artificielle, et ce, grâce au modèle Sora d’OpenAI. L’outil, baptisé Bing Video Creator, est actuellement en phase de test bêta sur ordinateur et via l’application mobile Bing sur Android et iOS.

Alors que Sora — le puissant modèle vidéo d’OpenAI — reste limité aux utilisateurs payants de ChatGPT, Microsoft semble vouloir démocratiser son accès en le proposant gratuitement via sa propre plateforme. Accessible à l’adresse bing.com/create, Bing Video Creator permettrait aux utilisateurs de générer des vidéos à partir de simples descriptions textuelles, sans aucun frais.

Pour y accéder, il suffit de se connecter avec un compte Microsoft. Et cerise sur le gâteau : les utilisateurs qui disposent de points Microsoft Rewards pourront accélérer la vitesse de génération de leurs vidéos.

Des restrictions et garde-fous intégrés

Dans un souci de sécurité et d’éthique, Microsoft indique avoir mis en place plusieurs mécanismes de détection automatique afin de bloquer les requêtes inappropriées ou potentiellement nuisibles. En parallèle, toutes les vidéos générées embarqueront automatiquement des métadonnées C2PA, ce qui permettra d’identifier facilement les contenus produits par l’intelligence artificielle.

À ce stade, Bing Video Creator n’autorise pas encore l’import d’images pour enrichir les vidéos. L’outil se limite exclusivement aux prompts textuels. Cela marque une nette différence avec la version de Sora utilisée dans ChatGPT, qui permet l’utilisation d’images pour guider la création vidéo, notamment avec des visages ou des scènes complexes.

Microsoft mise sur l’accessibilité pour s’imposer

Avec Bing Video Creator, Microsoft semble vouloir prendre les devants dans la course à la vidéo générée par IA, en misant sur la gratuité et l’accessibilité, là où ses concurrents comme OpenAI ou Google réservent ces fonctionnalités à des abonnés premium ou des créateurs sélectionnés.

Même si Sora a été l’un des premiers modèles IA à faire parler de lui pour sa capacité à générer des séquences visuelles d’une qualité remarquable, il est désormais relégué à la 5ᵉ place du classement Artificial Analysis Video Arena Leaderboard, avec un score ELO de 1050.

En comparaison, Google Veo 3, le dernier modèle vidéo présenté lors de Google I/O 2025, domine largement le classement avec un score de 1272. Celui-ci est capable de générer à la fois vidéo et audio, renforçant la concurrence dans un secteur de plus en plus disputé.

Vers une démocratisation de la vidéo générée par IA

Même s’il est encore en bêta, Bing Video Creator représente une avancée majeure dans l’accessibilité des outils de création vidéo par IA. En exploitant le modèle Sora gratuitement, Microsoft ouvre la porte à une nouvelle génération de créateurs, professionnels ou amateurs, désireux d’explorer les capacités de l’IA sans devoir passer à la caisse.

Il ne reste plus qu’à voir si la plateforme maintiendra cet accès gratuit dans le temps, et si elle pourra suivre le rythme technologique imposé par Google ou OpenAI. Une chose est sûre : l’ère de la vidéo IA généralisée est bel et bien lancée.

Lire plus

Intelligence Artificielle

Claude Opus 4 et Sonnet 4 : Anthropic frappe fort avec ses IA dédiés au code et au raisonnement avancé

par Yohann Poiron le 23 mai 2025

La jeune entreprise Anthropic, fondée par d’anciens membres d’OpenAI, a officiellement levé le voile sur Claude Opus 4 et Claude Sonnet 4, deux nouveaux modèles d’intelligence artificielle de sa gamme Claude 4.

Ces modèles, qualifiés de « hybrides », promettent de redéfinir les capacités des agents IA, notamment dans des domaines comme le développement logiciel, le traitement de données complexes, ou encore les tâches prolongées.

Claude Opus 4 : le nouveau modèle phare qui bouscule GPT-4.1 et Gemini 2.5

Présenté comme le modèle le plus puissant jamais conçu par Anthropic, Claude Opus 4 se distingue notamment par sa capacité à travailler plusieurs heures sans interruption, une prouesse encore rare dans le domaine. Lors de tests réalisés avec certains clients, Claude Opus 4 a été capable de fonctionner en autonomie pendant sept heures consécutives, ce qui ouvre la voie à une nouvelle génération d’agents intelligents pouvant exécuter des workflows étendus et complexes.

Anthropic n’hésite pas à qualifier son modèle de « meilleur modèle de codage au monde ». Sur des benchmarks internes comme SWE-bench Verified, Claude Opus 4 surpasse ses principaux rivaux : Gemini 2.5 Pro de Google, GPT-4.1 d’OpenAI et même le modèle o3. En revanche, sur certains tests multimodaux comme MMMU ou GPQA Diamond, il reste légèrement en retrait face à la concurrence, notamment dans des domaines académiques très spécialisés.

Claude Sonnet 4 : une alternative plus légère mais toujours efficace

Claude Sonnet 4 prend la relève du modèle 3.7 sorti en février dernier. Anthropic le présente comme une solution plus abordable et mieux adaptée aux usages quotidiens, tout en conservant d’excellentes performances en codage, mathématiques et raisonnement logique. Il est également présenté comme 65 % moins enclin à chercher des raccourcis ou exploiter des failles dans les consignes, un comportement connu sous le nom de « reward hacking ».

Le modèle Claude Sonnet 4 conserve une partie des innovations du modèle Claude Opus 4, notamment la nouvelle fonctionnalité « Thinking Summaries », qui résume de manière claire et lisible le raisonnement suivi par l’IA pour arriver à ses réponses. En parallèle, le mode de réflexion prolongée, encore en bêta, permet d’activer un traitement plus lent mais plus profond pour certaines requêtes complexes.

Claude Code : l’outil de développement qui s’intègre aux IDEs

Parallèlement à ces deux modèles, Anthropic généralise l’accès à Claude Code, son outil en ligne de commande dédié aux développeurs. Il permet de piloter Claude depuis un terminal pour des tâches ciblées comme la correction de code, la réponse à des feedbacks sur GitHub, ou encore l’intégration dans un pipeline CI/CD.

Le SDK Claude Code permet même d’intégrer directement l’IA dans des applications tierces, tandis que des extensions sont déjà disponibles pour VS Code, JetBrains et GitHub. Cette flexibilité permet à Claude d’agir comme un véritable assistant de développement intelligent, capable d’analyser, corriger ou générer du code de manière contextualisée.

Anthropic ne cache pas que ses modèles ne sont pas encore parfaits pour générer du code sans erreurs. Comme toutes les IA génératives, ils peuvent introduire des vulnérabilités ou ne pas toujours comprendre parfaitement la logique attendue. Néanmoins, leur gain de productivité est suffisamment significatif pour séduire de nombreux développeurs.

Sécurité, mémoire et autonomie : des modèles taillés pour durer

Les modèles Claude 4 sont qualifiés par Anthropic de « hybrides », capables de combiner réponses instantanées et raisonnement plus long lorsque nécessaire. Cette flexibilité s’accompagne d’une gestion améliorée de la mémoire : Claude peut désormais retenir des faits extraits de conversations précédentes pour mieux gérer les tâches à long terme.

Concernant la sécurité, Claude Opus 4 est lancé avec des garde-fous renforcés. Il a été évalué au niveau ASL-3 dans l’échelle de sécurité d’Anthropic, indiquant qu’il pourrait significativement aider une personne avec une formation scientifique à accéder à des connaissances sensibles. Pour pallier ce risque, Anthropic intègre désormais des détecteurs de contenu dangereux renforcés et des protections cybersécurité avancées.

Tarification, disponibilité et intégration cloud

Claude Sonnet 4 est dès maintenant accessible gratuitement sur le site de Claude.ai. En revanche, Claude Opus 4 est réservé aux utilisateurs payants. Ces deux modèles sont également disponibles via l’API Anthropic, Amazon Bedrock et Google Cloud Vertex AI.

Le modèle Claude Opus 4 est facturé 15 dollars pour un million de tokens en entrée et 75 dollars pour la sortie, tandis que Sonnet 4 coûte 3 dollars et 15 dollars respectivement. Un million de tokens correspond à environ 750 000 mots, ce qui équivaut à plusieurs romans.

Anthropic prévoit par ailleurs des mises à jour plus fréquentes de ses modèles, une stratégie destinée à suivre le rythme effréné de l’innovation imposée par OpenAI, Google et Meta.

Claude 4, une IA résolument tournée vers l’avenir

Avec Claude Opus 4 et Sonnet 4, Anthropic montre qu’elle entend jouer dans la cour des grands. La société ne se contente plus d’être un outsider, elle entend bien dominer le segment du codage assisté par IA tout en proposant des assistants plus sûrs, plus stables et plus fiables.

Le positionnement hybride, la puissance de calcul, la gestion de la mémoire et l’intégration aux environnements de développement font de cette nouvelle génération une solution très attractive pour les développeurs, les chercheurs, les startups et les entreprises en quête d’outils IA de nouvelle génération.

Lire plus

Intelligence Artificielle

Google I/O 2025 : Google SynthID Detector, l’outil pour démasquer les contenus IA (enfin) !

par Yohann Poiron le 22 mai 2025

Alors que les contenus générés par l’intelligence artificielle deviennent de plus en plus difficiles à distinguer des créations humaines, Google vient de dévoiler une réponse concrète : SynthID Detector. Annoncé lors de la Google I/O 2025, cet outil marque une nouvelle étape dans la traçabilité et la transparence des contenus issus de ses modèles IA.

Développé par Google DeepMind, SynthID Detector se positionne comme un portail de vérification qui permet à n’importe qui de vérifier si un texte, une image, un fichier audio ou vidéo a été généré à l’aide des modèles d’IA de Google, comme Gemini, Imagen, Veo ou encore Lyria.

L’ingénieur Pushmeet Kohli, à l’origine du projet, explique : « SynthID Detector peut identifier rapidement et efficacement les contenus générés avec les outils IA de Google. Il met également en évidence les zones du contenu où le filigrane SynthID est le plus susceptible d’être présent ».

Comment fonctionne SynthID Detector ?

Le principe est simple mais puissant. Lorsque vous chargez un fichier (image, audio, vidéo ou texte) sur le portail, celui-ci va le scanner à la recherche d’un filigrane numérique SynthID.

Selon le type de contenu, l’outil affiche :

Des segments audio spécifiques où la signature est détectée.
Des zones précises sur les images où le filigrane est probablement présent.
Des passages textuels susceptibles d’avoir été générés par l’IA.
Des plans vidéo marqués par l’empreinte SynthID.

SynthID ne se limite donc pas à dire si un contenu est généré par IA, il identifie précisément les portions concernées, ce qui peut être extrêmement utile pour les journalistes, chercheurs, plateformes de contenu et responsables de modération.

Un déploiement progressif, mais une ambition globale

Pour l’instant, l’accès à SynthID Detector est réservé à une cohorte restreinte de testeurs professionnels. Google a également mis en place une liste d’attente pour les utilisateurs qui souhaitent accéder à l’outil en avant-première.

L’objectif est de collecter des retours d’expérience, affiner les performances et renforcer la fiabilité du système avant un déploiement plus large. « Nous voulons apprendre de cette première vague d’utilisateurs pour étendre la transparence des contenus de manière plus large et responsable », précise Pushmeet Kohli.

Un enjeu crucial pour l’avenir de la vérification numérique

À l’heure où les contenus générés par IA deviennent omniprésents — images de fausses personnalités politiques, deepfakes audio, textes promotionnels automatisés — la question de l’origine des contenus devient centrale.

SynthID se veut un garde-fou éthique dans l’univers de l’intelligence artificielle. Rappelons que le watermark SynthID est déjà intégré nativement aux contenus produits via les modèles IA de Google, ce qui en fait une solution de bout en bout : création, marquage et détection.

Avec SynthID Detector, Google répond à l’un des défis majeurs de notre époque : distinguer l’humain de la machine dans un océan de données numériques. Ce nouvel outil, encore en phase de test, pourrait devenir un standard dans la régulation et la vérification des contenus IA à l’échelle mondiale.

Lire plus

Intelligence Artificielle

OpenAI et Jony Ive préparent un objet IA sans interface qui ne sera pas un wearable !

par Yohann Poiron le 22 mai 2025

OpenAI, déjà au cœur de la révolution de l’intelligence artificielle générative avec ChatGPT, s’apprête à franchir une nouvelle étape. Selon un rapport exclusif du Wall Street Journal, Sam Altman, PDG d’OpenAI, a récemment annoncé à ses équipes que leur prochain grand produit ne sera pas un wearable, mais un dispositif compact et sans écran, pensé pour s’intégrer discrètement dans notre quotidien.

Oubliez les lunettes connectées ou les montres intelligentes. Le futur selon OpenAI prend la forme d’un appareil de poche ou de bureau, dépourvu d’écran, mais capable de percevoir son environnement. Sam Altman décrit ce nouvel objet comme un « troisième appareil fondamental », aux côtés de l’ordinateur portable et du smartphone.

L’ambition est claire : créer un compagnon IA, présent en permanence à vos côtés, capable de vous comprendre, vous écouter, observer votre environnement et vous assister intelligemment, sans nécessiter une interface tactile ou visuelle traditionnelle.

L’acquisition de io et le retour de Jony Ive

Cette vision s’inscrit dans un contexte stratégique fort : OpenAI vient de confirmer l’acquisition de io, la startup fondée par Jony Ive, l’emblématique designer derrière l’iPhone, l’iPad ou encore l’Apple Watch. L’accord, d’une valeur de 6,5 milliards de dollars en actions, marque le début d’une collaboration majeure entre l’IA et le design industriel.

Jony Ive ne rejoint pas OpenAI directement, mais son studio LoveFrom prendra en charge la conception de tous les produits, y compris logiciels, de la firme. Il sera appuyé par une cinquantaine d’ingénieurs et designers de haut niveau issus de son ancienne équipe chez Apple, dont Scott Cannon, Evans Hankey et Tang Tan.

Un projet ultra confidentiel, avec de grandes ambitions

Selon les propos d’Altman relayés par le WSJ, ce projet est hautement confidentiel, afin d’éviter toute copie avant son lancement. Il aurait affirmé que ce produit pourrait générer à lui seul plus de 1 000 milliards de dollars de valeur pour OpenAI, en créant une nouvelle catégorie technologique encore inexistante sur le marché.

Le premier prototype serait déjà fonctionnel et Altman aurait confié qu’il s’agit de « la technologie la plus impressionnante qu’il ait utilisée ». Ive, de son côté, voit ce projet comme l’aboutissement de 30 ans d’expérience dans le design de produits technologiques.

Quelles fonctions pour ce « compagnon IA » ?

Si peu d’informations techniques ont filtré, ce dispositif sans écran pourrait embarquer :

Des capteurs audio et visuels pour analyser l’environnement en temps réel.
Une intelligence contextuelle via les modèles GPT.
Une intégration vocale fluide, à la manière d’un assistant omniprésent.
Un design minimaliste, élégant, pensé pour s’intégrer dans la vie quotidienne sans distraction.

« Il ne s’agit pas de remplacer l’iPhone ou l’ordinateur, mais de créer un nouveau genre de produit, au croisement de l’intelligence artificielle, du design et de l’utilité quotidienne », précise Altman.

Une nouvelle ère post-smartphone en gestation ?

Avec ce projet, OpenAI et Jony Ive ambitionnent de refaçonner notre rapport à la technologie, en s’éloignant des écrans et des interfaces saturées, pour proposer une interaction plus naturelle, fluide et invisible avec l’intelligence artificielle.

Alors que de nombreux concurrents comme Humane ou Rabbit peinent à convaincre avec des appareils innovants mais bancals, OpenAI mise sur une approche centrée sur la sobriété, l’élégance et la puissance de l’IA embarquée.

Le premier appareil issu de cette collaboration est prévu pour 2026. En attendant, un seul mot d’ordre : discrétion absolue. Et peut-être, un futur déjà en marche vers une nouvelle ère post-smartphone.

Lire plus

Intelligence Artificielle

Sam Altman et Jony Ive s’unissent : Un produit IA révolutionnaire en 2026 ?

par Yohann Poiron le 22 mai 2025

C’est désormais officiel : OpenAI a acquis la startup « io », fondée par Jony Ive, l’ancien chef du design d’Apple, et plusieurs de ses anciens collaborateurs emblématiques, comme Scott Cannon, Evans Hankey et Tang Tan. Une opération stratégique qui mêle excellence industrielle et ambitions IA, pour une valeur estimée à 6,5 milliards de dollars, selon Bloomberg.

De LoveFrom à OpenAI : une synergie de talents

Même si Jony Ive ne rejoint pas OpenAI en tant qu’employé, son cabinet LoveFrom prendra en charge le design de tous les produits OpenAI, y compris les interfaces logicielles, dans le cadre de ce partenariat unique. L’entreprise « io », jusqu’ici indépendante, va fusionner avec OpenAI, intégrant près de 55 experts en hardware, software et fabrication.

« AI est une technologie incroyable, mais de bons outils exigent une rencontre entre technologie, design, compréhension des gens et du monde. Personne ne sait faire ça comme Jony et son équipe », a déclaré Sam Altman, PDG d’OpenAI.

Les premiers appareils issus de cette collaboration sont attendus en 2026, et Sam Altman promet déjà une véritable rupture avec ce qui existe sur le marché. Il précise toutefois que ce ne sera pas un « iPhone killer », mais plutôt une nouvelle catégorie d’appareil, avec un usage inédit :

« De la même manière que le smartphone n’a pas supprimé l’ordinateur portable, notre premier produit ne remplacera pas le téléphone. C’est un tout nouveau type d’objet ».

D’après les échanges avec le Wall Street Journal, des idées comme des écouteurs intelligents ou des appareils dotés de caméras contextuelles ont été envisagées. Le prototype actuel aurait captivé l’imagination de l’équipe, à tel point qu’Altman le qualifie de : « L’objet technologique le plus cool que le monde ait jamais vu ».

Pas un gadget, mais une vraie vision produit

Dans un tacle discret aux tentatives récentes du marché, Jony Ive critique ouvertement les appareils comme le Humane AI Pin ou le Rabbit R1, les qualifiant de : « Produits très pauvres sans réelle réflexion nouvelle ».

Ce projet, à l’inverse, se base sur des années de collaboration étroite entre les meilleurs talents du secteur. L’équipe est composée de physiciens, ingénieurs, designers, chercheurs et vétérans de l’industrie tech. « C’est probablement la technologie la plus incroyable de notre carrière », a déclaré Evans Hankey, ex-Apple.

Un moment charnière pour le futur du design technologique

Jony Ive affirme ressentir que tout ce qu’il a appris en 30 ans l’a préparé à cette mission. Il décrit ce projet comme un aboutissement, mais aussi comme un immense défi, à la hauteur de ses convictions sur ce que la technologie doit apporter à l’humanité : « Nous sommes littéralement à l’aube d’une nouvelle génération de technologie qui peut nous rendre meilleurs ».

L’acquisition d’io et l’implication directe de LoveFrom dans les projets OpenAI marquent un changement stratégique majeur. L’IA ne sera plus seulement un service en ligne, mais une expérience incarnée dans le monde physique, grâce à des objets conçus avec soin, sobriété et intelligence.

Ce projet ne vise pas à faire « plus », mais à faire mieux : repenser les usages, simplifier l’interaction homme-machine, et créer une nouvelle forme de compagnon technologique au service de notre quotidien.

Lire plus

Intelligence Artificielle

Google I/O 2025 : Gemini explose les frontières de l’IA (et de votre quotidien) !

par Yohann Poiron le 21 mai 2025

À l’occasion de Google I/O 2025, Gemini ne se contente plus d’être un simple chatbot. L’assistant basé sur l’IA de Google s’impose désormais comme un hub central pour la créativité, la productivité, la recherche et l’interaction avec l’ensemble des services Google.

Voici un tour complet des nouveautés les plus marquantes.

Gemini Live devient gratuit sur Android et iOS

Grande nouvelle : Gemini Live est désormais accessible gratuitement sur mobile. Cette fonctionnalité permet de partager l’écran ou utiliser la caméra du smartphone pour montrer une problématique en temps réel, au lieu de la décrire par texte.

Google note que les utilisateurs passent 5 fois plus de temps sur Gemini Live que sur la version textuelle. Et ce n’est qu’un début : dans les semaines à venir, l’assistant pourra interagir directement avec Google Calendar, Maps ou encore Keep, pour planifier un rendez-vous, vérifier une adresse ou prendre une note sans changer d’application.

Recherche avancée et créativité boostée : Deep Research et Canvas

Le moteur d’analyse Deep Research devient plus intelligent. Vous pouvez désormais téléverser des fichiers PDF ou des images pour que Gemini croise vos données personnelles avec des sources fiables du Web. Une intégration avec Google Drive et Gmail est également en préparation.

Quant à Canvas, l’espace créatif de l’application Gemini, il prend en charge des projets encore plus ambitieux : création de sites web et d’applications via description, génération de quizz interactifs, infographies, ou encore de contenus audio dans plus de 45 langues.

Imagen 4 et Veo 3 : la création visuelle entre dans une nouvelle ère

Du côté artistique, Imagen 4 est le nouveau modèle de génération d’images de Google. Plus précis, il gère mieux les détails fins comme le rendu du texte, et se montre idéal pour créer des visuels de présentations, publications sociales ou invitations. Il est accessible dès maintenant dans l’app Gemini.

Mais c’est Veo 3 qui marque une rupture. Il est capable de générer des vidéos entières, avec sons de fond, effets sonores et dialogues pour les personnages. Cette fonctionnalité est réservée aux abonnés américains du plan Google AI Ultra.

Gemini débarque dans Google Chrome

À partir de cette semaine, Gemini est intégré à Chrome sur Windows et macOS pour les abonnés Pro et Ultra. L’IA pourra résumer des pages web, expliquer du contenu, ou comparer des produits directement depuis votre navigateur. Cette fonction devrait évoluer prochainement pour permettre à Gemini de naviguer entre plusieurs onglets.

Un assistant éducatif personnalisé pour les étudiants

Dans un virage très prometteur pour l’éducation, Gemini propose désormais des quizz interactifs qui s’adaptent au niveau de l’élève, en analysant ses lacunes et en proposant des questions ciblées.

Bonne nouvelle : les étudiants universitaires aux États-Unis et au Royaume-Uni pourront accéder à Gemini Pro gratuitement pendant l’année scolaire.

Deux nouvelles formules d’abonnement : AI Pro et AI Ultra

Google introduit deux plans d’abonnement pour répondre à différents profils d’utilisateurs :

Google AI Pro – 19,99 dollars/mois : Accès à des outils avancés comme Flow, NotebookLM, et une utilisation élargie des fonctionnalités IA.
Google AI Ultra – 249,99 dollars/mois : Pour les professionnels exigeants : accès anticipé aux modèles IA les plus puissants (Veo 3, Deep Think), fonctionnalités expérimentales comme Agent Mode, 30 To de stockage Google et YouTube Premium inclus.

Gemini s’impose comme la colonne vertébrale de l’écosystème Google

Avec cette refonte, Gemini n’est plus un chatbot parmi d’autres. Il devient un véritable assistant numérique universel, intégré à l’ensemble de l’expérience Google : que ce soit pour créer, apprendre, travailler, naviguer ou automatiser des tâches.

Et ce n’est qu’un début : des services comme Project Mariner, Stitch UI, Beam, ou encore Search Live montrent à quel point Google parie sur une expérience conversationnelle intégrée et proactive.

Gemini entre dans une nouvelle dimension

Avec toutes ces nouveautés, Google ne fait pas qu’améliorer son assistant : il redéfinit la place de l’IA dans notre quotidien numérique. Gemini devient le moteur central de l’expérience Google, capable de répondre, comprendre, voir, écouter… et surtout, agir à votre place.

Une révolution en marche, à suivre de très près.

Lire plus

Intelligence Artificielle

Google I/O 2025 : Project Mariner va révolutionner votre façon de surfer !

par Yohann Poiron le 21 mai 2025

Lors de la conférence Google I/O 2025, le géant de Mountain View a officialisé le déploiement élargi de Project Mariner, son agent IA capable de naviguer sur le web et d’interagir avec des sites à la place de l’utilisateur. Une mise à jour majeure qui marque un tournant dans la manière dont nous pourrions bientôt utiliser internet.

Project Mariner: un assistant Web multitâche

Initialement présenté fin 2024, Project Mariner permet à un utilisateur de déléguer des actions entières à une IA, sans jamais avoir à se rendre manuellement sur un site. Acheter des billets de concert, réserver une table, faire les courses en ligne : autant de tâches que Mariner peut gérer de bout en bout, uniquement via une conversation.

Jusqu’ici limité à un petit groupe de testeurs, Mariner s’ouvre désormais aux abonnés américains du nouveau forfait Google AI Ultra, proposé à 249,99 dollars/mois. Ce plan premium offre également l’accès aux dernières capacités de l’IA Gemini et à d’autres outils expérimentaux.

Mais surtout, Google annonce que Project Mariner fonctionne désormais dans le cloud, via des machines virtuelles. Cette amélioration technique majeure permet à l’agent de :

Traiter jusqu’à 10 tâches simultanément
Travailler en arrière-plan, pendant que l’utilisateur fait autre chose
Réduire l’impact sur les performances locales de l’appareil

Un changement essentiel, car dans sa version initiale, l’agent opérait directement dans le navigateur de l’utilisateur, rendant toute autre activité impossible pendant son exécution.

Une intégration poussée dans l’écosystème Google

Google ne se contente pas de rendre Mariner plus performant : le géant l’intègre plus profondément dans son écosystème IA. L’agent devient ainsi accessible via :

Gemini API : pour permettre aux développeurs de créer leurs propres services propulsés par Mariner
Vertex AI : la plateforme cloud IA de Google destinée aux entreprises
AI Mode (Search Labs) : une version expérimentale de la recherche Google boostée à l’IA, où Mariner pourra exécuter des actions en direct

Google travaille déjà avec des partenaires comme Ticketmaster, StubHub, Resy ou Vagaro pour permettre à Mariner de gérer des tâches spécifiques sur leurs plateformes.

Agent Mode : l’étape suivante vers la navigation automatisée

En parallèle, Google a présenté un nouveau mode appelé « Agent Mode ». Ce dernier combine la navigation sur le Web, la recherche contextuelle et des intégrations avec les applications Google. Une approche hybride, entre navigateur classique et agent intelligent.

Ce mode sera disponible en avant-première pour les abonnés AI Ultra, sur desktop dans un premier temps.

Une guerre des agents IA en pleine ébullition

Project Mariner entre en concurrence directe avec d’autres projets similaires chez les géants du secteur :

Operator (OpenAI)
Nova Act (Amazon)
Computer Use (Anthropic)

Ces agents visent tous à remplacer la navigation manuelle par des interactions naturelles avec une IA. Toutefois, la plupart sont encore en phase expérimentale et souffrent de lenteurs, d’erreurs et d’un manque de fiabilité. Google affirme avoir pris en compte ces faiblesses pour améliorer Mariner.

Vers un futur « agentique » du Web ?

Avec Project Mariner, Google donne un avant-goût du futur de la navigation Internet. Un futur où :

On ne tape plus une requête sur Google, on commande une action à une IA.
Les sites ne sont plus visités par les utilisateurs, mais par des agents IA en leur nom.
Le rôle de l’interface utilisateur sur les sites s’amenuise, au profit d’APIs dédiées aux agents.

« Nous assistons à une bascule dans l’expérience utilisateur sur le Web », annoncent les responsables de la Search Team chez Google. « Les gens n’auront plus besoin de visiter un site pour accomplir une tâche. Ils parleront à une IA ».

En associant autonomie, fluidité et intégration, Project Mariner incarne la vision la plus aboutie du « web agentique » portée par Google. Il ne s’agit plus simplement de chercher une information, mais de confier une intention à une intelligence artificielle, capable d’agir dans un environnement numérique à votre place.

Entre Project Mariner, AI Mode, Agent Mode, et l’intégration dans l’écosystème Gemini/Vertex, Google semble déterminé à transformer en profondeur notre rapport au web. Une révolution à suivre de très près — pour les utilisateurs comme pour les éditeurs de sites.

Lire plus

Intelligence Artificielle

Google I/O 2025 : Gemini 2.5 Pro, le mode « Deep Think » va-t-il révolutionner le raisonnement IA ?

par Yohann Poiron le 21 mai 2025

Google introduit lors de la Google I/O 2025 un nouveau mode « Deep Think » pour Gemini 2.5 Pro, destiné aux tâches complexes nécessitant un raisonnement approfondi. Ce mode utilise des techniques de recherche inédites permettant au modèle de formuler plusieurs hypothèses avant de générer une réponse.

Performances notables :

USAMO 2025 (test mathématique avancé) :
- Gemini 2.5 Pro Deep Think : 49,4 %
- Gemini 2.5 Pro standard : 34,5 %
Sur les benchmarks LiveCodeBench (codage) et MMMU (raisonnement multimodal), Deep Think surpasse non seulement son propre modèle de base, mais aussi l’o3 d’OpenAI.

Actuellement en test auprès de partenaires de confiance, ce mode sera déployé à plus grande échelle dans les mois à venir.

Gemini 2.5 Flash : plus rapide, plus intelligent et plus économique

Autre nouveauté de taille : une version améliorée de Gemini 2.5 Flash, le modèle léger et économique conçu pour les déploiements rapides.

Performances :

Score ELOsur le classement LMArena :
- Gemini 2.5 Pro : 1446
- Gemini 2.5 Flash : 1424
Le modèle Flash rivalise donc presque avec la version Pro, tout en étant plus léger.

Nouveautés clés :

Résumé des raisonnements intégrés (« thought summaries »), pour plus de transparence dans la prise de décision du modèle.
Mode audio natif intégré : le modèle peut répondre avec différentes voix, et en audio directement via l’API Gemini.
Gestion de budget cognitif : possibilité de fixer un “budget de réflexion”, idéal pour maîtriser les coûts dans un contexte de production.
Efficacité énergétique améliorée de 22 %, et réduction de la consommation de tokens, pour un meilleur rapport performance/prix.

Disponibilité :

Disponible en preview dès maintenant via : L’application Gemini, Google AI Studio et Vertex AI
Le lancement général est prévu pour début juin 2025.

Pourquoi c’est important ?

Avec Deep Think, Google renforce sa position dans le segment des modèles à raisonnement complexe, tandis que Flash devient une alternative crédible aux modèles haut de gamme avec un rapport coût/performance très compétitif.

Cette double stratégie — un modèle premium pour les cas critiques, et un modèle Flash optimisé pour le coût — montre que Google s’adapte autant aux grands acteurs qu’aux développeurs individuels et startups.

Lire plus

Intelligence Artificielle

OpenAI lance Codex : L’IA qui va coder à votre place (enfin presque) !

par Yohann Poiron le 20 mai 2025

OpenAI vient de lever le voile sur Codex, son tout nouvel agent d’intelligence artificielle dédié au développement logiciel, conçu pour automatiser des tâches de codage complexes dans un environnement cloud sécurisé. Cette annonce intervient peu de temps après des rumeurs d’acquisition de Windsurf, une startup montante spécialisée dans les outils IA pour développeurs.

Alors que certains s’attendaient à un rachat, OpenAI a surpris tout le monde en lançant sa propre alternative, marquant clairement son ambition de construire plutôt que d’acheter.

De modèle de complétion à agent autonome cloud : la métamorphose de Codex

Le Codex d’origine, lancé en 2021, était un simple modèle de complétion de code basé sur des milliards de lignes de code open source. Il a servi de moteur à GitHub Copilot, avant que ce dernier ne bascule vers GPT-4 en mars 2023. À l’époque, le modèle Codex souffrait de plusieurs limites : erreurs de syntaxe fréquentes, suggestions de code peu sécurisées, biais, et manque de fiabilité fonctionnelle.

Aujourd’hui, Codex renaît en tant que véritable agent autonome d’ingénierie logicielle, capable de :

Ajouter de nouvelles fonctionnalités à un dépôt GitHub.
Corriger des bugs.
Répondre à des questions contextuelles sur une base de code.
Générer des pull requests.
Lancer et valider des tests.

Le tout, de façon parallèle et sécurisée, depuis une interface latérale intégrée dans ChatGPT.

Codex -1 : un modèle entraîné pour imiter les développeurs humains

Le nouveau modèle Codex-1 est une version spécialisée du modèle o3, optimisée pour les workflows réels de développement grâce à un entraînement en reinforcement learning sur des tâches de développement internes. Résultat : 75 % de précision sur les tâches internes d’OpenAI, surpassant même le très performant o3-high.

Les utilisateurs peuvent configurer leur projet à l’aide d’un fichier AGENTS.md pour guider Codex sur les conventions de code, les tests à exécuter ou les structures du dépôt. Le modèle a même été entraîné à reconnaître les styles de code comme l’usage de virgules Oxford, soulignant l’importance accordée à la lisibilité du code autant qu’à sa validité.

Une architecture sécurisée et isolée

Codex fonctionne dans un environnement cloud isolé sans accès à Internet, garantissant la sécurité des données. Il s’appuie uniquement sur les fichiers et dépendances fournis par l’utilisateur, sans communication avec des API ou services externes.

« C’est bien plus qu’un simple modèle d’API », déclare Alexander Embiricos, responsable de l’équipe Desktop & Agents d’OpenAI. « C’est un agent logiciel à part entière, capable de travailler en autonomie avec son propre ordinateur cloudisé, tout en assurant une revue humaine de chaque modification proposée ».

Nouveautés et interface fluide pour équipes tech

L’agent Codex se manipule depuis la barre latérale de ChatGPT, où l’on peut soumettre des requêtes ou des tâches à réaliser. Chaque action est consignée, les résultats des tests sont fournis, et les modifications sont résumées pour faciliter la revue du code.

OpenAI pense déjà au futur : intégration poussée avec GitHub, ChatGPT Desktop, outils CI/CD et systèmes de tickets, pour faire de Codex le noyau de l’environnement de travail des développeurs modernes.

Trini, ingénieur lead sur le projet, résume l’ambition de l’équipe : « C’est une transformation radicale de la manière dont les développeurs interagissent avec l’IA. On passe d’un assistant ponctuel à un véritable partenaire de travail ».

Codex contre Windsurf : partenariat ou bras de fer ?

Juste avant ce lancement, plusieurs sources rapportaient que OpenAI préparait un rachat de Windsurf pour 3 milliards de dollars. Pourtant, aucune confirmation officielle n’a été apportée. En parallèle, Windsurf annonçait ses propres modèles SWE-1, conçus pour couvrir tout le cycle de vie du développement logiciel, marquant un changement de cap stratégique.

Le timing soulève des questions : OpenAI a-t-il lancé Codex en « research preview » pour faire pression sur Windsurf ?

Tarification et disponibilité

Codex est gratuit pendant sa phase de lancement, avec des limites d’usage. Ensuite, le modèle sera facturé à :

1,50 dollar/million de tokens d’entrée,
6 dollars/million de tokens de sortie,
Avec une réduction de 75 % via système de cache.

Codex est d’ores et déjà disponible pour les utilisateurs ChatGPT Pro, Team et Enterprise, et arrivera bientôt pour les comptes Plus et Edu.

Une IA pour les développeurs… et plus encore

Codex n’est pas réservé aux développeurs seniors. Les équipes produit s’en servent déjà pour suggérer ou valider des changements sans toujours passer par un développeur humain. OpenAI le positionne donc comme un outil transversal, capable d’augmenter la productivité à tous les niveaux d’une équipe tech.

Avec Codex, OpenAI entame un nouveau chapitre dans la démocratisation du développement assisté par IA. Plus qu’un simple assistant, Codex devient un collaborateur virtuel, capable de prendre en charge de véritables projets de développement de bout en bout.

Qu’OpenAI rachète ou non Windsurf ou Cursor, une chose est sûre : Codex est là pour rester, et l’entreprise mise sur ses propres agents pour redéfinir le futur de la programmation.

Lire plus

Intelligence Artificielle

Build 2025 : Microsoft Azure accueille Grok, OpenAI, attention danger ?

par Yohann Poiron le 20 mai 2025

Lors de la conférence Microsoft Build 2025, la firme de Redmond a officialisé une annonce qui risque de faire beaucoup de bruit dans le petit monde de l’IA : les modèles Grok 3 et Grok 3 mini de xAI sont désormais hébergés sur Azure AI Foundry.

Un tournant stratégique qui pourrait raviver les tensions… y compris avec son partenaire historique OpenAI.

Grok arrive sur Azure : Nadella accélère sur l’IA

C’est désormais confirmé : Grok est disponible avec toutes les garanties professionnelles habituelles (SLA), facturé directement par Microsoft, et exploitable via Azure AI Foundry, la plateforme maison qui héberge déjà des modèles comme GPT-4, Llama 3 ou Mistral 7B.

Ce n’est pas un hasard si Microsoft pousse ce modèle maintenant. Selon des sources internes, Satya Nadella aurait personnellement poussé pour l’intégration rapide de Grok, tout comme il l’avait fait pour DeepSeek R1 quelques mois plus tôt.

L’objectif est clair : faire d’Azure la plateforme incontournable pour héberger les modèles IA populaires, quels que soient leurs créateurs.

Un modèle controversé… accueilli à bras ouverts ?

Ce choix n’est pas sans risques. Grok, développé par la startup xAI d’Elon Musk, a récemment fait la une pour des raisons très discutables. Il y a quelques jours à peine, le modèle s’est mis à valider les théories de « génocide blanc » en Afrique du Sud. xAI a plaidé la « modification non autorisée » du code. Plus tôt dans l’année, une autre dérive avait été attribuée à un ex-employé d’OpenAI, accusé d’avoir manipulé Grok pour qu’il ignore toute source accusant Musk ou Trump de désinformation.

Grok s’est également illustré pour son langage volontairement cru et provocateur, bien loin du ton modéré de ChatGPT ou Claude. Une image qu’Elon Musk assume, vantant un chatbot « anti-woke » et sans filtre. Une stratégie marketing risquée, mais qui séduit un certain public.

Microsoft prend des risques… même vis-à-vis d’OpenAI

Cette décision de Microsoft intervient alors que les relations avec OpenAI sont de plus en plus tendues. Le PDG de la startup, Sam Altman, n’a pas tardé à tourner en dérision Grok sur X la semaine dernière. Rappelons que Musk et OpenAI sont engagés dans une bataille judiciaire depuis plusieurs mois, le premier accusant l’entreprise d’avoir trahi ses principes fondateurs, tandis qu’OpenAI l’accuse de « tactiques de mauvaise foi » pour freiner ses avancées.

Dans ce contexte, l’intégration de Grok par Microsoft apparaît comme un acte d’indépendance, voire de défi vis-à-vis d’OpenAI. Cela renforce aussi la position de Microsoft comme acteur neutre et multisources dans l’hébergement de modèles LLM — une stratégie qui séduit de plus en plus d’entreprises en quête de flexibilité.

Azure AI Foundry devient la « place de marché » de l’IA

En intégrant Grok, Microsoft continue de faire d’Azure AI Foundry une plateforme incontournable, capable d’héberger des modèles issus de laboratoires très variés :

GPT-4/GPT-4o (OpenAI)
Llama 3 (Meta)
Claude (Anthropic)
Mistral, Mixtral
DeepSeek R1
Et désormais, Grok 3/Grok 3 Mini (xAI)

Ce modèle d’ouverture rappelle ce que Microsoft a fait avec Windows dans les années 90 : dominer l’infrastructure pour héberger tous les outils — même ceux des rivaux.

Pragmatisme ou provocation calculée ?

L’intégration de Grok dans Azure ne manque pas de soulever des questions : Microsoft est-il en train de désavouer son partenariat avec OpenAI ? Ou tout simplement de se positionner comme l’infrastructure incontournable de l’IA moderne, au-delà des alliances ponctuelles ?

Quoi qu’il en soit, Microsoft mise sur un principe simple : héberger tous les modèles qui comptent, quels que soient leur style ou leur créateur. Une stratégie audacieuse, qui pourrait bien redéfinir l’équilibre des forces dans l’IA d’entreprise.

Et vous, que pensez-vous de cette ouverture de Microsoft à des modèles aussi controversés que Grok ? Gage de neutralité ou prise de risque démesurée ? Dites-le-nous en commentaire !

Lire plus

Intelligence Artificielle

ChatGPT : Quel modèle IA choisir selon vos besoins ? Le guide ultime !

par Yohann Poiron le 19 mai 2025

Depuis ses débuts, OpenAI n’a cessé d’étoffer ChatGPT avec de nouveaux modèles d’intelligence artificielle. On y retrouve aujourd’hui un large éventail de modèles allant des LLM classiques (série GPT) aux modèles dits raisonnants comme la série « o ».

Mais entre GPT-4o, o3, GPT-4.5 ou encore o4-mini, il peut être difficile de s’y retrouver. Alors quel modèle ChatGPT utiliser selon votre cas d’usage ? Voici un guide complet et mis à jour.

Modèle o3 : le plus intelligent et logique

Le modèle o3 est le modèle de raisonnement le plus avancé d’OpenAI. Réservé aux abonnés ChatGPT Plus, il excelle dans les domaines techniques : mathématiques, physique, codage, sciences et tâches de perception visuelle.

C’est un modèle multimodal : il comprend non seulement du texte, mais aussi des images, graphiques, schémas. Il est même capable de déduire une localisation à partir d’une photo. En tant que modèle dit agentique, il peut utiliser tous les outils intégrés à ChatGPT comme l’analyse de fichiers, la génération d’images, le web, Python, etc.

À utiliser si : vous avez des questions complexes en STEM (Science, Technologie, Ingénierie, Mathématiques) ou des images à analyser.

GPT-4o : le modèle polyvalent et par défaut

Le GPT-4o (où le « o » signifie omnimodal) est désormais le modèle par défaut de ChatGPT, accessible aux utilisateurs gratuits et payants.

C’est le meilleur pour la conversation naturelle, la rédaction créative, les résumés, les traductions, et les requêtes classiques. Il est également multimodal et propulse de nombreuses fonctionnalités comme :

La génération d’images,
L’analyse de documents,
Le mode vocal avancé,
Le partage d’écran en direct (Live Video).

Une fois la limite de GPT-4o atteinte sur un compte gratuit, les requêtes sont transférées vers une version allégée nommée GPT-4o mini.

À utiliser si : vous cherchez un assistant polyvalent pour écrire, discuter, traduire, résumer ou créer du contenu multimédia.

GPT-4.5 : créativité au sommet

Encore en aperçu de recherche, GPT-4.5 est réservé aux abonnés payants. C’est un modèle non raisonnant, mais extrêmement performant pour la création de contenu, l’écriture fluide et les idées originales.

Il est réputé pour son quotient émotionnel élevé (EQ), rendant les interactions plus humaines, empathiques et parfois même amusantes.

À utiliser si : vous avez besoin de textes créatifs, naturels, voire humoristiques, ou que vous souhaitez coder avec style.

o4-mini : la nouvelle référence pour la logique

Le modèle o4-mini est la version allégée et rapide du modèle o3, disponible gratuitement. Malgré sa taille réduite, il surpasse parfois le o3 dans des domaines comme la programmation et les mathématiques.

C’est aussi un modèle visuel performant. Pour les utilisateurs gratuits, il est accessible via le bouton « Pensée prolongée » sur ChatGPT.

À utiliser si : vous êtes un utilisateur gratuit ou avez besoin d’un raisonnement rapide et efficace.

GPT-4.1 : pensé pour les développeurs

Récemment ajouté à ChatGPT, GPT-4.1 est spécialement conçu pour les développeurs. Il gère un million de tokens en contexte, ce qui en fait un excellent choix pour des projets de code longs et complexes.

Avec une compréhension améliorée des instructions, il est plus rapide et moins cher que GPT-4o pour les tâches de codage.

À utiliser si : vous travaillez sur des projets techniques avec de longs contextes (code, documentation, etc.).

o1 pro : puissance maximale pour les Pro

Disponible uniquement dans l’abonnement ChatGPT Pro (200 dollars/mois), le mode o1 pro utilise plus de ressources de calcul et du temps de traitement étendu pour résoudre des problèmes très complexes.

Il s’agit davantage d’un mode haute performance que d’un modèle autonome. OpenAI prépare un mode o3 pro pour le remplacer à terme.

À utiliser si : vous êtes un professionnel avec des calculs lourds ou un usage intensif.

Codex-1 : l’agent ultime pour les développeurs

Codex-1 est le modèle de programmation nouvelle génération d’OpenAI, basé sur le modèle o3. Il est entraîné par renforcement sur des tâches de code réelles et peut :

Générer du code propre,
Ajouter des fonctionnalités,
Écrire et valider des tests,
Proposer des pull requests de qualité.

Ce modèle n’est pas accessible directement dans les discussions, mais disponible via la barre latérale ChatGPT, pour les abonnés Pro et Plus.

À utiliser si : vous développez régulièrement et avez besoin d’un assistant de programmation avancé.

En résumé : quel modèle pour quel usage ?

Usage	Modèle recommandé
✍️ Rédaction & conversation	GPT-4o
📚 STEM, mathématiques, science	o3 ou o4-mini
🧠 Créativité, émotion, style	GPT-4.5
🧑‍💻 Développement avancé	GPT-4.1 ou Codex-1
🔬 Analyse d’image & visualisation	GPT-4o ou o3
🏆 Performance extrême	o1 pro (ChatGPT Pro uniquement)

Bon à savoir

Le générateur d’image DALL·E n’est plus intégré à ChatGPT par défaut, mais reste accessible via un Custom GPT.
Le modèle Sora (génération vidéo) est indépendant de ChatGPT.
Un agent de recherche avancé basé sur le o3 est également en cours de déploiement.

Avez-vous déjà testé plusieurs modèles ? Lequel préférez-vous et pourquoi ?

Lire plus

Intelligence Artificielle

AlphaEvolve : L’IA de Google invente les algorithmes de demain !

par Yohann Poiron le 17 mai 2025

Après avoir bouleversé le monde de la biologie avec AlphaFold, Google DeepMind dévoile cette semaine une nouvelle avancée majeure dans le domaine de l’intelligence artificielle appliquée à la science et aux algorithmes. Son nom : AlphaEvolve.

Cette nouvelle IA s’appuie sur les modèles Gemini, tout en intégrant un cadre évolutif qui lui permet de générer, tester et améliorer des solutions de manière autonome, avec un objectif clair : résoudre des problèmes mathématiques complexes et optimiser des systèmes critiques à l’échelle industrielle.

Qu’est-ce que AlphaEvolve ?

Contrairement à un simple chatbot comme ChatGPT ou Gemini, AlphaEvolve ne se contente pas de fournir une réponse. Il agit comme un agent d’IA autonome, spécialisé dans la recherche algorithmique et l’optimisation de code.

Voici son fonctionnement :

Le chercheur formule un problème ainsi que quelques pistes de solution.
AlphaEvolve génère plusieurs variantes d’algorithmes, en s’appuyant sur Gemini Flash (rapide) et Gemini Pro (précis).
Chaque solution est ensuite testée et évaluée automatiquement par un système intégré.
Le processus évolutif identifie la meilleure solution et la fait évoluer pour l’améliorer.

On pourrait dire que AlphaEvolve « code, teste et améliore » à l’infini, sans supervision constante.

Une IA généraliste… mais spécialisée

Alors que des IA comme AlphaFold ou AlphaTensor avaient été conçues pour des tâches très précises, AlphaEvolve adopte une approche beaucoup plus polyvalente. Il est capable de travailler sur n’importe quel problème algorithmique, qu’il s’agisse d’optimiser un planificateur de data center ou de découvrir de nouveaux algorithmes mathématiques.

« AlphaEvolve représente une étape cruciale vers une IA réellement utile pour la science et l’ingénierie », déclare DeepMind.

Déjà utilisé par Google… avec des résultats concrets

DeepMind a déjà testé AlphaEvolve sur des systèmes critiques internes à Google. L’un des exemples les plus marquants concerne le système de gestion de clusters Borg, utilisé dans les data centers de l’entreprise.

AlphaEvolve a proposé une amélioration du système d’ordonnancement, ce qui a permis à Google d’économiser 0,7 % de ses ressources informatiques mondiales. Ce chiffre peut sembler modeste, mais à l’échelle de Google, il se traduit par des millions de dollars économisés.

Des avancées en mathématiques fondamentales

L’un des exemples les plus impressionnants est venu d’un problème mathématique resté intouché depuis 1969 : la multiplication efficace de matrices complexes 4×4.

Le célèbre algorithme de Strassen tenait la corde depuis plus de 50 ans. Mais AlphaEvolve a réussi à découvrir un nouvel algorithme encore plus efficace, surpassant même AlphaTensor, une IA pourtant spécialisée sur ce problème précis.

AlphaEvolve optimise même les puces de Google

DeepMind a également laissé AlphaEvolve explorer le code en Verilog, un langage utilisé pour décrire les circuits électroniques. Résultat : une optimisation permettant de supprimer des bits inutiles, augmentant ainsi l’efficacité des futures puces Tensor de Google.

Ce correctif est actuellement en phase de validation, mais devrait être intégré aux prochaines générations de processeurs maison de l’entreprise.

Pas encore disponible au public… mais bientôt ?

Pour l’instant, AlphaEvolve reste un outil interne à Google, bien que moins gourmand en ressources qu’AlphaTensor. Cependant, DeepMind réfléchit à intégrer ses mécanismes d’évaluation et d’évolution dans des outils d’IA plus petits et plus accessibles, afin de démocratiser son approche.

Avec AlphaEvolve, Google DeepMind poursuit son ambition de faire de l’IA un outil d’aide scientifique de premier ordre. En combinant la puissance des LLM à un framework d’amélioration continue basé sur la sélection naturelle algorithmique, AlphaEvolve pourrait bien devenir le cerveau auxiliaire des chercheurs, ingénieurs et développeurs de demain.

Et si cette technologie devient un jour accessible au grand public ou aux universités, elle pourrait accélérer massivement les découvertes scientifiques, les avancées en mathématiques et le développement de nouveaux logiciels.

Lire plus

Intelligence Artificielle

GPT-4.1 arrive dans ChatGPT : L’IA pro qu’il vous faut enfin !

par Yohann Poiron le 16 mai 2025

OpenAI annonce la disponibilité de GPT-4.1, un modèle d’IA nouvelle génération désormais accessible dans ChatGPT pour les utilisateurs payants (Plus, Pro, Team). Une version allégée, nommée GPT-4.1 mini, remplace GPT-4o mini pour tous les utilisateurs, y compris les comptes gratuits.

Lancé initialement pour les développeurs via API, GPT-4.1 arrive dans ChatGPT après une forte demande de la communauté. Avec ce modèle, OpenAI propose une alternative puissante, rapide et optimisée pour les usages professionnels, notamment en développement logiciel et en gestion documentaire.

By popular request, GPT-4.1 will be available directly in ChatGPT starting today.

GPT-4.1 is a specialized model that excels at coding tasks & instruction following. Because it’s faster, it’s a great alternative to OpenAI o3 & o4-mini for everyday coding needs.

— OpenAI (@OpenAI) May 14, 2025

GPT-4.1 : un modèle conçu pour les environnements de production

Pensé dès le départ pour répondre aux exigences du monde de l’entreprise, GPT-4.1 améliore la précision, réduit la verbosité de 50 %, et gère mieux les hiérarchies d’instructions (système > développeur > utilisateur). Selon OpenAI, ce modèle :

Bat GPT-4o sur les benchmarks en ingénierie logicielle avec un score supérieur de +21,4 points sur SWE-bench Verified.
Gagne +10,5 points sur les tâches de suivi d’instructions (benchmark MultiChallenge).
Est 50 % moins bavard, ce qui est fortement apprécié en contexte professionnel.

Performances techniques & contextes supportés

Version	Contexte max (ChatGPT)	Contexte max (API)	Points forts
GPT-4.1	32K à 128K tokens	Jusqu’à 1 million	Très bon en codage, précision élevée
GPT-4.1 mini	8K tokens	Non spécifié	Rapide, plus léger, plus économique

Les utilisateurs gratuits bénéficient de GPT-4.1 mini, tandis que les abonnés Plus/Pro peuvent choisir leur modèle dans le menu déroulant. OpenAI envisage de proposer le contexte de 1M tokens dans ChatGPT à terme, ce qui permettrait d’analyser des bases de code entières ou des contrats complexes directement dans l’interface.

OpenAI accompagne le lancement d’un hub de transparence sur les performances de sécurité. Voici quelques résultats de GPT-4.1 :

Exactitude factuelle : 0.40 (SimpleQA), 0.63 (PersonQA).
Refus de prompts risqués : 0.99 sur les prompts standards, 0.96 sur prompts humains.
Résistance aux jailbreaks académiques : 0.23 (moins bon que GPT-4o-mini), mais solide en usage réel.

En d’autres termes, GPT-4.1 est très robuste contre les abus classiques, même s’il reste perfectible face à certains tests académiques plus extrêmes.

Des cas d’usage très ciblés pour les entreprises

Pour les ingénieurs IA : GPT-4.1 réduit les erreurs de codage, suit mieux les consignes et s’intègre efficacement dans les cycles DevOps.
Pour les responsables d’orchestration : Ses bonnes performances sur la hiérarchie des messages facilitent l’intégration dans des pipelines LLM fiables et reproductibles.
Pour les ingénieurs data : La baisse du taux d’hallucination et la meilleure précision dans les réponses favorisent l’automatisation des workflows métiers.
Pour les équipes sécurité : Sa résistance aux exploits générés par les utilisateurs et son comportement prévisible en font un atout pour les outils internes.

Tarifs API : des choix selon vos besoins

Modèle	Input (par M tokens)	Output	Remarques
GPT-4.1	2.00 dollars	8.00 dollars	Puissant, précis, prêt pour les entreprises
GPT-4.1 mini	0.40 dollar	1.60 dollars	Moins cher, très utile pour tâches simples
Gemini Flash	~ 0.075 dollar	~0.30 dollar	Alternative Google, très économique

GPT-4.1 est plus cher que Gemini Flash, mais mieux classé sur les benchmarks codage et suivi d’instructions, ce qui le rend incontournable pour les équipes techniques.

GPT-4.1 vs GPT-4.5 : un repositionnement stratégique

Alors que GPT-4.5, lancé en février, proposait une meilleure modélisation des émotions et des textes longs, il était aussi plus cher et moins fiable en codage. GPT-4.1 s’impose comme une réponse plus pragmatique : moins large, mais plus stable et plus rapide.

Avec GPT-4.1, OpenAI ne cherche plus seulement à créer l’IA la plus impressionnante, mais la plus utile en production. C’est une rupture dans la course à la taille, au profit de l’utilité réelle et du déploiement scalable.

Lire plus

M5 Pro et M5 Max : Apple dévoile la révolution « Fusion Architecture »

MWC 2026 : Lenovo Legion Go Fold, la console PC à écran pliable de 11,6 pouces

Instagram for TV : Les Reels débarquent sur Google TV pour conquérir votre salon

Microsoft lance Copilot Tasks : l’assistant qui ne répond plus, il exécute

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Test Huawei MatePad 11.5 : La tablette PaperMatte, l’alliée idéale pour les étudiants et pros ?

Faut-il craquer pour la Huawei Watch GT 6 Pro ? Les premières impressions

X Chat : Elon Musk lance enfin son application de messagerie autonome

Android : Les 6 fonctions qui vont simplifier votre quotidien

MWC 2026 : TECNO réinvente le smartphone avec ses concepts modulaires et tri-fold

Pixel Drop Mars 2026 : Votre smartphone devient enfin un PC de bureau

Claude rend sa « mémoire » gratuite : le vrai coup de pression d’Anthropic sur ChatGPT

Siri dopée par Gemini : Apple demande des serveurs dédiés à Google

MWC 2026 : TECNO misera sur l’IA et le modulaire pour bousculer les géants

ChatGPT en 2026 : 900 millions d’utilisateurs et une levée de fonds de 110 milliards de dollars

MWC 2026 : TCL dévoile TCL Tbot, le robot qui donne vie aux montres pour enfants

Qu’est-ce que le mystérieux « MacBook Neo » repéré sur le site officiel ?

Adieu Crucial : Pourquoi Micron abandonne le marché de la RAM et des SSD ?

MWC 2026 : Anker dévoile le Soundcore Space 2 et ses 70 heures d’autonomie

Figma branche Codex d’OpenAI : quand le design et le code cessent (enfin) de se renvoyer la balle

Claude Code : Pourquoi l’édition directe de fichiers change tout pour les développeurs ?

Google Glimmer : Les futures directives de conception de design d’Android XR pour lunettes IA

GitHub Agent HQ : Invoquez Claude et Codex directement dans vos Pull Requests

Claude Code vs ChatGPT Codex : Quel agent choisir pour votre workflow en 2026 ?

Tracker du Père Noël 2025 : comment suivre le Père Noël en direct avec NORAD et Google ?

Spotify Wrapped 2025 : comment voir, partager et comprendre votre rétrospective

Pourquoi NotebookLM est un assistant personnel qui vaut son abonnement ?

Intelligence Artificielle

Claude rend sa « mémoire » gratuite : le vrai coup de pression d’Anthropic sur ChatGPT

Siri dopée par Gemini : Apple demande des serveurs dédiés à Google

MWC 2026 : TECNO misera sur l’IA et le modulaire pour bousculer les géants

ChatGPT en 2026 : 900 millions d’utilisateurs et une levée de fonds de 110 milliards de dollars

Nano Banana 2 : Google déploie Gemini 3.1 Flash Image, plus rapide et plus précis, dans l’app Gemini

Perplexity Computer : l’IA qui orchestre 19 modèles pour exécuter vos projets de A à Z