fermer
Intelligence Artificielle

Gemini 3 Flash : Agentic Vision transforme l’analyse d’images en enquête avec exécution de code

Gemini 3 Flash : Agentic Vision transforme l’analyse d’images en enquête avec exécution de code
Gemini 3 Flash : Agentic Vision transforme l’analyse d’images en enquête avec exécution de code

Jusqu’ici, la plupart des modèles « vision » regardaient une image comme on jette un coup d’œil à une affiche : en une seule passe, puis ils improvisaient si un détail leur échappait. Google DeepMind vient d’annoncer un changement de méthode avec Agentic Vision dans Gemini 3 Flash : l’image n’est plus seulement interprétée, elle est explorée activement, étape par étape, avec exécution de code Python pour zoomer, recadrer, annoter et vérifier avant de répondre.

Google affirme qu’activer l’exécution de code avec Gemini 3 Flash apporte un gain de qualité « constant » de 5 à 10 % sur la plupart des benchmarks vision.

Ce que change Agentic Vision : de « je vois » à « je vérifie »

Google DeepMind résume le problème des modèles multimodaux classiques : s’ils ratent un détail fin — un numéro de série sur un micro-composant, un panneau lointain — ils sont forcés de deviner. Agentic Vision renverse la logique en traitant la vision comme un processus d’investigation : le modèle planifie, agit, puis ré-observe avec un nouveau contexte visuel.

L’enjeu n’est pas seulement la précision : c’est la capacité à réduire l’hallucination visuelle en remplaçant l’estimation probabiliste par des opérations contrôlables.

agentic vision gemini 3 flash bl 1

Comment ça marche : Think → Act → Observe ?

Google décrit une boucle itérative en trois temps :

  • Think : le modèle analyse la question + l’image et établit un plan multi-étapes.
  • Act : il génère et exécute du Python pour manipuler l’image (recadrage, rotation, annotation) ou l’analyser (comptage, calculs…).
  • Observe : l’image transformée est réinjectée dans la fenêtre de contexte, et le modèle ré-examine les nouveaux éléments avant de conclure.

agentic vision gemini 3 flash bl 2

C’est une évolution importante : l’IA ne se contente plus d’être « multimodale », elle devient outillée, et donc plus proche d’un assistant technique capable de produire des réponses traçables.

Des cas d’usage très concrets : zoom implicite, annotations, « visual math »

Google illustre trois bénéfices immédiats :

  • Zoom/inspection fine : Gemini 3 Flash est entraîné à « zoomer implicitement » quand c’est nécessaire. La société cite PlanCheckSolver.com, qui aurait gagné +5 % de précision en activant l’exécution de code pour découper et analyser des zones d’un plan (bords de toit, sections de bâtiment), puis les réinjecter au contexte.
  • Annotation : au lieu de « décrire », le modèle peut dessiner des boîtes et étiquettes sur l’image pour s’auto-vérifier (ex : compter des doigts) — une sorte de brouillon visuel qui réduit les erreurs de comptage.
  • Math visuelle & plotting : lecture de tableaux denses + normalisation + graphique Matplotlib, avec calcul déporté dans un environnement Python déterministe (et donc vérifiable).

On voit se dessiner une philosophie : quand la réponse dépend d’un détail, la meilleure stratégie n’est pas « raisonner plus fort », mais mesurer mieux.

API d’abord, app ensuite

Agentic Vision est disponible dès maintenant via l’API Gemini dans Google AI Studio et Vertex AI. Le déploiement démarre aussi dans l’app Gemini, accessible en sélectionnant l’option « Thinking » dans le choix de modèles.

Côté développeurs, Vertex AI documente déjà Code execution comme une capacité supportée par Gemini 3 Flash (preview), aux côtés du grounding et des system instructions.

La vraie rupture, c’est la « preuve » plutôt que la prose

Ce lancement raconte un basculement plus large : l’avenir des modèles visuels ne se jouera pas uniquement sur des scores, mais sur leur capacité à produire des réponses ancrées dans des opérations reproductibles (recadrage, comptage, calcul). Ce n’est pas un détail UX : c’est un changement d’épistémologie. Une IA qui peut montrer comment elle a vérifié une zone d’image se rapproche d’un assistant « professionnel » — utile en inspection, conformité, industrie, santé, assurance, architecture.

DeepMind le dit d’ailleurs sans détour : aujourd’hui le zoom est déjà très « implicite », mais des comportements comme rotation ou visual math demandent encore un « coup de pouce » — et Google travaille à les rendre automatiques, tout en explorant d’autres outils (web, reverse image search) et une extension à d’autres tailles de modèles.

Tags : GeminiGemini 3Gemini 3 FlashGoogle
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.