Google accélère sur l’audio conversationnel. Avec Gemini 3.1 Flash Live, présenté le 26 mars 2026, le groupe introduit ce qu’il décrit comme son modèle Gemini audio et voix le plus abouti à ce jour, pensé pour des échanges plus naturels, plus rapides et plus fiables en temps réel.
Le modèle arrive en preview via la Gemini Live API dans Google AI Studio, et sert déjà de moteur à des produits comme Gemini Live et Search Live.
Une IA vocale conçue pour tenir la conversation, ne pas seulement répondre vite
L’ambition de Gemini 3.1 Flash Live est assez claire : maintenir un dialogue fluide malgré les interruptions, les hésitations, les relances et les changements de contexte propres à la parole réelle.
Google explique que le modèle est optimisé pour les interactions audio-to-audio à faible latence, avec prise en charge de flux continus d’audio, d’images et de texte, afin de produire des réponses vocales immédiates dans des usages de type assistant, support client ou agent conversationnel multimodal.
Ce point est essentiel, car Google ne présente plus ici un simple assistant vocal enrichi. Le groupe veut imposer une brique capable de servir de fondation à toute une génération d’agents où la voix devient l’interface principale, et non un canal secondaire ajouté après coup.
Les gains annoncés portent autant sur la qualité que sur la robustesse
Google met en avant plusieurs axes de progrès : une latence réduite, une meilleure tenue en environnements bruyants, un suivi plus fiable des instructions complexes, une meilleure compréhension de la tonalité, du rythme et de l’intonation, ainsi qu’un maintien du contexte sur des conversations plus longues. Le modèle est aussi présenté comme nativement multilingue, avec une prise en charge en temps réel de plus de 90 langues.

Sur le terrain des benchmarks, Google cite notamment ComplexFuncBench Audio, où Gemini 3.1 Flash Live (Thinking High) atteint 90,8 %, et Scale AI Audio MultiChallenge, où il obtient 36,1 % avec le mode réflexion activé.
Les développeurs récupèrent une vraie boîte à outils temps réel
Côté plateforme, la Live API donne accès à des fonctions structurantes pour créer des agents vocaux : traitement de flux audio et visuels en temps réel, fonction d’appel, intégration d’outils externes, gestion de sessions longues, et usage de tokens éphémères pour sécuriser certaines interactions. Google présente explicitement ce socle comme une base pour bâtir des applications voice-first plus réactives et plus riches.
Autrement dit, Google ne lance pas seulement un modèle. Il lance un environnement de développement cohérent où la voix, la vision et l’action peuvent être combinées dans une même boucle conversationnelle. Et c’est probablement là que se situe le vrai changement de dimension. Cette analyse est une inférence fondée sur la nature des capacités exposées par la Live API.
Search Live devient la vitrine grand public du modèle
Le premier terrain d’expression massif de Gemini 3.1 Flash Live est Search Live, désormais déployé dans plus de 200 pays et territoires partout où AI Mode est disponible. Google précise que l’utilisateur peut ouvrir l’app Google sur Android ou iOS, toucher l’icône Live sous la barre de recherche, puis parler à Search, prolonger la conversation, et même ajouter du contexte visuel avec la caméra ou via Google Lens.
Ce déploiement mondial montre bien que Gemini 3.1 Flash Live n’est pas réservé aux démos développeurs. Il alimente déjà une vision plus large de la recherche : moins basée sur la requête tapée, plus proche d’un échange contextuel en direct avec le monde réel sous les yeux. Cette conclusion est une inférence à partir du rôle donné au modèle dans Search Live.
Une couche de sécurité et de traçabilité est intégrée
Google indique aussi que l’audio généré par ses systèmes embarque un watermark SynthID imperceptible, afin de permettre la détection de contenus produits par IA. C’est un point important dans un contexte où la voix synthétique devient plus crédible et plus difficile à distinguer à l’oreille d’une voix humaine enregistrée.
Google ne cherche plus seulement à améliorer l’assistant, mais à imposer la voix comme interface native
Avec Gemini 3.1 Flash Live, Google semble reconnaître que la prochaine bataille ne se jouera pas uniquement sur le texte, ni même sur les chatbots « classiques ». Elle se jouera sur la capacité à faire parler l’IA de façon naturelle, en temps réel, dans une conversation qui supporte le monde extérieur, les outils, la caméra et les interruptions.
En somme, Gemini 3.1 Flash Live n’est pas simplement une mise à jour de plus dans la gamme Gemini. C’est une tentative de faire de la voix un vrai système d’exploitation conversationnel — plus rapide, plus multimodal, et surtout beaucoup plus central dans la manière dont Google veut faire vivre son IA au quotidien.



