Google franchit une nouvelle étape dans la traduction assistée par IA. Le géant de Mountain View déploie une mise à jour majeure de ses modèles audio Gemini, apportant à Google Traduction une fonctionnalité de traduction vocale en temps réel, pensée avant tout pour une utilisation avec des écouteurs.

Au cœur de cette évolution se trouve le nouveau Gemini 2.5 Flash Native Audio, un modèle optimisé pour les interactions vocales complexes. Une avancée qui pourrait bien transformer la façon dont nous communiquons à l’étranger — ou simplement avec des personnes ne parlant pas notre langue.

Google Traduction : Entendre le monde… traduit en direct

Cette nouvelle expérience, actuellement en bêta, permet littéralement d’écouter son environnement traduit en temps réel dans ses écouteurs. L’objectif est clair : faire disparaître la barrière de la langue sans interrompre la conversation ni sortir son téléphone à chaque phrase.

Deux modes distincts sont proposés, chacun répondant à un usage précis.

Deux modes pour deux usages bien différents

1. L’écoute continue

Idéal pour des conférences, des réunions ou des discussions de groupe, ce mode permet à l’IA d’écouter plusieurs langues simultanément et de les traduire vers une seule langue choisie par l’utilisateur.

Concrètement, il suffit de porter ses écouteurs : Gemini se charge d’identifier les langues parlées autour de vous et de les restituer instantanément dans votre langue.

2. La conversation bidirectionnelle

Ce second mode est conçu pour les échanges en face à face. L’IA gère la traduction en temps réel entre deux langues, en changeant automatiquement de sens selon l’interlocuteur.

Par exemple : vous parlez anglais, votre interlocuteur parle hindi, vous entendez la traduction anglaise dans vos écouteurs, lorsque vous répondez, votre téléphone diffuse la traduction hindi à haute voix.

Le tout, sans manipulation manuelle ni réglage constant.

Le détail qui change tout : le « style transfer »

Ce qui distingue vraiment cette fonctionnalité des traductions vocales classiques, c’est le transfert de style vocal. Gemini ne se contente pas de traduire des mots : il reproduit le rythme, l’intonation et la dynamique de la voix originale.

Résultat : une traduction moins robotique, plus naturelle, et surtout plus fidèle à l’intention du locuteur.

À cela s’ajoute un filtrage du bruit ambiant particulièrement efficace, permettant de maintenir des conversations fluides même dans des environnements bruyants, en extérieur ou dans les transports.

Une couverture linguistique très large

Google annonce une compatibilité avec plus de 70 langues et environ 2 000 paires linguistiques. Cette ampleur est rendue possible par la combinaison entre la puissance audio de Gemini, et l’immense base de données linguistique de Google Translate.

Autre point clé : la détection automatique multilingue. L’application peut reconnaître plusieurs langues au cours d’une même session, sans que l’utilisateur n’ait besoin de préciser laquelle est parlée. L’IA identifie la langue et lance la traduction d’elle-même.

Sous le capot : un Gemini plus rapide et plus cohérent

Cette nouveauté repose entièrement sur Gemini 2.5 Flash Native Audio, qui bénéficie de plusieurs améliorations techniques majeures.

Le modèle est désormais plus efficace pour interagir avec des services externes en temps réel (données en direct, outils contextuels), sans interrompre la conversation. Google annonce un taux de conformité aux instructions développeurs de 90 %, contre 84 % auparavant.

Gemini conserve mieux le contexte des échanges précédents, ce qui améliore nettement la qualité des conversations multi-tours. Une évolution essentielle pour tout assistant vocal crédible et stable.

Une brique clé de l’écosystème Google

Ces améliorations ne se limitent pas à Google Traduction. Le modèle Gemini 2.5 Flash Native Audio est également déployé dans Gemini Live, Search Live, Google AI Studio, et Vertex AI.

Les utilisateurs peuvent donc s’attendre à des interactions vocales plus fluides, que ce soit pour la traduction, la recherche en direct ou l’assistance contextuelle.

Disponibilité

La traduction vocale en temps réel est en cours de déploiement dès aujourd’hui dans l’application Google Traduction.

Plateforme : Android

Pays : États-Unis, Mexique, Inde

Usage : via écouteurs, option « Live translate »

Google précise que le support iOS et d’autres régions arriveront prochainement.