fermer
Apps

L’IA de Google Translatotron pourrait traduire avec votre voix

L'IA de Google Translatotron pourrait traduire avec votre voix

Nous savons tous que la communication ne dépend pas seulement de ce que vous dites. La façon dont vous le dites est souvent tout aussi importante. C’est pourquoi le dernier prototype de traducteur IA de Google ne traduit pas seulement les mots qui sortent de votre bouche, mais aussi le ton et la cadence de votre voix.

Le système s’appelle Translatotron, et les chercheurs de Google expliquent en détail son fonctionnement dans un récent article de blog. Attention, nous ne verrons certainement pas de sitôt Translatotron dans des produits commerciaux, mais cela arrivera probablement à temps. L’objectif de l’entreprise pour le moment est d’ajouter plus de nuances à ses outils de traduction, créant ainsi un discours plus réaliste.

Vous pouvez entendre ce que cela ressemble dans les exemples audio ci-dessous. Le premier clip est l’entrée ; la seconde est la traduction de base ; et le troisième tente de capturer la voix de l’orateur d’origine. Comme vous pouvez l’entendre, la traduction n’est pas transparente, mais elle est néanmoins impressionnante. Vous pouvez écouter beaucoup d’autres extraits audio de Translatotron depuis ce lien.

Bien que la capture de l’inflexion de la voix d’un locuteur soit ce qui impressionne le plus les profanes, l’attrait de Translatotron pour les ingénieurs en IA est qu’il traduit la parole directement de l’entrée audio à la sortie audio sans la traduire dans l’habituel texte intermédiaire.

Une traduction plus rapide

Ce type de modèle d’IA est connu comme un système de bout en bout, parce qu’il n’y a pas d’arrêt pour des tâches ou des actions subsidiaires. Google affirme que la traduction de bout en bout produit des résultats plus rapidement tout en évitant le risque d’introduire des erreurs au cours des différentes étapes de traduction.

Ce qui est peut-être encore plus intéressant, c’est que les données que le modèle traite ne sont pas des données audio brutes. Il utilise plutôt des données de spectrogramme ou des visualisations détaillées du son. Essentiellement, cela signifie que nous traduisons la parole d’une langue à une autre au moyen d’images, ce qui est époustouflant.

Comme toujours avec les efforts de traduction de Google, il y a lieu d’être sceptique quant au fonctionnement de systèmes comme celui-ci dans la nature. L’entreprise dévoile souvent de nouveaux outils de traduction et de reconnaissance vocale ambitieuse, dont les performances sont souvent moins fluides qu’on ne l’espère. Pourtant, l’avenir avance, et la traduction par l’IA ne fait que s’améliorer.

Tags : GoogleTranslatotron AI
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.