L’art généré par l’IA apparaît partout, mais ce n’est qu’un début. Microsoft a récemment publié un nouvel outil d’intelligence artificielle appelé VALL-E, qui est analogue à DALL-E mais pour les voix. Après avoir écouté seulement trois secondes d’audio, VALL-E peut reproduire n’importe quelle voix.

Si cela semble terrifiant, c’est parce que ça l’est. Ce n’est pas tout non plus. Selon AITopics, le nouvel outil de Microsoft reproduit facilement les émotions et le ton, ce qui n’est pas le cas de tous les outils d’IA vocale. L’équipe a entraîné VALL-E à partir d’environ 60 000 heures de données vocales en anglais, et il a fait preuve de capacités d’apprentissage en contexte, pouvant même reproduire des mots qu’il n’avait jamais entendus.

Selon ses créateurs, VALL-E pourrait être utilisé pour des applications de synthèse vocale de haute qualité, pour l’édition de la parole, où l’enregistrement d’une personne pourrait être édité et modifié à partir d’une transcription textuelle (en lui faisant dire quelque chose qu’elle ne disait pas à l’origine), et pour la création de contenu audio lorsqu’il est combiné à d’autres modèles d’IA générative comme GPT-3.

Le rapport indique que VALL-E est capable d’effectuer un TTS basé sur des invites, qu’il suit le contexte et qu’il n’a pas besoin d’une acoustique préconçue ou d’une ingénierie structurelle pour fournir un échantillon audio de haute qualité. En fait, ce nouvel outil d’IA est assez impressionnant. Tout ce dont VALL-E a besoin, c’est d’entendre environ trois secondes de n’importe quelle voix, et il sera capable d’imiter (ou de répliquer) rapidement et facilement cette voix.

Microsoft appelle VALL-E un « modèle de langage de codec neuronal », et il s’appuie sur une technologie appelée EnCodec, que Meta a annoncée en octobre 2022. Contrairement à d’autres méthodes de synthèse vocale, qui synthétisent généralement la parole en manipulant des formes d’onde, VALL-E génère des codes de codec audio discrets à partir de textes et d’invites acoustiques. Il analyse la façon dont une personne parle, décompose cette information en composants discrets (appelés « tokens ») grâce à EnCodec, et utilise des données d’entraînement pour faire correspondre ce qu’il « sait » de la façon dont cette voix sonnerait si elle prononçait d’autres phrases en dehors de l’échantillon de trois secondes.

VALL-E n’est pas disponible pour le public

Il y a plusieurs exemples audio de l’outil sur GitHub, et si certains sont très bons, d’autres ne sont pas si impressionnants et ont un ton robotique. Mais quand ça marche, ça marche très bien. Cela dit, nous n’en sommes qu’aux premiers jours de VALL-E, et les choses s’amélioreront avec le temps. De plus, si l’équipe utilisait de plus grands échantillons, elle serait probablement plus précise.

Il est important de noter que VALL-E n’est pas disponible pour le public, du moins pas encore, donc nous pouvons tous pousser un soupir de soulagement. Si cela se produit, le moins que l’on puisse dire, c’est qu’il y aura une foule de problèmes de sécurité, sociaux et éthiques. Bien que cette technologie semble impressionnante, elle est également assez sauvage.

GTA 6 : les codes des éditions physiques PS5 expireront au Japon, relançant le débat sur la propriété des jeux

Google Docs : Gemini résume les commentaires et accélère la révision collaborative

Apple teste « Live Notes » dans ses Apple Store : une IA pour résumer automatiquement les échanges au Genius Bar

WhatsApp Web permet enfin les appels audio et vidéo avec de nouvelles fonctions de réunion

Galaxy Z Fold 8 Ultra : prise en main du pliable que son petit frère éclipse

Prise en main du Galaxy Z Fold 8 : le pliant format passeport qui vole la vedette à l’Ultra

Test de la HUAWEI Watch Fit 5 Pro : l’Apple Watch de ceux qui ne veulent pas d’Apple Watch

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Samsung préparerait un Galaxy Z TriFold 2 avec un écran OLED de près de 10 pouces

Galaxy Z Fold 8 et Z Flip 8 : Samsung signe un lancement record avant l’arrivée de l’iPhone pliable

MediaTek Dimensity 9600 : trois puces haut de gamme en préparation pour concurrencer Qualcomm

Snapchat intègre Spotify à Snap Map avec « Now Playing », une nouvelle façon de partager sa musique

Des conversations Claude ont été indexées par Google : ce qu’il s’est passé

ChatGPT refuse désormais d’imiter le style des auteurs célèbres : OpenAI durcit sa politique

Perplexity lance son assistant IA « Personal Computer » sur Windows pour automatiser les tâches locales

Microsoft lance ses modèles MAI et réduit sa dépendance à OpenAI

Des conversations Claude ont été indexées par Google : ce qu’il s’est passé

ChatGPT refuse désormais d’imiter le style des auteurs célèbres : OpenAI durcit sa politique

MacBook Ultra : Apple préparerait le plus grand bouleversement de sa gamme depuis près de vingt ans

Instapaper 10 modernise son expérience avec un nouveau site, un design inspiré d’iOS et l’arrivée des voix IA sur Android

Google AI Studio simplifie le déploiement des applications avec des URL personnalisées

Claude Code ajoute un navigateur intégré pour consulter la documentation sans quitter l’IDE

Google Agents CLI : l’outil qui transforme Claude Code et Codex en experts des agents IA

Meta Pocket : créez des mini-jeux avec l’IA simplement en les décrivant

Comment réserver votre nom de profil WhatsApp ?

Claude Cowork : Le guide complet pour automatiser votre quotidien en 2026

Intel Core Ultra vs Apple Silicon : Quelle philosophie choisir pour votre prochain bureau compact ?

Comment arrêter le suivi des e-mails dans Gmail ?

Microsoft lance VALL-E, une IA capable de reproduire votre voix

VALL-E n’est pas disponible pour le public

Raspberry Pi lance un module caméra à plus haute résolution, désormais avec autofocus

Le C++ est le langage de programmation de l’année selon TIOBE

The author Yohann Poiron

Microsoft lance VALL-E, une IA capable de reproduire votre voix

VALL-E n’est pas disponible pour le public

The author Yohann Poiron

vous pourriez aussi aimer