Meta a dévoilé Voicebox, une IA polyvalente pour la génération de discours qui offre une large gamme de capacités. Ce modèle d’IA avancé peut effectuer des tâches telles que l’édition, l’échantillonnage et la stylisation de la parole grâce à l’apprentissage en contexte.

En annonçant les mises à jour, Meta a publié un message :

Nous sommes satisfaits de Voicebox, notre nouveau projet qui produit des sons avec l’IA. Nous voulons continuer à en apprendre davantage sur les sons et l’IA, et nous espérons que d’autres personnes utiliseront notre travail pour créer de nouvelles choses.

Voicebox excelle dans la production de clips audio de haute qualité et dans l’édition d’audio préenregistré, par exemple en supprimant les bruits de fond indésirables, tout en conservant le contenu et le style d’origine.

En outre, elle prend en charge plusieurs langues, ce qui lui permet de produire des discours dans 6 langues différentes. En septembre 2022, Meta avait dévoilé « Make-A-Video », un nouveau système d’intelligence artificielle qui transforme le texte en clips vidéo de haute qualité.

La Voicebox fait partie d’une nouvelle vague de modèles d’IA générative aux applications potentielles variées. Par exemple, elle pourrait améliorer les assistants virtuels et les personnages non joueurs dans le métaverse en fournissant des voix naturelles.

De vastes possibilités

Elle peut également aider les personnes malvoyantes en permettant à l’IA de lire des messages écrits avec la voix de leurs amis. En outre, les créateurs peuvent tirer parti de la Voicebox pour créer et éditer facilement des pistes audio pour les vidéos, entre autres possibilités.

La polyvalence de Voicebox englobe plusieurs tâches, notamment :

Synthèse texte-parole en contexte : Voicebox peut générer une synthèse vocale à partir d’un échantillon audio d’à peine deux secondes, en s’adaptant au style de l’audio fourni
L’édition de la parole et la réduction du bruit : Elle peut reconstruire des segments de discours interrompus ou remplacer des mots mal prononcés sans avoir à réenregistrer. Par exemple, les utilisateurs peuvent supprimer les aboiements d’un chien d’un segment de discours et demander à la Voicebox de les régénérer de manière transparente, un peu comme une gomme d’édition audio
Transfert de style multilingue : Avec un échantillon de parole et un passage de texte dans différentes langues, la Voicebox peut produire une lecture du texte dans n’importe laquelle des langues prises en charge (anglais, français, allemand, espagnol, polonais et portugais). Cette fonction permet aux personnes parlant des langues différentes de dialoguer facilement.
Échantillonnage vocal diversifié : La Voicebox a appris à partir de différents types de données, de sorte qu’elle peut produire un discours qui ressemble à la façon dont les gens parlent dans le monde réel, dans les 6 langues qu’elle connaît

Bing intègre l’IA générative pour des réponses de recherche plus détaillées

Découvrez SearchGPT : Le nouveau moteur de recherche d’OpenAI

Bing et les autres moteurs de recherche que Google ne peuvent plus explorer Reddit

Google obtient l’exclusivité pour explorer les contenus de Reddit au détriment de Bing ou DuckDuckGo

Test du Roborock Flexi Pro : Un aspirateur balai intelligent et puissant

Test de la Withings ScanWatch Nova : Alliant élégance et technologies de santé

Test de la Honor Pad 9 : Un équilibre idéal entre performance et prix

Test du Samsung Galaxy S24 : 6 mois plus tard, est-il toujours intéressant ?

Sonos présente ses excuses et promet des améliorations de son application

Pixel Buds Pro 2 : Nouveau design et nouvelles couleurs dévoilées

Pixel 9 et Pixel 9 Pro Fold : Fuite massive révèle design et spécifications

Oppo Find X8 Ultra : Un design raffiné et une batterie impressionnante pour 2025

Gemini 1.5 Flash : Rapidité, précision et liens sources pour Gemini

Cyberattaques imminentes sur les JO de Paris 2024 : Menace Russe en vue

Meta AI : Nouveaux outils de création d’images et disponibilité élargie à 22 pays

NotchNook : Transformez l’encoche de votre MacBook en outil pratique

L’assistant de codage IA Pieces, une alternative à GitHub Copilot

Figma désactive son outil Make Design après accusations de plagiat

Apple admet que 8 Go de RAM ne suffisent plus pour certaines fonctions

Figma lance des fonctionnalités IA pour révolutionner le design de produits

Google Workspace vs Microsoft 365 : Quelle suite de productivité choisir ?

Comment installer la bêta publique d’iOS 18 sur votre iPhone et iPad ?

Comment obtenir le nouveau Windows Copilot sur n’importe quel appareil ?

Comment refuser que ChatGPT utilise vos chats pour former ses modèles ?

Meta présente la « Voicebox », un modèle d’IA pour la parole de nouvelle génération

De vastes possibilités

Tout ce qui a été annoncé lors de l’événement Tudum 2023 de Netflix

Google Domains ferme ses portes et ses actifs sont vendus à Squarespace

The author Yohann Poiron

Meta présente la « Voicebox », un modèle d’IA pour la parole de nouvelle génération

De vastes possibilités

The author Yohann Poiron

vous pourriez aussi aimer