Non content de perturber la génération de texte, l’imagerie et la vidéo avec ses divers modèles d’IA, le fabricant de ChatGPT, OpenAI, s’attaque également à la dernière grande forme de média numérique hérité : l’audio. Plus précisément, le clonage de la voix.

Dans un monde où l’intelligence artificielle (IA) transforme déjà notre manière de créer et de communiquer, OpenAI vient de franchir une nouvelle frontière avec le développement de son moteur vocal capable de générer des discours réalistes à partir d’un simple échantillon audio de 15 secondes.

Cette innovation, surnommée le « Voice Engine », marque un pas de géant dans le domaine de la synthèse vocale, ouvrant des perspectives inédites pour la création de contenus audio personnalisés.

Selon OpenAI, malgré sa taille réduite, le Voice Engine peut produire des voix émotives et d’une réalité saisissante, se rapprochant avec une précision étonnante de la voix originale. Créé fin 2022, ce modèle alimente déjà la fonction Chat Vocal de ChatGPT, témoignant de ses capacités impressionnantes.

Toutefois, l’entreprise souligne les « risques sérieux » liés à cette technologie, notamment le « potentiel d’abus de la voix synthétique ». Face à ces enjeux, OpenAI choisit de ne pas rendre le modèle public pour l’instant, préférant initier un dialogue sur la synthèse vocale et la manière dont la société peut s’adapter à ces nouvelles capacités.

Outre la possibilité de traduire de l’audio de manière réaliste dans différentes langues avec un accent nuancé, des plateformes comme HeyGen exploitent déjà le Voice Engine d’OpenAI pour créer des voix sur mesure. Parallèlement, ElevenLabs développe son propre modèle de synthèse vocale capable de cloner des voix et de générer des discours en plusieurs langues.

OpenAI, une base d’utilisateurs limitée à dessein

Comme mentionné précédemment, pour l’instant, la technologie est limitée. Comme pour Sora, son puissant modèle d’IA de génération de vidéos incroyablement réalistes et vivantes, OpenAI n’autorise pas pour l’instant le public à utiliser Voice Engine. Au lieu de cela, OpenAI se contente aujourd’hui de partager l’existence de l’outil ainsi que « les idées et les résultats préliminaires d’un aperçu à petite échelle » avec « un petit groupe de partenaires de confiance » à qui l’accès a été accordé.

Cependant, cette technologie, aussi puissante soit-elle, présente des risques de tromperie et peut mettre en danger les utilisateurs dans divers contextes. OpenAI reconnaît notamment que l’authentification vocale est utilisée pour accéder à des comptes bancaires et à d’autres informations sensibles, et espère que ces systèmes d’authentification seront progressivement abandonnés. De plus, les réseaux sociaux regorgent de cas où des voix populaires sont clonées pour promouvoir des produits.

Les escroqueries impliquant le clonage de voix d’IA sont en augmentation, avec des criminels qui imitent la voix des enfants pour extorquer de l’argent aux parents. Dans un tel contexte, OpenAI estime ne pas être en position de diffuser largement le modèle. Alors que nous nous dirigeons vers l’ère de l’IA, une plus grande prudence et résilience sont requises de la part de la société.