Le modèle open source de Mozilla vise à révolutionner la reconnaissance vocale

Vous avez peut-être remarqué les progrès réguliers de la technologie de reconnaissance vocale ces derniers temps — toutes les grandes entreprises technologiques veulent faire des progrès dans ce domaine pour améliorer leurs assistants numériques, de Cortana à Siri, en passant par Alexa et Google Assistant. Néanmoins, toutes ces plateformes ont quelque chose en commun : elles utilisent des techniques de reconnaissance vocale propriétaires. Mais, Mozilla veut aller plus loin sur ce secteur de la reconnaissance vocale, et de façon plus large, avec la sortie d’un modèle open source.

La version initiale de ce moteur de reconnaissance vocale automatique (Automatic Speech Recognition) vient d’être lancée, sur la base du travail effectué par l’équipe Machine Learning de Mozilla. Le moteur est modelé sur des articles de « Deep Speech » publiés par Baidu, qui détaillent un réseau de neurones profonds multicouche pouvant être entraîné.

Mozilla précise que son projet visait initialement à atteindre un « taux d’erreur de mots » inférieur à 10 %. Cependant, l’entreprise affirme que le taux d’erreur du moteur sur l’ensemble de tests de LibriSpeech est maintenant de 6,5 %, dépassant clairement cet objectif, et atteignant quasiment le Saint-Graal de la performance humaine (environ 5,8 %). Mozilla a travaillé dur pour former le modèle de reconnaissance vocale en utilisant « l’apprentissage supervisé » et un énorme ensemble de données de milliers d’heures de fichiers audio, provenant de multiples sources, y compris du gratuit (TED-LIUM et LibriSpeech) et payant (Fisher et Standard).

Un discours simplifié

D’autres données vocales ont été récupérées des services d’étude des langues dans les universités, et des stations de télévision et de radio publiques, afin d’affiner le moteur de reconnaissance vocale. Et bien sûr, l’énorme force de ce projet est sa nature open source, qui signifie que cette technologie est maintenant ouverte à toute personne qui souhaite l’utiliser dans ses projets de reconnaissance vocale. En effet, en accord avec tout ce qui est ouvert, ces données sont disponibles en téléchargement si vous voulez construire votre propre moteur ou simplement écouter les 500 heures de discours.

MZ CommonVoice blog post HR 1 — Le projet Automatic Speech Recognition de Mozilla est très alléchant, espérons qu’il n’arrive pas trop tard

En outre. Mozilla note que le plan pour l’avenir est de sortir un modèle suffisamment léger et rapide pour fonctionner sur un smartphone ou un ordinateur monocarte comme le populaire Raspberry Pi. La société a également lancé son initiative Common Voice, un ensemble de données vocales ouvertes et accessibles au public, contenant quelque 400 000 enregistrements provenant de 20 000 locuteurs différents — ce qui représente environ 500 heures de discours.

Comme le dit Mozilla, l’idée est de « construire un corpus de discours gratuit, open source, et assez grand pour créer des produits significatifs avec », tout en fonctionnant en parallèle avec le nouveau modèle de reconnaissance vocale. Il sera intéressant de voir si les développeurs adoptent les outils de Mozilla et quel type d’applications ils construisent avec. Espérons que ce projet ne reste une niche, analogue à la façon dont Firefox OS a pu naître et mourir quelque temps après.

Croyez-vous en cette initiative ? N’est-ce pas trop tard pour avoir une concurrence dans nos smartphones et enceintes connectées ?

Microsoft teste des publicités dans le menu Démarrer de Windows 11

Fin de route pour le VPN Google One : Google annonce sa suppression

Apple innove en réparation : utilisation de pièces d’occasion pour l’iPhone 15 et plus

DuckDuckGo lance Privacy Pro : une nouvelle dimension de confidentialité

Découverte de Google Gemini : l’assistant IA qui comprend vraiment

Test de la Navee S65C : une conduite urbaine et tout-terrain sans compromis

Test de la TaHoma Switch : découvrez la domotique moderne par Somfy

Test du Microsoft Surface Laptop Go 3 : du luxe mais compromis pour les étudiants

Le OnePlus 13 promet une révolution avec son écran incurvé sur quatre côtés

Explosion des bénéfices pour Samsung grâce à la hausse des prix des puces

WhatsApp simplifie l’accès aux photos avec un nouveau raccourci

Google Pixel 8a : Un arc-en-ciel de couleurs prévu

ChatGPT se met à jour : Découvrez la nouvelle version de GPT-4 Turbo

Elon Musk prédit que l’IA surpassera l’intelligence humaine d’ici fin 2025

Huawei révolutionne les prévisions météorologiques avec son IA de haute précision

DJI lance le Avata 2 : une immersion révolutionnaire dans le FPV

Google dévoile Gemini Code Assist : Une révolution IA pour les développeurs

Nouvelle ère de codage avec Gemini Pro dans Android Studio

Canva embrasse l’avenir du design en s’offrant Affinity

Simplifiez votre Terminal avec GitHub Copilot CLI : L’innovation au service des développeurs

9 outils d’IA pour vous aider à organiser votre vie en 2024

Optimisez votre MacBook : Guide des meilleures astuces de productivité

Maîtrisez votre Mac avec Homebrew : Un guide des outils indispensables

Découverte de Health Connect : La révolution Android pour votre santé et fitness

Le modèle open source de Mozilla vise à révolutionner la reconnaissance vocale

Un discours simplifié

Google veut alerter quand on regarde votre smartphone à votre insu

Samsung travaille sur une batterie qui charge un smartphone en 12 minutes

The author Yohann Poiron

Le modèle open source de Mozilla vise à révolutionner la reconnaissance vocale

Un discours simplifié

The author Yohann Poiron

vous pourriez aussi aimer