Vous avez peut-être remarqué les progrès réguliers de la technologie de reconnaissance vocale ces derniers temps — toutes les grandes entreprises technologiques veulent faire des progrès dans ce domaine pour améliorer leurs assistants numériques, de Cortana à Siri, en passant par Alexa et Google Assistant. Néanmoins, toutes ces plateformes ont quelque chose en commun : elles utilisent des techniques de reconnaissance vocale propriétaires. Mais, Mozilla veut aller plus loin sur ce secteur de la reconnaissance vocale, et de façon plus large, avec la sortie d’un modèle open source.

La version initiale de ce moteur de reconnaissance vocale automatique (Automatic Speech Recognition) vient d’être lancée, sur la base du travail effectué par l’équipe Machine Learning de Mozilla. Le moteur est modelé sur des articles de « Deep Speech » publiés par Baidu, qui détaillent un réseau de neurones profonds multicouche pouvant être entraîné.

Mozilla précise que son projet visait initialement à atteindre un « taux d’erreur de mots » inférieur à 10 %. Cependant, l’entreprise affirme que le taux d’erreur du moteur sur l’ensemble de tests de LibriSpeech est maintenant de 6,5 %, dépassant clairement cet objectif, et atteignant quasiment le Saint-Graal de la performance humaine (environ 5,8 %). Mozilla a travaillé dur pour former le modèle de reconnaissance vocale en utilisant « l’apprentissage supervisé » et un énorme ensemble de données de milliers d’heures de fichiers audio, provenant de multiples sources, y compris du gratuit (TED-LIUM et LibriSpeech) et payant (Fisher et Standard).

Un discours simplifié

D’autres données vocales ont été récupérées des services d’étude des langues dans les universités, et des stations de télévision et de radio publiques, afin d’affiner le moteur de reconnaissance vocale. Et bien sûr, l’énorme force de ce projet est sa nature open source, qui signifie que cette technologie est maintenant ouverte à toute personne qui souhaite l’utiliser dans ses projets de reconnaissance vocale. En effet, en accord avec tout ce qui est ouvert, ces données sont disponibles en téléchargement si vous voulez construire votre propre moteur ou simplement écouter les 500 heures de discours.

MZ CommonVoice blog post HR 1 — Le projet Automatic Speech Recognition de Mozilla est très alléchant, espérons qu’il n’arrive pas trop tard

En outre. Mozilla note que le plan pour l’avenir est de sortir un modèle suffisamment léger et rapide pour fonctionner sur un smartphone ou un ordinateur monocarte comme le populaire Raspberry Pi. La société a également lancé son initiative Common Voice, un ensemble de données vocales ouvertes et accessibles au public, contenant quelque 400 000 enregistrements provenant de 20 000 locuteurs différents — ce qui représente environ 500 heures de discours.

Comme le dit Mozilla, l’idée est de « construire un corpus de discours gratuit, open source, et assez grand pour créer des produits significatifs avec », tout en fonctionnant en parallèle avec le nouveau modèle de reconnaissance vocale. Il sera intéressant de voir si les développeurs adoptent les outils de Mozilla et quel type d’applications ils construisent avec. Espérons que ce projet ne reste une niche, analogue à la façon dont Firefox OS a pu naître et mourir quelque temps après.

Croyez-vous en cette initiative ? N’est-ce pas trop tard pour avoir une concurrence dans nos smartphones et enceintes connectées ?

Xbox portable : un nouveau logo relance les rumeurs autour d’une console handheld signée Microsoft

Google investit 75 millions de dollars dans A24 pour développer l’IA au cinéma

Steam Machine : Valve dévoile enfin sa console-PC, mais son prix risque de faire débat

Steam Machine : Valve dévoile un prix premium à partir de 1 039 euros

Test de la HUAWEI Watch Fit 5 Pro : l’Apple Watch de ceux qui ne veulent pas d’Apple Watch

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Nothing Phone (4b) : lancement confirmé le 7 juillet pour le nouveau smartphone abordable

Galaxy S27 : Samsung pourrait conserver les mêmes capteurs photo et miser sur l’IA

Nothing Phone (4b) : un smartphone abordable issu d’un projet CMF annulé ?

Galaxy Watch Ultra 2 et Galaxy Watch 9 : Samsung miserait sur l’évolution plutôt que la révolution

OpenAI étend Daybreak avec GPT-5.5-Cyber et de nouveaux outils de cybersécurité

ChatGPT pourrait bientôt parler comme un humain : GPT Bidi 1 apparaît dans les coulisses d’OpenAI

Anthropic pourrait exiger une pièce d’identité pour certains utilisateurs de Claude

Getty Images et OpenAI signent un partenariat majeur autour de l’IA

Meta Glasses : Meta lance ses premières lunettes connectées sous sa propre marque avec Kylie Jenner

OpenAI étend Daybreak avec GPT-5.5-Cyber et de nouveaux outils de cybersécurité

ChatGPT pourrait bientôt parler comme un humain : GPT Bidi 1 apparaît dans les coulisses d’OpenAI

Anthropic pourrait exiger une pièce d’identité pour certains utilisateurs de Claude

« /fork » dans Claude Code : une petite commande qui change profondément le développement assisté par IA

OpenAI attaque Claude Code : la guerre entre Codex et Anthropic s’intensifie

WWDC 2026 : Apple ouvre Xcode 27 à Gemini, ChatGPT et Claude avec une nouvelle génération d’outils IA

GitLab restructure ses équipes pour miser sur les agents IA dans le développement logiciel

Claude Cowork : Le guide complet pour automatiser votre quotidien en 2026

Intel Core Ultra vs Apple Silicon : Quelle philosophie choisir pour votre prochain bureau compact ?

Comment arrêter le suivi des e-mails dans Gmail ?

Claude Code vs ChatGPT Codex : Quel agent choisir pour votre workflow en 2026 ?

Le modèle open source de Mozilla vise à révolutionner la reconnaissance vocale

Un discours simplifié

Google veut alerter quand on regarde votre smartphone à votre insu

Samsung travaille sur une batterie qui charge un smartphone en 12 minutes

The author Yohann Poiron

Le modèle open source de Mozilla vise à révolutionner la reconnaissance vocale

Un discours simplifié

The author Yohann Poiron

vous pourriez aussi aimer