fermer
Intelligence Artificielle

Voxtral : Mistral lance son premier modèle audio open source pour concurrencer Whisper

Voxtral : Mistral lance son premier modèle audio open source pour concurrencer Whisper
Voxtral : Mistral lance son premier modèle audio open source pour concurrencer Whisper

Alors que la voix devient un mode d’interaction privilégié avec les intelligences artificielles, la startup française Mistral AI entre dans la course à l’audio avec une approche bien à elle : l’ouverture. Ce mardi, l’entreprise a dévoilé Voxtral, sa première famille de modèles vocaux open source, conçue pour offrir aux entreprises une alternative puissante, flexible… et abordable.

Avec Voxtral, Mistral entend casser le monopole des systèmes fermés (comme ceux d’OpenAI ou Google), tout en garantissant une performance de haut niveau, prête pour la production.

Voxtral : Une vraie « intelligence vocale » open source

Le pari est clair : rendre la parole à l’open source. Jusqu’à présent, les développeurs devaient souvent choisir entre des modèles ouverts et bon marché, mais peu précis, ou des solutions propriétaires efficaces… mais coûteuses, fermées, et difficiles à intégrer dans des workflows personnalisés.

Mistral change la donne avec Voxtral, qu’il présente comme le premier modèle vocal open source réellement exploitable en production.

Selon l’entreprise, Voxtral permet de traiter jusqu’à 30 minutes d’audio, avec une compréhension contextuelle jusqu’à 40 minutes grâce à son moteur LLM, Mistral Small 3.1. Il ne se contente pas de transcrire : il comprend, résume, interprète, répond et déclenche des actions via API. Et bien sûr, tout cela dans plusieurs langues, dont le français, l’anglais, l’espagnol, le portugais, l’allemand, le néerlandais, l’italien ou encore l’hindi.

Deux modèles : pour le cloud ou pour l’embarqué

Mistral propose deux variantes de Voxtral, selon les besoins de puissance et de déploiement :

  • Voxtral Small (24 milliards de paramètres): conçu pour des usages à grande échelle, en production. Il vise directement les concurrents comme GPT-4o-mini, ElevenLabs Scribe ou encore Gemini 2.5 Flash.
  • Voxtral Mini (3 milliards de paramètres) : destiné aux déploiements en local ou sur appareils embarqués (edge), avec un encombrement réduit et une consommation maîtrisée.

Enfin, une version allégée, baptisée Voxtral Mini Transcribe, a été optimisée pour des usages de transcription uniquement. Elle revendique des performances supérieures à Whisper d’OpenAI, pour moins de la moitié du prix.

Tarifs, accessibilité et usage

Screen 2025 07 15 at 22.52.58

La bonne nouvelle ? Voxtral est disponible en open source :

  • Le code et les modèles peuvent être testés directement via l’API de Mistral sur Hugging Face ;
  • Ils sont également intégrés à Le Chat, le chatbot maison de Mistral ;
  • L’intégration via API débute à 0,001 dollar la minute, une tarification ultra compétitive pour les entreprises.

Ce lancement s’inscrit dans la stratégie plus large de Mistral visant à créer un écosystème complet de modèles ouverts. Il intervient un mois seulement après Magistral, son modèle LLM orienté « raisonnement pas à pas ».

Une vision européenne assumée de l’IA

Fondée en 2023, Mistral s’est imposée comme l’un des fleurons européens de l’IA open source. Soutenue par des investisseurs prestigieux (dont récemment le fonds MGX d’Abu Dhabi, en discussion pour un tour à 1 milliard de dollars), la startup défend une IA transparente, souveraine et contrôlable par les développeurs.

Avec Voxtral, elle élargit son champ d’action au domaine vocal, stratégique dans l’adoption massive de l’IA dans l’entreprise, qu’il s’agisse de transcription, d’assistants vocaux, d’analyse d’appels ou de contrôle à la voix.

Voxtral s’impose déjà comme un sérieux concurrent de Whisper, ElevenLabs et Gemini, tout en offrant aux entreprises l’indépendance d’un modèle open source. Pour les développeurs, c’est une opportunité : plus de contrôle, plus de flexibilité, et des coûts divisés par deux.

L’intégration rapide dans des applications métiers, la compatibilité multilingue, et les performances sur le traitement vocal font de Voxtral une solution à suivre de près — surtout dans un monde où la voix devient l’interface par défaut de nos échanges avec les machines.

 

Tags : Mistralopen sourceVoxtral
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.