Microsoft ne veut plus seulement héberger l’IA des autres. Avec le lancement de trois modèles fondamentaux MAI développés en interne — MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2 — le groupe de Redmond matérialise une ambition devenue beaucoup plus nette ces derniers mois : construire sa propre autonomie technologique sur les couches les plus stratégiques de l’IA.
Microsoft MAI : Trois modèles, trois usages clés, une même logique d’indépendance
Microsoft a officialisé ce 2 avril l’arrivée de MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2, disponibles via Microsoft Foundry et, pour les essais, via MAI Playground. Les trois couvrent des catégories hautement monétisables de l’IA d’entreprise : la transcription de la parole, la synthèse vocale et la génération d’images.
Dans son article de lancement, Mustafa Suleyman insiste d’ailleurs sur une promesse très simple : des modèles « meilleur, plus rapide et moins cher » que la concurrence, avec des prix agressifs dès le départ.
Le message est important parce qu’il change la place de Microsoft dans la chaîne de valeur. Jusqu’ici, l’entreprise était surtout vue comme le grand distributeur d’IA de l’ère OpenAI : l’infrastructure, l’intégration produit, la diffusion à l’échelle. Désormais, elle veut aussi être jugée sur sa capacité à concevoir elle-même des modèles de premier plan.
MAI-Transcribe-1 est la vraie pièce maîtresse
Le modèle le plus stratégique, à court terme, semble être MAI-Transcribe-1. Microsoft affirme qu’il atteint le meilleur taux d’erreur moyen sur FLEURS, le benchmark multilingue de référence, sur les 25 langues les plus importantes pour ses produits. Selon les résultats publiés par Microsoft, il surpasse Whisper-large-v3 d’OpenAI sur les 25 langues testées, Gemini 3.1 Flash-Lite de Google sur 22 d’entre elles, et d’autres modèles concurrents comme Scribe v2 et GPT-Transcribe sur une partie importante du benchmark.
Microsoft annonce aussi une vitesse de transcription batch 2,5 fois supérieure à son offre Azure Fast existante.

Sur le plan produit, c’est loin d’être anecdotique. Microsoft teste déjà ce modèle dans Copilot Voice et dans Teams pour la transcription conversationnelle, signe qu’il ne s’agit pas d’une vitrine isolée mais d’une brique destinée à remplacer rapidement des solutions tierces ou plus anciennes dans ses propres services.
Microsoft précise également que la journalisation, le streaming et le biais contextuel arriveront plus tard.
Voix et image : Microsoft vise aussi les couches créatives les plus rentables
À côté de la transcription, MAI-Voice-1 s’attaque à un marché en pleine accélération. Microsoft décrit un modèle capable de générer 60 secondes d’audio en moins d’une seconde sur un seul GPU, avec conservation de l’identité vocale sur des contenus plus longs, et la possibilité de créer des voix personnalisées à partir de quelques secondes d’audio dans Foundry. Son prix de lancement est fixé à 22 dollars par million de caractères.
MAI-Image-2, de son côté, est présenté comme le modèle image le plus avancé de Microsoft à ce jour. L’entreprise affirme qu’il a débuté à la troisième place du classement Arena.ai pour les familles de modèles image, et qu’il offre au moins deux fois plus de rapidité que son prédécesseur dans Foundry et Copilot.

Microsoft commence aussi à le déployer dans Bing et PowerPoint, avec une tarification de 5 dollars par million de tokens en entrée texte et 33 dollars par million de tokens en sortie image.
Ce lancement n’aurait pas été possible sans le nouveau deal avec OpenAI
L’arrière-plan contractuel est essentiel pour comprendre pourquoi cette annonce compte autant. En novembre 2025, Bloomberg révélait que Microsoft avait renégocié sa relation avec OpenAI, ce qui lui permettait désormais de poursuivre indépendamment des travaux sur la « superintelligence », alors que son accord précédent limitait cette latitude.
Suleyman l’a répété dans ses entretiens ultérieurs : Microsoft conserve ses droits de licence sur les modèles d’OpenAI jusqu’en 2032, mais dispose désormais de la liberté nécessaire pour développer ses propres modèles de pointe.
Autrement dit, Microsoft n’abandonne pas OpenAI ; il se donne simplement les moyens de ne plus en dépendre entièrement. C’est une nuance capitale. La firme continue de distribuer aussi bien les modèles d’OpenAI que ceux d’Anthropic dans son écosystème, mais elle construit en parallèle une voie de souveraineté technique. C’est exactement ce que Suleyman résume par l’idée d’« autosuffisance de l’IA ».
Des équipes minuscules pour un discours maximaliste
L’un des détails les plus frappants de l’entretien accordé à VentureBeat concerne la taille des équipes. Suleyman affirme que le modèle audio a été construit par dix personnes, et que l’équipe image compte elle aussi moins de dix personnes. Il attribue l’essentiel des gains à l’architecture des modèles et à la qualité des données, dans une organisation volontairement très plate.
Cette donnée n’est pas qu’une anecdote de management. Elle sert le récit que Microsoft veut installer : celui d’une IA de pointe plus efficace, moins dépendante d’armées d’ingénieurs et potentiellement plus rentable. Dans un contexte où les investisseurs demandent des preuves de monétisation et de discipline économique sur l’IA, l’argument est habile.
Le vrai sujet : Microsoft veut devenir un labo de frontière, pas seulement une plateforme
Le plus révélateur est peut-être ailleurs. En mars, Microsoft a réorganisé ses équipes Copilot : Jacob Andreou a pris la tête de l’expérience Copilot côté produit, pendant que Suleyman se libérait davantage pour se concentrer sur les efforts de superintelligence.
Ces trois modèles ne sont donc pas un coup isolé. Ils servent de preuve initiale. Microsoft montre qu’il peut déjà produire des modèles compétitifs sur des modalités précises, les intégrer dans ses produits, les vendre aux développeurs et les tarifer sous pression concurrentielle.
Et selon Suleyman, ce n’est qu’un début : il affirme clairement que Microsoft compte livrer des modèles d’état de l’art dans toutes les modalités, y compris à terme un véritable Large Language Model capable de rivaliser frontalement avec les références du secteur.
Microsoft passe du rôle de partenaire indispensable à celui de concurrent crédible
Le mouvement est stratégique et presque inévitable. Pendant deux ans, Microsoft a largement gagné en étant l’allié industriel d’OpenAI. Mais à mesure que l’IA devient un marché d’infrastructure, de marges et de dépendances critiques, cette position devient insuffisante. Héberger, intégrer et distribuer les meilleurs modèles ne protège pas totalement contre le risque de dépendance technologique. Produire ses propres fondations, si
C’est ce qui rend cette annonce plus importante que ses seules performances techniques. MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2 ne sont pas encore le grand rival de GPT sur le terrain du raisonnement général. Mais, ils installent quelque chose de plus profond : Microsoft n’est plus seulement la maison qui héberge l’IA. Elle veut devenir l’une de celles qui la fabriquent.
Et dans l’économie qui se dessine, cette différence pourrait peser très lourd.


