Xiaomi accélère brutalement dans la course aux grands modèles de langage. Avec le mode UltraSpeed de MiMo-V2.5-Pro, le groupe chinois affirme avoir franchi la barre symbolique des 1 000 tokens par seconde sur des GPU généralistes.
Développé avec TileRT, ce modèle de 1 000 milliards de paramètres promet une vitesse de génération spectaculaire, environ dix fois supérieure à l’accès API standard de MiMo-V2.5-Pro.
Une vitesse pensée pour les usages en temps réel
Le précédent MiMo-V2-Flash atteignait déjà 150 tokens par seconde fin 2025, soit une cadence plus rapide que la lecture humaine. Avec UltraSpeed, Xiaomi change d’échelle.
À ce niveau, l’IA ne se contente plus de répondre rapidement. Elle devient capable de générer du code, du texte ou des interactions longues presque instantanément, ouvrant la voie à des agents plus fluides, des assistants temps réel et des outils de développement beaucoup plus réactifs.
Une performance obtenue par co-conception
Xiaomi explique cette avancée par une optimisation conjointe du modèle et de l’infrastructure d’inférence. Autrement dit, MiMo-V2.5-Pro UltraSpeed n’est pas seulement un modèle plus rapide. Il est conçu avec le système qui l’exécute, afin de réduire les goulets d’étranglement entre calcul, mémoire et génération de tokens.
C’est précisément ce type d’optimisation qui devient stratégique à mesure que les modèles IA grossissent.

Une option premium, trois fois plus chère
Cette vitesse a toutefois un prix. L’API MiMo-V2.5-Pro-UltraSpeed coûte trois fois plus cher que l’accès standard. Xiaomi présente ce compromis comme une équation simple : trois fois le prix pour une expérience de sortie dix fois plus rapide.
Le mode UltraSpeed n’est pas inclus dans les Token Plans classiques et reste pour l’instant limité à un accès API expérimental.
Un essai réservé aux entreprises et développeurs avancés
En raison de ressources d’inférence limitées, Xiaomi ouvre une phase de test sur candidature du 9 au 23 juin 2026.
Les entreprises et développeurs professionnels disposant de besoins concrets seront prioritaires. Les comptes approuvés bénéficieront de deux semaines d’essai gratuit, avec des limites strictes : files d’attente plafonnées, sessions de 30 minutes et libération automatique des ressources en cas d’inactivité.
Xiaomi veut exister face aux géants de l’IA
Avec MiMo, Xiaomi ne se contente plus d’intégrer l’IA dans ses smartphones, voitures ou objets connectés. Le groupe construit progressivement une véritable famille de modèles couvrant texte, voix et multimodalité.
UltraSpeed montre surtout une ambition claire : se distinguer non seulement par la taille du modèle, mais par l’expérience utilisateur. Dans l’IA générative, la vitesse devient un avantage compétitif aussi important que la précision.



