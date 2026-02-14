Accueil » Xiaomi-Robotics-0 : Xiaomi open source un modèle VLA pour la robotique et vise le temps réel

Xiaomi-Robotics-0 : Xiaomi open source un modèle VLA pour la robotique et vise le temps réel

Xiaomi-Robotics-0 : Xiaomi open source un modèle VLA pour la robotique et vise le temps réel

Xiaomi a longtemps été le spécialiste du rapport qualité-prix dans le smartphone et la maison connectée. Avec Xiaomi-Robotics-0, la marque joue une partition beaucoup plus ambitieuse : devenir un acteur audible dans la recherche robotique « incarnée », là où les modèles ne se contentent plus de comprendre le monde… mais doivent agir dedans, en temps réel.

Xiaomi-Robotics-0 : relier vision, langage et action sans sacrifier l’un pour l’autre

Xiaomi présente Xiaomi-Robotics-0 comme un modèle Vision-Language-Action (VLA) open-source de 4,7 milliards de paramètres, conçu pour boucler le triptyque robotique : perception → décision → exécution.

Le point intéressant, c’est l’angle revendiqué : beaucoup de VLA perdent une partie de leur « intelligence » multimodale dès qu’ils sont entraînés à l’action (le contrôle moteur « écrase » la compréhension). Xiaomi affirme avoir évité ce piège via une recette d’entraînement et une stratégie de déploiement pensées pour préserver les capacités VLM tout en gagnant en motricité.

Architecture : Mixture-of-Transformers d’un côté, diffusion pour l’action de l’autre

Dans la présentation officielle, Xiaomi décrit une architecture qui sépare les responsabilités :

Un cœur vision-langage (VLM/VLM-like) pour interpréter les instructions humaines et raisonner sur la scène (relations spatiales, objets, intentions).

Un « Action Expert » basé sur une approche de Diffusion Transformer (DiT), qui génère non pas une action isolée, mais des segments d’actions (« action chunks ») plus fluides et cohérents.

Sur le papier, c’est exactement ce qui manque à beaucoup de démos robotiques : elles sont « intelligentes », mais hachées — comme si le robot réfléchissait à chaque micro-mouvement.

Entraînement et latence : l’obsession du « temps réel »

Xiaomi insiste aussi sur la dimension « système », souvent sous-estimée : en robotique, la latence d’inférence ne fait pas juste perdre du confort, elle peut casser la stabilité.

La marque évoque notamment une exécution asynchrone pour découpler calcul et mouvement (éviter les pauses), et des techniques de stabilisation de séquences (réinjecter des actions précédentes, biais d’attention vers le visuel « présent ») pour garder une trajectoire propre quand l’environnement change.

C’est un message important : Xiaomi ne vend pas seulement un modèle, mais une approche d’intégration « robot-ready ».

Benchmarks : SOTA annoncé… mais l’essentiel sera la reproductibilité

Xiaomi affirme que Xiaomi-Robotics-0 atteint des résultats à l’état de l’art sur des benchmarks robotiques reconnus comme LIBERO, CALVIN et SimplerEnv, face à une trentaine de modèles comparés.

La marque dit aussi l’avoir déployé sur une plateforme bi-bras en réel, avec des tâches « horizon long » comme le pliage de serviette et des manipulations d’objets rigides et flexibles.

Le point à surveiller maintenant n’est pas la performance « titrée », mais est-ce que la communauté peut reproduire les scores ? Quelle est la robustesse hors distribution (nouveaux objets, nouveaux éclairages, nouvelles caméras), ou encore quelles sont les exigences matériel (capteurs, compute, cadence) pour tenir le « temps réel » ?

Parce que c’est là que beaucoup de VLA brillent en simulation… puis s’éteignent au contact du monde.

Pourquoi Xiaomi fait ça maintenant

Ce lancement n’arrive pas dans le vide. Depuis 18 mois, l’industrie pousse une idée : les modèles ne doivent plus seulement « parler », ils doivent opérer — dans un navigateur, un terminal… ou un robot. Le VLA est la version « physique » de ce basculement.

Et, Xiaomi a un intérêt stratégique évident puisqu’elle maîtrise déjà une chaîne hardware très large, elle a une empreinte forte sur les devices « quotidiens », et elle peut, à terme, relier robotique, maison connectée et mobilité dans une même logique d’écosystème.

Autrement dit : l’open-source ici n’est pas qu’un geste académique, c’est aussi un accélérateur d’adoption et un levier de crédibilité. (À condition que le code, les poids, et les pipelines d’éval soient réellement exploitables.)

Xiaomi-Robotics-0 ressemble à une prise de position : Xiaomi ne veut plus seulement optimiser des produits, elle veut contribuer à la couche « intelligence » qui animera des machines. Reste à voir si l’ouverture sera assez complète — et si la communauté validera, chiffres en main, que le « SOTA » tient hors des slides.