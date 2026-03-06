Accueil » Alibaba Qwen3.5 : La puissance de l’IA multimodale arrive enfin sur nos PC

Alors que l’IA occidentale s’enferme dans une course aux modèles toujours plus massifs — et aux factures cloud qui grimpent à mesure que l’agentique devient « production-ready » — Alibaba avance avec une proposition presque contre-intuitive : plus d’intelligence, moins de compute.

Cette semaine, l’équipe Qwen a dévoilé la série Qwen3.5 Small Model, un quatuor de modèles open weights (0,8B, 2B, 4B, 9B) pensé pour l’edge, le local-first et les agents légers.

Quatre modèles, une idée : ramener le « capable » à portée de laptop… et parfois de smartphone

La série comprend :

Qwen3.5-0.8B et Qwen3.5-2B : variantes « minuscule/rapide », ciblées pour des déploiements frugaux (edge, batterie, latence).

Qwen3.5-4B : base multimodale compacte, conçue comme brique d’agents légers, avec un contexte natif annoncé à 262k tokens.

Qwen3.5-9B : le « raisonnement compact » que Qwen positionne comme un modèle de référence en densité d’intelligence, avec des comparaisons directes (et très agressives) face à des rivaux bien plus gros.

Les poids sont publiés sous licence Apache 2.0, ce qui autorise un usage commercial et la personnalisation sans royalties — un point clé pour les entreprises qui veulent éviter le verrouillage API.

L’ingrédient technique : une architecture « hybride efficace » (DeltaNet + MoE)

Là où Qwen veut frapper, ce n’est pas seulement sur la taille, mais sur la structure. Dans son article technique, l’équipe décrit une Efficient Hybrid Architecture qui combine Gated Delta Networks (une forme d’attention linéaire) et un Mixture-of-Experts (MoE) clairsemée… afin de contourner la « memory wall » et d’améliorer débit/latence à l’inférence.

Autre point stratégique : la série est annoncée comme nativement multimodale, entraînée via une fusion précoce de tokens multimodaux plutôt que d’ajouter un encodeur vision « par-dessus » un modèle texte. En clair : la vision n’est plus un accessoire, c’est une capacité de base.

Benchmarks : quand « small » prétend jouer dans la ligue des gros

Alibaba publie des résultats très ambitieux (et repris par plusieurs médias), notamment pour les 4B et 9B en raisonnement et multimodal. Parmi les chiffres les plus cités :

GPQA Diamond : Qwen3.5-9B annoncé à 81,7, devant gpt-oss-120B à 80,1

Video-MME (subtitles) : Qwen3.5-9B 84,5, Qwen3.5-4B 83,5, devant Gemini 2.5 Flash-Lite 74,6

MMMU-Pro : Qwen3.5-9B 70,1, au-dessus de Gemini 2.5 Flash-Lite 59,7 dans les comparatifs partagés

À prendre avec la prudence habituelle : ces scores reposent sur des protocoles de benchmark qui peuvent varier (prompts, settings, versions). Mais le signal est clair : Qwen veut imposer l’idée que l’agentic multimodal n’a plus besoin d’une bête à mille milliards de paramètres pour être utile.

Ce que ça change pour les devs et les entreprises

Le « local-first » devient crédible : Un 9B open weights sous Apache 2.0, c’est la promesse d’un agent qui tourne en local (ou en cloud souverain) sans contrainte de tarification au token. Un chemin hors CUDA, dans la logique « stack alternative » : La stratégie globale de Qwen 3.5 s’inscrit dans une poussée plus large d’Alibaba sur l’ère agentique. Un avantage industriel : les « Base models ». La présence de variantes de base (non sur-alignées façon RLHF) est particulièrement attractive pour les équipes qui veulent une « ardoise » à façonner, sans lutter contre des styles ou refus pré-installés (un point régulièrement cité par la communauté).

Le vrai match : pas seulement la performance, mais l’écosystème

Nvidia a CUDA, OpenAI a l’intégration produit, Anthropic a la crédibilité enterprise. Alibaba, lui, met sur la table une autre arme : la distribution (poids open source, permissifs) et l’optimisation d’architecture.

Mais, la réussite, côté entreprise, se jouera sur la robustesse en workflow multi-étapes (éviter l’« hallucination cascade »), la qualité des outils d’inférence et de déploiement, la gouvernance (résidence des données, conformité) et la capacité à maintenir une cadence de mises à jour sans fragmenter l’écosystème.

Pour autant, le mouvement est net : l’IA « utile » se compacte, et l’on voit se dessiner un futur où les agents multimodaux se disséminent — sur des machines locales, des postes de travail, des appliances edge — plutôt que de vivre exclusivement dans le cloud.