Alors que l’IA occidentale s’enferme dans une course aux modèles toujours plus massifs — et aux factures cloud qui grimpent à mesure que l’agentique devient « production-ready » — Alibaba avance avec une proposition presque contre-intuitive : plus d’intelligence, moins de compute.

Cette semaine, l’équipe Qwen a dévoilé la série Qwen3.5 Small Model, un quatuor de modèles open weights (0,8B, 2B, 4B, 9B) pensé pour l’edge, le local-first et les agents légers.

🚀 Introducing the Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B

✨ More intelligence, less compute.
These small models are built on the same Qwen3.5 foundation — native multimodal, improved architecture, scaled RL:
• 0.8B / 2B → tiny, fast,… pic.twitter.com/90JfOM9k4T

— Qwen (@Alibaba_Qwen) March 2, 2026

Quatre modèles, une idée : ramener le « capable » à portée de laptop… et parfois de smartphone

La série comprend :

Qwen3.5-0.8B et Qwen3.5-2B : variantes « minuscule/rapide », ciblées pour des déploiements frugaux (edge, batterie, latence).
Qwen3.5-4B : base multimodale compacte, conçue comme brique d’agents légers, avec un contexte natif annoncé à 262k tokens.
Qwen3.5-9B : le « raisonnement compact » que Qwen positionne comme un modèle de référence en densité d’intelligence, avec des comparaisons directes (et très agressives) face à des rivaux bien plus gros.

Les poids sont publiés sous licence Apache 2.0, ce qui autorise un usage commercial et la personnalisation sans royalties — un point clé pour les entreprises qui veulent éviter le verrouillage API.

L’ingrédient technique : une architecture « hybride efficace » (DeltaNet + MoE)

Là où Qwen veut frapper, ce n’est pas seulement sur la taille, mais sur la structure. Dans son article technique, l’équipe décrit une Efficient Hybrid Architecture qui combine Gated Delta Networks (une forme d’attention linéaire) et un Mixture-of-Experts (MoE) clairsemée… afin de contourner la « memory wall » et d’améliorer débit/latence à l’inférence.

Autre point stratégique : la série est annoncée comme nativement multimodale, entraînée via une fusion précoce de tokens multimodaux plutôt que d’ajouter un encodeur vision « par-dessus » un modèle texte. En clair : la vision n’est plus un accessoire, c’est une capacité de base.

Benchmarks : quand « small » prétend jouer dans la ligue des gros

Alibaba publie des résultats très ambitieux (et repris par plusieurs médias), notamment pour les 4B et 9B en raisonnement et multimodal. Parmi les chiffres les plus cités :

GPQA Diamond : Qwen3.5-9B annoncé à 81,7, devant gpt-oss-120B à 80,1
Video-MME (subtitles) : Qwen3.5-9B 84,5, Qwen3.5-4B 83,5, devant Gemini 2.5 Flash-Lite 74,6
MMMU-Pro : Qwen3.5-9B 70,1, au-dessus de Gemini 2.5 Flash-Lite 59,7 dans les comparatifs partagés

À prendre avec la prudence habituelle : ces scores reposent sur des protocoles de benchmark qui peuvent varier (prompts, settings, versions). Mais le signal est clair : Qwen veut imposer l’idée que l’agentic multimodal n’a plus besoin d’une bête à mille milliards de paramètres pour être utile.

Ce que ça change pour les devs et les entreprises

Le « local-first » devient crédible : Un 9B open weights sous Apache 2.0, c’est la promesse d’un agent qui tourne en local (ou en cloud souverain) sans contrainte de tarification au token.
Un chemin hors CUDA, dans la logique « stack alternative » : La stratégie globale de Qwen 3.5 s’inscrit dans une poussée plus large d’Alibaba sur l’ère agentique.
Un avantage industriel : les « Base models ». La présence de variantes de base (non sur-alignées façon RLHF) est particulièrement attractive pour les équipes qui veulent une « ardoise » à façonner, sans lutter contre des styles ou refus pré-installés (un point régulièrement cité par la communauté).

Le vrai match : pas seulement la performance, mais l’écosystème

Nvidia a CUDA, OpenAI a l’intégration produit, Anthropic a la crédibilité enterprise. Alibaba, lui, met sur la table une autre arme : la distribution (poids open source, permissifs) et l’optimisation d’architecture.

Mais, la réussite, côté entreprise, se jouera sur la robustesse en workflow multi-étapes (éviter l’« hallucination cascade »), la qualité des outils d’inférence et de déploiement, la gouvernance (résidence des données, conformité) et la capacité à maintenir une cadence de mises à jour sans fragmenter l’écosystème.

Pour autant, le mouvement est net : l’IA « utile » se compacte, et l’on voit se dessiner un futur où les agents multimodaux se disséminent — sur des machines locales, des postes de travail, des appliances edge — plutôt que de vivre exclusivement dans le cloud.

Sony imagine une manette PlayStation modulaire avec écran détachable : un brevet dévoile un concept inédit

Attention à cette arnaque : de faux e-mails de sécurité X cherchent à voler votre mot de passe

Apple poursuit d’anciens employés liés à OpenAI… mais évite soigneusement de citer Jony Ive

Xbox relance sa stratégie d’exclusivités : Microsoft confirme le retour des jeux réservés à ses consoles

Test de la HUAWEI Watch Fit 5 Pro : l’Apple Watch de ceux qui ne veulent pas d’Apple Watch

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Hisense A10 : le smartphone E Ink dévoile de nouvelles caractéristiques avant son lancement

Samsung lance la Galaxy Card : une carte bancaire pour renforcer son écosystème aux États-Unis

Galaxy Z Fold 8 : de nouvelles photos en conditions réelles confirment le design compact du futur pliable de Samsung

Adobe teste AI Playground dans Project Indigo : une nouvelle expérience photo dopée à l’IA sur iPhone

Google travaillerait sur Frozen v2, une puce IA dédiée à Gemini gravée directement dans le silicium

Alibaba présente Qwen3.8-Max Preview, son nouveau modèle d’IA de 2 400 milliards de paramètres

ASML accélère la production de ses machines EUV pour répondre à la demande mondiale en IA

OpenAI renforce la sécurité de ChatGPT pour les adolescents avec de nouveaux contrôles parentaux et un mode d’étude

Samsung Display lance un écran OLED tandem pour PC avec une luminosité record de 1 600 nits

Samsung GAIA : une nouvelle architecture IA pourrait transformer les futures puces Exynos

DJI Osmo 360 II : les premières fuites révèlent une batterie plus grande et le NFC

Google travaillerait sur Frozen v2, une puce IA dédiée à Gemini gravée directement dans le silicium

Google AI Studio simplifie le déploiement des applications avec des URL personnalisées

Claude Code ajoute un navigateur intégré pour consulter la documentation sans quitter l’IDE

Google Agents CLI : l’outil qui transforme Claude Code et Codex en experts des agents IA

Meta Pocket : créez des mini-jeux avec l’IA simplement en les décrivant

Comment réserver votre nom de profil WhatsApp ?

Claude Cowork : Le guide complet pour automatiser votre quotidien en 2026

Intel Core Ultra vs Apple Silicon : Quelle philosophie choisir pour votre prochain bureau compact ?

Comment arrêter le suivi des e-mails dans Gmail ?

Alibaba Qwen3.5 : La puissance de l’IA multimodale arrive enfin sur nos PC

Quatre modèles, une idée : ramener le « capable » à portée de laptop… et parfois de smartphone

L’ingrédient technique : une architecture « hybride efficace » (DeltaNet + MoE)

Benchmarks : quand « small » prétend jouer dans la ligue des gros

Ce que ça change pour les devs et les entreprises

Le vrai match : pas seulement la performance, mais l’écosystème

Telegram 12.5.0 : Vos messages privés deviennent impossibles à capturer

OPPO Watch X3 : Titane, eSIM et le pari audacieux de la recharge USB-C

The author Yohann Poiron

Alibaba Qwen3.5 : La puissance de l’IA multimodale arrive enfin sur nos PC

Quatre modèles, une idée : ramener le « capable » à portée de laptop… et parfois de smartphone

L’ingrédient technique : une architecture « hybride efficace » (DeltaNet + MoE)

Benchmarks : quand « small » prétend jouer dans la ligue des gros

Ce que ça change pour les devs et les entreprises

Le vrai match : pas seulement la performance, mais l’écosystème

The author Yohann Poiron

vous pourriez aussi aimer