Avec DiffusionGemma, Google explore une nouvelle voie pour l’intelligence artificielle générative. Plutôt que de produire du texte mot par mot comme les grands modèles de langage traditionnels, ce nouveau modèle open source adopte une approche inspirée de la génération d’images par diffusion.
Résultat : une vitesse de génération spectaculaire et de nouvelles possibilités pour les développeurs.
Google DiffusionGemma : Une rupture avec les modèles de langage traditionnels
La quasi-totalité des modèles actuels, qu’il s’agisse de Gemini, ChatGPT ou Claude, reposent sur une architecture dite « autorégressive ». Chaque mot est généré séquentiellement, en fonction des précédents.
DiffusionGemma fonctionne différemment.

Le modèle commence par produire un bloc complet de texte composé de jetons aléatoires, puis affine progressivement l’ensemble du contenu grâce à plusieurs passes successives de « débruitage » (denoising). Une méthode directement inspirée des générateurs d’images comme Stable Diffusion ou Imagen.
L’avantage est majeur : jusqu’à 256 tokens peuvent être générés et corrigés simultanément, au lieu d’être créés un à un.
Un modèle conçu pour la vitesse
Google présente DiffusionGemma comme un modèle de 26 milliards de paramètres basé sur une architecture Mixture-of-Experts (MoE). En pratique, seuls 3,8 milliards de paramètres sont activés lors de l’inférence, ce qui améliore considérablement l’efficacité.

Les performances annoncées sont particulièrement impressionnantes :
- Plus de 1 000 tokens par seconde sur un GPU NVIDIA H100
- Environ 700 tokens par seconde sur une GeForce RTX 5090
- Jusqu’à 2 000 tokens par seconde sur une station NVIDIA DGX
- Une vitesse pouvant atteindre 4 fois celle des modèles autorégressifs comparables
Google et NVIDIA expliquent que cette architecture transforme un problème traditionnellement limité par la bande passante mémoire en une charge davantage orientée calcul, permettant une meilleure exploitation des GPU modernes et des Tensor Cores.
Des usages adaptés aux workflows complexes
Cette approche ouvre la porte à des scénarios particulièrement intéressants. Grâce à son attention bidirectionnelle, DiffusionGemma peut analyser simultanément l’ensemble du texte qu’il produit. Cela le rend particulièrement pertinent pour l’édition de texte en temps réel, le remplissage de code (code infilling), la correction de documents, les séquences biologiques et génétiques, les structures mathématiques complexes et les assistants IA locaux à faible latence.

Google cite notamment un projet de fine-tuning réalisé par Unsloth, où DiffusionGemma a été entraîné à résoudre des grilles de Sudoku, un exercice particulièrement difficile pour les modèles générant du texte de manière séquentielle.
Une IA pensée pour fonctionner localement
L’un des aspects les plus intéressants de DiffusionGemma concerne son déploiement. Une fois quantifié, le modèle peut fonctionner avec environ 18 Go de VRAM, ce qui le rend exploitable sur des cartes graphiques grand public haut de gamme comme les GeForce RTX 4090 et RTX 5090.
Google positionne ainsi DiffusionGemma comme un candidat sérieux pour les assistants IA locaux, les agents autonomes fonctionnant directement sur PC ou encore les workflows de développement sans dépendance au cloud.
Cette stratégie s’inscrit dans une tendance de fond du marché : réduire les coûts d’inférence tout en améliorant la confidentialité des données.
Open source et largement compatible
Distribué sous licence Apache 2.0, DiffusionGemma est disponible dès aujourd’hui avec un large écosystème logiciel :
- Hugging Face Transformers
- vLLM
- MLX
- NVIDIA NIM
- NVIDIA NeMo
- Unsloth
- JAX via Hackable Diffusion
Le modèle peut être téléchargé librement, testé via les API NVIDIA ou déployé localement sur des machines compatibles.
Une démonstration technologique plus qu’un remplaçant de Gemini
Google reste toutefois prudent. L’entreprise reconnaît que DiffusionGemma ne surpasse pas encore les modèles Gemma 4 en matière de qualité de génération pure. Le projet vise avant tout à explorer une nouvelle architecture capable de repousser les limites actuelles de la vitesse d’inférence.
Mais, l’enjeu dépasse largement ce modèle expérimental.
Alors que l’industrie cherche à rendre les assistants IA plus réactifs, plus autonomes et davantage capables de fonctionner localement, la génération par diffusion pourrait représenter l’une des pistes les plus prometteuses de la prochaine génération de modèles de langage.
En d’autres termes, DiffusionGemma n’est peut-être pas seulement une expérimentation. Il pourrait être un aperçu de ce que seront les IA conversationnelles de demain : plus rapides, plus flexibles et moins dépendantes du cloud.



