Avec DiffusionGemma, Google explore une nouvelle voie pour l’intelligence artificielle générative. Plutôt que de produire du texte mot par mot comme les grands modèles de langage traditionnels, ce nouveau modèle open source adopte une approche inspirée de la génération d’images par diffusion.

Résultat : une vitesse de génération spectaculaire et de nouvelles possibilités pour les développeurs.

Google DiffusionGemma : Une rupture avec les modèles de langage traditionnels

La quasi-totalité des modèles actuels, qu’il s’agisse de Gemini, ChatGPT ou Claude, reposent sur une architecture dite « autorégressive ». Chaque mot est généré séquentiellement, en fonction des précédents.

DiffusionGemma fonctionne différemment.

Le modèle commence par produire un bloc complet de texte composé de jetons aléatoires, puis affine progressivement l’ensemble du contenu grâce à plusieurs passes successives de « débruitage » (denoising). Une méthode directement inspirée des générateurs d’images comme Stable Diffusion ou Imagen.

L’avantage est majeur : jusqu’à 256 tokens peuvent être générés et corrigés simultanément, au lieu d’être créés un à un.

Un modèle conçu pour la vitesse

Google présente DiffusionGemma comme un modèle de 26 milliards de paramètres basé sur une architecture Mixture-of-Experts (MoE). En pratique, seuls 3,8 milliards de paramètres sont activés lors de l’inférence, ce qui améliore considérablement l’efficacité.

Les performances annoncées sont particulièrement impressionnantes :

Plus de 1 000 tokens par seconde sur un GPU NVIDIA H100
Environ 700 tokens par seconde sur une GeForce RTX 5090
Jusqu’à 2 000 tokens par seconde sur une station NVIDIA DGX
Une vitesse pouvant atteindre 4 fois celle des modèles autorégressifs comparables

Google et NVIDIA expliquent que cette architecture transforme un problème traditionnellement limité par la bande passante mémoire en une charge davantage orientée calcul, permettant une meilleure exploitation des GPU modernes et des Tensor Cores.

Des usages adaptés aux workflows complexes

Cette approche ouvre la porte à des scénarios particulièrement intéressants. Grâce à son attention bidirectionnelle, DiffusionGemma peut analyser simultanément l’ensemble du texte qu’il produit. Cela le rend particulièrement pertinent pour l’édition de texte en temps réel, le remplissage de code (code infilling), la correction de documents, les séquences biologiques et génétiques, les structures mathématiques complexes et les assistants IA locaux à faible latence.

Google cite notamment un projet de fine-tuning réalisé par Unsloth, où DiffusionGemma a été entraîné à résoudre des grilles de Sudoku, un exercice particulièrement difficile pour les modèles générant du texte de manière séquentielle.

Une IA pensée pour fonctionner localement

L’un des aspects les plus intéressants de DiffusionGemma concerne son déploiement. Une fois quantifié, le modèle peut fonctionner avec environ 18 Go de VRAM, ce qui le rend exploitable sur des cartes graphiques grand public haut de gamme comme les GeForce RTX 4090 et RTX 5090.

Google positionne ainsi DiffusionGemma comme un candidat sérieux pour les assistants IA locaux, les agents autonomes fonctionnant directement sur PC ou encore les workflows de développement sans dépendance au cloud.

Cette stratégie s’inscrit dans une tendance de fond du marché : réduire les coûts d’inférence tout en améliorant la confidentialité des données.

Open source et largement compatible

Distribué sous licence Apache 2.0, DiffusionGemma est disponible dès aujourd’hui avec un large écosystème logiciel :

Hugging Face Transformers
vLLM
MLX
NVIDIA NIM
NVIDIA NeMo
Unsloth
JAX via Hackable Diffusion

Le modèle peut être téléchargé librement, testé via les API NVIDIA ou déployé localement sur des machines compatibles.

Une démonstration technologique plus qu’un remplaçant de Gemini

Google reste toutefois prudent. L’entreprise reconnaît que DiffusionGemma ne surpasse pas encore les modèles Gemma 4 en matière de qualité de génération pure. Le projet vise avant tout à explorer une nouvelle architecture capable de repousser les limites actuelles de la vitesse d’inférence.

Mais, l’enjeu dépasse largement ce modèle expérimental.

Alors que l’industrie cherche à rendre les assistants IA plus réactifs, plus autonomes et davantage capables de fonctionner localement, la génération par diffusion pourrait représenter l’une des pistes les plus prometteuses de la prochaine génération de modèles de langage.

En d’autres termes, DiffusionGemma n’est peut-être pas seulement une expérimentation. Il pourrait être un aperçu de ce que seront les IA conversationnelles de demain : plus rapides, plus flexibles et moins dépendantes du cloud.

Cloudflare ouvre OAuth 2.0 à tous les développeurs et prépare l’arrivée des agents IA

Microsoft Edge va empêcher les captures d’écran de certains PDF protégés dans OneDrive et SharePoint

Firefox 153 intègre les Containers, améliore les PDF et ajoute le HDR sous Windows

EA Sports FC 27 : éditions, prix, bonus de précommande et date de sortie

Galaxy Z Fold 8 Ultra : prise en main du pliable que son petit frère éclipse

Prise en main du Galaxy Z Fold 8 : le pliant format passeport qui vole la vedette à l’Ultra

Test de la HUAWEI Watch Fit 5 Pro : l’Apple Watch de ceux qui ne veulent pas d’Apple Watch

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Nothing dément les rumeurs de retrait international et confirme une réorganisation interne

Nothing en difficulté ? Une rumeur évoque un retrait de 12 marchés et d’importantes suppressions de postes

iPhone Ultra : Apple préparerait un lancement décalé pour son premier iPhone pliable

Google renforce Gemini sur les nouveaux Samsung Galaxy : IA, automatisation et migration depuis l’iPhone au programme

Nvidia, Microsoft et Meta défendent l’IA ouverte face aux modèles propriétaires

ChatGPT Voice peut désormais contrôler votre ordinateur grâce aux nouveaux agents IA d’OpenAI

Anthropic dévoile Claude Opus 5, un modèle plus performant et moins restrictif que Fable 5

OpenAI déploie ChatGPT Health à tous les utilisateurs américains malgré les controverses

Nvidia, Microsoft et Meta défendent l’IA ouverte face aux modèles propriétaires

ChatGPT Voice peut désormais contrôler votre ordinateur grâce aux nouveaux agents IA d’OpenAI

Intel avance son procédé 14A et accélère sa stratégie pour concurrencer TSMC

Anthropic dévoile Claude Opus 5, un modèle plus performant et moins restrictif que Fable 5

Google AI Studio simplifie le déploiement des applications avec des URL personnalisées

Claude Code ajoute un navigateur intégré pour consulter la documentation sans quitter l’IDE

Google Agents CLI : l’outil qui transforme Claude Code et Codex en experts des agents IA

Meta Pocket : créez des mini-jeux avec l’IA simplement en les décrivant

Comment réserver votre nom de profil WhatsApp ?

Claude Cowork : Le guide complet pour automatiser votre quotidien en 2026

Intel Core Ultra vs Apple Silicon : Quelle philosophie choisir pour votre prochain bureau compact ?

Comment arrêter le suivi des e-mails dans Gmail ?

Google DiffusionGemma : le modèle IA open source qui génère du texte jusqu’à 4 fois plus vite

Google DiffusionGemma : Une rupture avec les modèles de langage traditionnels

Un modèle conçu pour la vitesse

Des usages adaptés aux workflows complexes

Une IA pensée pour fonctionner localement

Open source et largement compatible

Une démonstration technologique plus qu’un remplaçant de Gemini

OpenAI préparerait déjà GPT-5.6 : une nouvelle étape dans la guerre des modèles IA

Framework Laptop 13 Pro retardé : les premières livraisons repoussées à juillet

The author Yohann Poiron

Google DiffusionGemma : le modèle IA open source qui génère du texte jusqu’à 4 fois plus vite

Google DiffusionGemma : Une rupture avec les modèles de langage traditionnels

Un modèle conçu pour la vitesse

Des usages adaptés aux workflows complexes

Une IA pensée pour fonctionner localement

Open source et largement compatible

Une démonstration technologique plus qu’un remplaçant de Gemini

The author Yohann Poiron

vous pourriez aussi aimer