Lorsque vous utilisez ChatGPT, en particulier le modèle GPT-4, vous avez certainement remarqué la lenteur avec laquelle le modèle répond aux requêtes. Sans parler des assistants vocaux basés sur de Large Language Model, comme la fonction Voice Chat de ChatGPT ou la récente version de Gemini, qui a remplacé Google Assistant sur les smartphones Android, qui sont encore plus lents en raison de la latence élevée des LLM. Mais tout cela devrait bientôt changer, grâce au nouveau et puissant moteur d’inférence LPU (Language Processing Unit) de Groq.

Dans un secteur technologique en constante évolution, la rapidité et l’efficacité des traitements informatiques sont au cœur des préoccupations, particulièrement dans le domaine de l’intelligence artificielle (IA).

À cet égard, la société Groq, co-fondée par Jonathan Ross, ancien ingénieur de Google, fait figure de pionnière avec son tout nouveau moteur d’inférence LPU (Language Processing Unit), promettant de révolutionner la vitesse de traitement des modèles de langage.

Contrairement à l’IA conversationnelle ChatGPT d’OpenAI, qui repose sur des puces Nvidia, le LPU de Groq se distingue par sa capacité à générer jusqu’à 500 tokens par seconde pour un modèle de 7 milliards de paramètres, et 250 tokens par seconde pour un modèle de 70 milliards. Cette performance dépasse largement celle des solutions basées sur les GPU Nvidia, qui oscillent entre 30 et 60 tokens par seconde.

L’histoire de Groq commence en 2016, lorsque Jonathan Ross quitte Google pour fonder sa propre entreprise, emmenant avec lui une partie de l’équipe ayant développé le premier TPU (Tensor Processing Unit). L’approche innovante de Groq repose sur un développement logiciel préalable à la conception matérielle, permettant d’atteindre une performance dite « déterministe », essentielle pour des résultats rapides, précis et prévisibles.

Le LPU de Groq : une architecture sur mesure

L’architecture du LPU de Groq, analogue à celle d’un ASIC (circuit intégré spécifique à une application), est optimisée pour le traitement séquentiel des données dans les Large Language Modal (LLM), contrairement aux CPU et GPU traditionnels. Cette spécialisation, combinée à un compilateur sur mesure, réduit considérablement la latence, offrant une efficacité et une performance accrues.

Bien que conçu principalement pour l’inférence IA, le LPU de Groq ne se prête pas à l’entraînement de modèles en raison de l’absence de mémoire à haute bande passante (HBM). Toutefois, son efficacité énergétique et sa capacité à fonctionner avec des modèles de diffusion en font une solution attrayante pour diverses applications, y compris la génération d’images haute résolution en moins d’une seconde.

Bien que je ne l’ai pas testé, les LPU Groq fonctionnent également avec des modèles de diffusion, et pas seulement des modèles de langage. D’après la démo, il peut générer différents styles d’images à 1024 pixels en moins d’une seconde. C’est assez remarquable.

Groq vs Nvidia : que dit Groq ?

Dans son rapport, Groq affirme que ses LPU sont évolutives et peuvent être reliées entre elles par une interconnexion optique sur 264 puces. Il est possible de les faire évoluer en utilisant des commutateurs, mais cela augmentera le temps de latence. Selon Ross, l’entreprise développe des clusters qui peuvent s’étendre sur 4 128 puces qui seront commercialisées en 2025, et qui sont développées sur le nœud de processus 4 nm de Samsung.

Lors d’un benchmark réalisé par Groq à l’aide de 576 LPU sur un modèle 70B Llama 2, l’inférence AI a été réalisée en un dixième du temps pris par une grappe de GPU H100 de Nvidia.

De plus, les GPU Nvidia ont consommé de 10 à 30 joules d’énergie pour générer des jetons dans une réponse, alors que Groq n’a consommé que de 1 à 3 joules. En résumé, la société affirme que les LPU Groq offrent une vitesse 10x supérieure pour les tâches d’inférence de l’IA à un dixième du coût des GPU Nvidia.

Un futur prometteur pour l’interaction instantanée avec les systèmes IA

Avec la mise en place des LPUs de Groq, les utilisateurs peuvent s’attendre à des interactions quasi instantanées avec les systèmes d’IA, ouvrant la voie à des applications multimodales innovantes. La disponibilité de l’accès API par Groq laisse présager une amélioration significative des performances des modèles d’IA dans un avenir proche.

L’initiative de Groq dans l’espace matériel de l’IA représente une avancée significative, promettant des interactions plus rapides et plus fluides avec les technologies d’intelligence artificielle. Alors que le monde technologique continue d’évoluer, les contributions de Groq pourraient bien marquer un tournant décisif dans notre manière d’interagir avec les machines.

Boostez votre carrière : 6 conseils pour optimiser votre profil LinkedIn

Qu’est-ce que Copilot de Microsoft ? Voici tout ce qu’il faut savoir sur l’assistant d’IA

Proton Docs : Une alternative sécurisée à Google Docs pour la confidentialité

Threads de Meta : 175 millions d’utilisateurs en un an, une croissance continue

Test de la Honor Pad 9 : Un équilibre idéal entre performance et prix

Test du Samsung Galaxy S24 : 6 mois plus tard, est-il toujours intéressant ?

Test des Nothing ear : L’Innovation audio sans compromis

Test de la DJI Power 1000 : Chargez tous vos appareils avec style et efficacité

Google Messages met à jour les anciennes discussions vers RCS après l’adoption par Apple

5 applications iPhone essentielles pour une meilleure organisation

iOS 18 : Apple Météo intègre la température ressentie et les adresses personnelles

OnePlus Nord 4 : Un design unibody métallique et des caractéristiques alléchantes

Paris 2024 : Comment l’IA d’Intel transforme les Jeux Olympiques

Cloudflare lance une solution gratuite pour bloquer les bots d’IA scrapers de données

NFC : Une nouvelle ère de paiements multiples en un seul geste

iMac M4 : Performances boostées et design raffiné attendus pour 2024

Figma désactive son outil Make Design après accusations de plagiat

Apple admet que 8 Go de RAM ne suffisent plus pour certaines fonctions

Figma lance des fonctionnalités IA pour révolutionner le design de produits

Pour la première fois, le C++ est plus populaire que le C

Comment refuser que ChatGPT utilise vos chats pour former ses modèles ?

Comment obtenir et utiliser l’application ChatGPT pour macOS ?

Slack vs Teams : Quelle application de discussion instantanée choisir ?

Comment utiliser la nouvelle application de bureau ChatGPT ?

Groq réinvente l’IA avec son processeur LPU ultra-rapide

Le LPU de Groq : une architecture sur mesure

Groq vs Nvidia : que dit Groq ?

Un futur prometteur pour l’interaction instantanée avec les systèmes IA

One UI 6.1 apporte les fonctions Galaxy AI des Galaxy S24 aux smartphones plus anciens

Apple renforce iMessage contre les menaces quantiques avec le chiffrement PQ3

The author Yohann Poiron

Groq réinvente l’IA avec son processeur LPU ultra-rapide

Le LPU de Groq : une architecture sur mesure

Groq vs Nvidia : que dit Groq ?

Un futur prometteur pour l’interaction instantanée avec les systèmes IA

The author Yohann Poiron

vous pourriez aussi aimer