IA : Groq et ses LPU pourraient bien venir gâcher la fête de NVIDIA et autres vendeurs de GPU

RTX 5070 TI : 68 refs en stock de 797.00 € à 1497.16 € Tendance haussière
RTX 5090 : 42 refs en stock de 2422.78 € à 4301.97 € Tendance haussière
RADEON RX 9070 : 43 refs en stock de 557.99 € à 988.90 € Tendance baissière
RADEON RX 9070 XT : 61 refs en stock de 593.99 € à 970.68 € Tendance haussière
RADEON RX 9060 XT : 69 refs en stock de 309.00 € à 498.06 € Tendance baissière
RTX 5060 : 98 refs en stock de 274.55 € à 550.07 € Tendance haussière
RTX 5060 Ti : 116 refs en stock de 359.10 € à 682.35 € Tendance baissière
Core Ultra 5 245K : 8 refs en stock de 237.88 € à 369.99 € Tendance haussière
Core Ultra 7 265K : 9 refs en stock de 287.99 € à 499.90 € Tendance baissière
Core i7-14700k : 14 refs en stock de 319.00 € à 459.90 € Tendance haussière
Core Ultra 9 285K : 2 refs en stock de 635.66 € à 729.99 € Tendance baissière
Ryzen 5800X3D : 1 ref en stock à 544.16 € Tendance haussière
RTX 4060 ti : 29 refs en stock de 322.99 € à 14359.75 € Tendance baissière
Tendance haussière
RTX 4070 TI SUPER : 1 ref en stock à 1217.93 € Tendance haussière
Ryzen 9700X : 1 ref en stock à 399.90 € Tendance haussière
Ryzen 7700X : 3 refs en stock de 263.00 € à 349.99 € Tendance baissière
Ryzen 7800X3D : 7 refs en stock de 329.99 € à 537.00 € Tendance baissière
ryzen 9800X3D : 7 refs en stock de 466.00 € à 614.99 € Tendance haussière
Ryzen 9900X : 5 refs en stock de 384.00 € à 584.00 € Tendance baissière
RTX 4090 : 8 refs en stock de 2499.99 € à 2989.99 € Tendance baissière
RADEON RX 7700 XT : 13 refs en stock de 399.00 € à 567.99 € Tendance haussière
Ryzen 7950X3D : 5 refs en stock de 637.00 € à 829.99 € Tendance baissière
PS5 Pro : 4 refs en stock de 741.76 € à 799.99 € Tendance haussière

La réception • Actualités • Business & internet

Alors que NVIDIA n’en finit plus de fourguer ses GPU à la planète entière et que Jensen a même avoué qu’il avait fallu trouver une méthode « équitable » — au plus offrant sans doute ? — pour décider qui aurait le droit de les acheter, le petit monde de l’IA ne se repose pas sur ses lauriers et de nouveaux acteurs menacent peut-être l’hégémonie des GPU. C’est en tout cas ce que Groq nous fait miroiter avec ses LPU, ou Language Processing Unit, qui reviennent sur le devant de la scène.

groq accelerator card

Une carte vieille de 4 ans et qui met à l'amende les plus gros GPU ?
C'est possible, dans certains domaines.

Pas un CPU ni un GPU donc, mais une espèce d’hybride à mi-chemin. Un CPU est une puce ultra complexe capable de gérer un très grand nombre d’opérations et qui doit être le plus souple possible dans son exécution. Un GPU, lui, regroupe des unités moins polyvalentes mais en plus grand nombre. Elles seront plus lentes sur certaines opérations mais étant donné qu’un GPU moderne embarque plusieurs milliers d’ALU — Arithmetic Logic Unit — il est communément admis qu’une fraction d’entre elle peut bien fonctionner à demie vitesse pour traiter quelques opérations plus complexes si le besoin s’en fait sentir. Dans les deux cas, une portion du die est dédiée à la prédiction, a l’organisation et au stockage des instructions, ne laissant qu’une part réduite véritablement dédiée à la puissance de calcul. Le LPU de Groq est lui beaucoup plus spécialisé. Il intègre une flopée d’ALU, comme un GPU, mais avec une mémoire directement embarquée sur le die et un minimum de transistors dédiés à autre chose que ces deux fonctions.

groqchip overview

Ceci permet d’une part d’embarquer une mémoire qui fonctionne a 80 To/s, en comparaison du 1 To/s sur une RTX 4090 ou encore 1,7 To/s sur une H100 en HBM3. Cette mémoire ultra rapide permet donc d’éviter le goulot d’étranglement classique des GPU utilisés pour l’IA, mais aussi de fournir aux ALU un flux constant de données afin d’optimiser le rendement de la puce. D’autre part, en faisant la part belle aux ALU et non aux caches et autres jeux d’instructions, Groq peut augmenter le ratio performance/surface de die, et donc le ratio performance/cout.

Ainsi le GroqChip totalise certes 725 mm², une puce plutôt conséquente — le GH100 fait 814 mm² et même l’AD102 de la RTX 4090 totalise 609 mm² — mais qui n’est pourtant gravée qu’en 14 nm chez TSMC. Ceci permet de profiter d’un taux de rebuts minimum et d’abaisser les couts de production au maximum. Elle intègre aussi 230 Mo de SRAM qui peuvent s’assimiler à du cache. Ça parait peu en comparaison des 80 Go de HBM3 des H100 mais c’est ce qui permet d’atteindre une bande passante folle. La start-up a également indiqué vouloir passer au 4 nm au deuxième semestre 2025 si les finances le permettent, ce qui laisse présager de jolis gains du côté du prix et/ou des performances.

groq gtx 1070

Alors en pratique, a quoi ça sert tout ce bazar ? A accélérer les requêtes, c’est-à-dire faire en sorte que votre IA comprenne votre ordre et vous réponde le plus vite possible sans que vous deviez aller boire un café le temps que Chat-GPT ait fini de taper son roman vous expliquant comment il faut faire pour attirer le sexe opposé. Ça parait bête dit comme ça, mais pensez à la traduction en direct. Si vous devez attendre 5 à 10 secondes, ou plus, pour que l’IA vous traduise ce qui a été dit, ça introduit un délai qui fait que la technologie n’est pas vraiment utilisable. A ce compte autant se faire des signes, façon Les Bidochon en vacances. C’est aussi ce qui fait la différence entre un piéton tout plat ou un piéton évité pour l’IA qui pilote votre voiture. Enfin, même dans le monde de la finance et du HFT — High Frequency Trading, qui consiste à profiter de minuscules différences pour faire des profits — chaque milliseconde de gagnée réduit les risques d'accuser une perte sur une transaction.

Il y a toutefois un gros hic, c’est qu’avec 0,23 Go de mémoire, le GroqChip n’est pas du tout adapté au traitement des données, à savoir la phase d’apprentissage du langage. Cette solution ne serait donc pas la réponse à tout. Qui plus est, même pour héberger une API, la quantité de mémoire est tellement réduite qu’il est nécessaire de grouper un grand nombre de ces processeurs afin de mettre en commun suffisamment de mémoire pour abriter l’ensemble du modèle. Pour utiliser Mixtral, il serait donc nécessaire d’associer pas moins de 576 GroqChips alors qu’un à deux H100 suffiraient !

groq tokens sec mixtral 8x7b

D'après les tests de artificialanalysis.ai, Groq permet d'héberger le modèle Mixtral 8x7B a moindre cout tout en étant le plus rapide par un facteur 3 à 4.

Mais ça n’empêche pas Groq d’enterrer tous les autres acteurs du marché en termes de token par seconde, une métrique importante pour le traitement de l’information. En effet, en IA, un token s’apparente à un bloc élémentaire, par exemple un mot, groupe de mots ou groupe de lettres. Il faut donc décoder ces tokens pour comprendre la requête puis fournir une réponse. Plus le nombre de tokens/seconde est élevé, plus l’IA est réactive et comprend ce qu’on lui demande rapidement. Et il en va de même pour la réponse, qui est bien plus rapide à être délivrée avec Groq qu’avec les autres fournisseurs.

Tout ceci est permis par une optimisation software pour combler le manque d’unités de contrôle au sein du GroqChip, mais d’après l’équipe, ce n’est pas un problème puisqu’il est très facile de prévoir l’exécution du code dans le cas d’une IA.

Attention toutefois, tout cela n’a rien à voir avec Grok, le chatbot d’Elon Musk. Pour rappel, nous vous parlions déjà de Groq — avec un Q — en 2020 alors que Grok — avec un K — n’a fait son apparition que vers Juillet 2023. Soit dit en passant, ce cher Musk, qui avait co-fondé OpenAI en 2015 puis quitté en 2018, avait appuyé un moratoire de 6 mois sur l’IA juste après le lancement de ChatGPT en Mars 2023. En Avril, il retournait déjà sa veste et parlait de son futur TruthGPT, qui sera finalement renommé en Grok. En même temps venant de l’homme qui a nommé ses enfants X Æ A-12, Techno Mechanicus, ou encore Exa Dark Sideræl, faut-il encore s’étonner ?

Un poil avant ?

NVApp : la nouvelle application NVIDIA pour gérer sa GeForce

Un peu plus tard ...

Le Snapdragon X Elite s’échauffe dans Geekbench : au niveau des promesses de Qualcomm ?

Des IA 3 fois plus rapides avec une carte vieille de 4 ans qu'avec les meilleurs GPU NVIDIA ? Découvrez les LPU de Groq.

un pouillème moins de 5 minutes

Sur le comptoir, au ~même sujet

	Une puce pour IA avec un groq, c'est possible ça ?
	Test • Kioxia Exceria Pro (Phison E18 + TLC 112L)
	Test • PCSpecialist Fusion 14
	Test • Crucial T710 (SM2508 + TLC 276L)
	Test • Kioxia Exceria Plus G4 (Phison E31T + TLC 218L)
	AMD dévoile les RX 9070 et 9070 XT : le haut de gamme RDNA 4 enthousiasme par sa tarification
	Du Bitcoin à l’IA : comment les fermes de minage GPU exploitent ce nouveau filon
	GeForce RTX 50 Series : NVIDIA dévoile ses quatre fantastiques (MAJ)
	La Multi Frame Generation du DLSS 4 n'est pas inconciliable avec les anciennes RTX
	NVApp : la nouvelle application NVIDIA pour gérer sa GeForce
	NVIDIA parachèverait ses GeForce RTX 5090 et RTX 5080, des cartes bien énergivores
	GeForce RTX 50 : NVIDIA tente de noyer le poisson avec des carabistouilles