COMPTOIR
  
register

Une puissance de 1400W pour l'Instinct MI355X

N’en déplaise aux obséquieux qui les remercient à chaque prompt, ou aux sentimentaux qui y voient leur âme sœur après d’ardentes discussions, les grands modèles de langage — et plus largement les applications IA — n’ont rien d’entités éthérées et hors sol. Le secteur a besoin d’énergie pour alimenter ses accélérateurs GPU tels que les AMD Instinct.

mi350x series1

Vous trouverez le tableau en fin d'article © ComputerBase

CDNA 4

Lors d’un évènement prévu demain et intitulé Advancing AI, AMD présentera sa MI350X Series, qui comprend deux nouveaux représentants. En amont, ComputerBase a lâché quelques indiscrétions glanées à l’ISC 2025 de Hambourg. Elles concernent les GPU et modules OAM (OCP Accelerator Module) MI350X et MI355X, conçus respectivement pour des puissances maximales de 1000 W et 1500 W, soit 400  de plus que le MI350X, et presque le double du MI300X (750 W).

En dépit de leur appartenance à la série MI300, ces MI350X et MI355X diffèrent des MI300X et MI325X lancés respectivement en 2023 et 2024. En effet, ceux-là utilisent l’architecture CDNA 3 ; les nouveaux venus sont basés sur CDNA 4.

serie mi300 amd octobre 2024

AMD avait déjà esquissé les contours des MI350/355 lors de la présentation des MI325X. Quelques-unes des diapositives partagées à cette occasion, en octobre dernier, sont affichées ci-dessous.

mi355x amd octobre 2024 3

mi355x amd octobre 2024 2

mi355x amd octobre 2024

Les puces CDNA 4 s’appuient toujours sur de la HBM3E, avec une bande passante qui tutoie les 8 To/s. La photographie de ComputerBase, qui sert d'illustration, montre la bête ainsi qu’un tableau des caractéristiques. La source propose aussi une photographie plein champ de ce document, que nous avons retranscrit.

Specifications
(Peak Theoretical)
AMD Instinct MI350X GPUAMD Instinct MI350X PlatformeAMD Instinct MI355X GPUAMD Instinct MI355X Platforme
GPUs Instinct MI350X OAM 8x Instinct MI350X OAM Instinct MI355X OAM 8x Instinct MI355X OAM
GPU Architecture CDNA 4 CDNA 4 CDNA 4 CDNA 4
Mémoire 288 Go HBM3E 2,3 To HBM3E 288 Go HBM3E 2,3 To HBM3E
Bande passante mémoire 8 To/s 8 To/s par OAM 8 To/s 8 To/s par OAM
Peak Half Precision (FP16) Performance 4,6 PFLOPS 36,8 PFLOPS 5,03 PFLOPS 40,27 PFLOPS
Peak Eight-bit Precision (FP8) Performance 9,228 PFLOPS 72 PFLOPS 10,15 PFLOPS 81,2 PFLOPS
Peak Six-bit Precision (FP6) Performance 18,45 PFLOPS 147,6 PFLOPS 20,1 PFLOPS 161 PFLOPS
Peak Four-bit Precision (FP4) Performance 18,45 PFLOPS 147,6 PFLOPS 20.1 PFLOPS 161,08 PFLOPS
Refroidissement Air Air DLC / Air DLC / Air
Typical Board Power (TBP) 1000W Peak par OAM 1000W Peak par OAM 1400W Peak par OAM 1400W Peak par OAM
Un poil avant ?

RTX 5050 : la mémoire hésite entre GDDR6 et GDDR7

Un peu plus tard ...

3,5 millions en 4 jours : la Switch 2 fait mieux que toutes les autres

Les 8 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Un champion du monde en Auvergne-Rhône-Alpes, le Vendredi 20 Juin à 12h26  
par Un ragoteur bio en Provence-Alpes-Côte d'Azur ?? le Mardi 17 Juin à 11h31
Il y a une petite marge entre du FP4 et du FP64...
Le FP6 ?

Plus sérieusement je suis d'accord avec toi qu'on doit pouvoir faire plus avec de bon vieux int. il y a quelques papiers sur l'utilisation de LLM basés sur des int, limitant au max les multiplications (autre que par 1 ou 0), le tout afin de diminuer la consommation électrique tout en limitant les contraintes mémoires aussi. C'est surtout pour du edge aujourd'hui mais c'est assez prometteur.
Ca ajouté au doux reve d'avoir des algos deterministiques car avec la température et la seed on en est loin aujourd'hui !
par Un ragoteur bio en Provence-Alpes-Côte d'Azur ••, le Mardi 17 Juin à 11h31  
par Un champion du monde en Auvergne-Rhône-Alpes le Jeudi 12 Juin à 13h07
Les "modèles IA très peu utiles" = LLM, peut-etre que ca ne t'intéresse, mais l'utilisation de fp64 pour faire de la physique non linéaire ça n'intéresse pas tout le monde non plus...
Il y a une petite marge entre du FP4 et du FP64...

Le FP4 traduit des algos d'éviction extrêmement grossiers, qui seraient tout à fait remplaçables par du Int4 avec un gain de précision (remplaçant tantôt la mantisse, tantôt l'exposant d'un "FP8 non-signé" avec 4/4bits, à l'image du bfloat16 qui pourrait effectivement être décomposé dans les unités de calcul en 2 Int8 avec une "émulation" des calculs FP). La complexité posée est l'emploi d'instructions mixant les types de données, accessoirement des types pas vraiment transposables, mais là on entre dans une considération "langage" et donc absolument pas au bon niveau. Note au passage que je serais TRÈS surpris que les flotants soient effectivement stockés tels que présentés par la norme, le signe s'appliquant à la mantisse et non l'exposant, même si pour certaines opérations il peut être utile de le faire sortir en tête (ce qui nlus amène cette fois sur le terrain de l'optimisation physique des unités de calcul).
par Jemporte, le Vendredi 13 Juin à 12h44  
Je croyais que le CNDA Next c'était l'UDNA qui serait aussi le RNDA Next. Ils ont changé d'avis chez AMD (une fois de plus) ?
par Un champion du monde en Auvergne-Rhône-Alpes, le Jeudi 12 Juin à 13h07  
C'est bien une compression (avec perte pour les nombres non représentables dans la nouvelle base) de l'information que diminuer le nombre de chiffres significatif. Le principal intérêt étant la diminution de la RAM utilisée et le meilleur usage des unités de calcul pour augmenter le nombre d'opérations par secondes.

Les "modèles IA très peu utiles" = LLM, peut-etre que ca ne t'intéresse, mais l'utilisation de fp64 pour faire de la physique non linéaire ça n'intéresse pas tout le monde non plus... Et encore certaines méthodes de composition (modes propres etc) permettent de passer du fp64 à fp32 voir fp16 même pour faire de la physique ! Si on a besoin de fp64 pour qu'une méthode / algo converge c'est qu'on a mal posé le problème en général.

L'intérêt étant ici de doubler la puissance de calcul en passant de fp64 à 32 à 16 à 8 à 4.
Chacun utilise ce qu'il veut.
par Un ragoteur bio du Grand Est ••, le Jeudi 12 Juin à 12h24  
par Un champion du monde en Auvergne-Rhône-Alpes le Jeudi 12 Juin à 08h54
C'est pertinent dans le sens où avant pour de l'inférence l'utilisateur était bloqué en FP16 ou FP8. Maintenant on peut tomber à du FP6 et obtenir un gros gain en perf: c'est l'ajout de ce nouveau mode qui est important. Il suffit que le modèle se prête bien à cette compression ce qui est le cas de bcp en inférence. Pour le training ce n'est pas la même.
Compression? C'est quoi ce raccourci moisi?

C'est une diminution de la précision, ni plus, ni moins, et effectivement ça peut n'avoir qu'une incidence limitée pour des modèles "IA"... très peu utiles.

Dès qu'on doit passer à des choses sérieuses, ce type de données devient parfaitement obsolète, mais après tout ça n'a jamais été l'utilité qui faisait vendre ces "accélérateurs IA"...
par Un champion du monde en Auvergne-Rhône-Alpes, le Jeudi 12 Juin à 08h54  
par Un ragoteur coupe mulet en Auvergne-Rhône-Alpes le Jeudi 12 Juin à 06h31
Autant votre tableau est clair, autant le slide d'amd "multi generation leadership performance" est biaisé, comparant des scores fp16 à fp8 et fp4, ce qui ne veut pas dire grand chose.
C'est pertinent dans le sens où avant pour de l'inférence l'utilisateur était bloqué en FP16 ou FP8. Maintenant on peut tomber à du FP6 et obtenir un gros gain en perf: c'est l'ajout de ce nouveau mode qui est important. Il suffit que le modèle se prête bien à cette compression ce qui est le cas de bcp en inférence. Pour le training ce n'est pas la même.
par Un ragoteur coupe mulet en Auvergne-Rhône-Alpes, le Jeudi 12 Juin à 06h31  
Autant votre tableau est clair, autant le slide d'amd "multi generation leadership performance" est biaisé, comparant des scores fp16 à fp8 et fp4, ce qui ne veut pas dire grand chose.
par ragoteur gameur embusqué, le Mercredi 11 Juin à 17h30  
ça concurrence les solutions nVidia en IA ou AMD a encore du retard à rattraper dans ce domaine particulier ?