COMPTOIR
register

AMD dévoile son monstre de puissance graphique : la AMD Instinct MI200

À l’occasion du Accelerated Data Center — un choix de nom qui n’est pas sans rappeler un certain Intel Accelerated — AMD a dévoilé sa nouvelle gamme en ce qui concerne les centres de calcul. Côté CPU, EPYC a bien entendu répondu présent, mais il y avait également du monde côté GPU, et pas que avec la récente Radeon Pro V620.

 

En effet, les rouges avaient gardé dans leur poche la AMD Instinct MI200, une carte pas si secrète, car de nombreuses fuites et autres annonces officielles l’avait suggérée. Au menu, une gargantuesque carte remplie de transistors à y faire tomber les cheveux de Tomiche : pas moins de 58 milliards en tout, utilisant le procédé 6 nm de chez TSMC, répartis sur deux dies formant un Multi-Chip-Module. Pour relier ces deux gus, AMD a sorti la glu infinity fabric habituelle, offrant dans cette déclinaison une vitesse de transfert (inter-die, donc) de 400 Gio/s. Pour le stockage des variables, pas de souci : les MI200 intègrent la bagatelle de 128 Gio de HBM2e étalés sur 8 stacks, de quoi largement voir venir.

 

 

Architecturalement, la carte descend de CDNA, le penchant calcul scientifique/HPC de RDNA, tous deux étant initialement issus de la même base VEGA. Avec cette nouvelle itération, le ratio de calcul en double précision par rapport à la simple passe en 1:1, avec support du float16, bfloat16, int4 et int8 à un débit 4 fois supérieur à la simple précision : de quoi combler les amateurs d’apprentissage statistique ! De plus, et tout comme chez les verts, cette série possède également des unités de calcul matriciel, néanmoins leur niveau de développement reste un cran en dessous de la concurrence, notamment par l’absence de support de la sparsité.

amdlogo

 

Tout cela est bien beau, mais quels modèles peuplent cette série en pratique ? Hé bien, deux seuls nous font cet honneur : la MI 250X et la MI250 :

 

CaractéristiqueMI250MI250X
CU/SP 208/13 312  220/14 080 
Puissance FP32 (idem en FP64) 45,3 TFLOPS 47, 9 TFLOPS
Puissance FP32 (idem en FP64), matriciel 90, 5 TFLOPS 95, 7 TFLOPS
Puissance FP16 (idem en BF16, INT4, INT8) 361,2 T(FL)OPS 383 T(FL)OPS
Mémoire 128 Gio HBM2e @ 3,2 Tio/sec

 

Pas d’annonce de prix officiel, mais nul doute que cela va piquer ! Au vu de la cible, il y a peu de chance que cette carte se retrouve victime des scalpers, mais il y a fort à parier que la pénurie ne rendra pas pour autant les choses simples, surtout sachant que le supercalculateur Frontier, américain, compte bien réserver ses unités afin de dépasser l’ExaFLOPS de puissance brute. Reste à voir ce que ces améliorations orientées pros vont donner sur les segments de produits plus accessibles !

 

Un poil avant ?

Second test pour Forza 5, confirmant le premier ?

Un peu plus tard ...

Noctua envoie son ventirad low profile sur LGA1700

Les 25 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par _m_, le Vendredi 12 Novembre 2021 à 14h24  
En fait les iGP n'ont pas de fréquences de boost.
A propos du bond de 25% sur les fréquences, Anandech évoque le saut de 1400MHz à 1750MHz.
Mais le seule APU que je trouve ici et tournant à 1750MHz, c'est le 4800U à 10-25W avec 8CU et délivrant 1792 GFLOPS.
Ils l'auraient comparé au 3700U à 10C de 1400MHz? Il délivre lui-aussi 1792 GFLOPS.
Tout simplement parce que 10*1400 et 8*1750 forment une égalité parfaite, avec 128 opérations en virgules flottantes par cycle et par CU (Picasso et Renoir).
par _m_, le Vendredi 12 Novembre 2021 à 12h43  
Merci pour l'effort

Je prendrai avec des pincettes tout ce qui est noté en live, à suivre une vidéoconf d'une main et pianoter de l'autre en même temps. Surtout leur "better IPC", qu'ils n'ont finalement pas reprise dans leur article récapitulatif, rédigé et approfondie sereinement.

 
tu l'écris toi même : c'est les "memes CU" mais avec 59% de perf en + pour 25% de fréquence en +...

Je n'ai pas écris +25%. D'ailleurs 2.1GHz/1.4GHz, ça fait bien plus: +50%
(si t'as vu ça sur le slide, je suppose que c'est le boost, par rapport à la freq de base).
D'ailleurs, au globale: (2.1*8)/(1.4*11), ça donne +10%.
Rajouté à ça les améliorations sur la bande passante tout autour, DDR4 potentiellement plus rapide, et les cœurs Zen qui sont pour leur part passés de 4 à 8 avec +20% sur leur l'IPC, ça explique largement les +10% à 25% ingame du 4700G par rapport au 3400G.
Sans même faire intervenir une quelconque augmentation de l'IPC (si on peut employer ce terme pour un GPU?)
Je pense qui si AMD avait touché à l'IPC, ils l'auraient mis en gros sur leur slide

Comme je l'ai dit et Anandech l'explique, ils ont revue l'implémentation physique (passage obligé en passant du 12nm de GF au 7nm de TSMC), ce qui leur a permis de réduire la surface, la conso et augmenter les fréquences.
Et ils ont aussi travaillé sur la bande passante (meilleur contrôleur mémoire et doublement du bus data fabric, qui est qqch d'extérieure aux CU).
Mais pour le reste, les CU ont gardé la même logique, mêmes unités.

Mais si un jour tu retombes sur l'interview, postes-le ici, je me mets ce fil en marque-page
par Pyvesd en Nouvelle-Aquitaine, le Vendredi 12 Novembre 2021 à 00h03  
désolé mais les caractères sont mal retranscris.
remplacer? par ...
par Pyvesd en Nouvelle-Aquitaine, le Vendredi 12 Novembre 2021 à 00h02  
[quote name='_m_' date='10 November 2021 - 07:57 PM' timestamp='1636570656' post='811253']
1h que je cherche pour te satisfaire et sourcer? je n'ai pas retrouvé, désolé, sauf ce qui suis.
je ne lis que Anandtech et le comptoir donc forcément sur un de ces sites? De mémoire dans une interview d'une personne de chez AMD?

tu l'écris toi même : c'est les "memes CU" mais avec 59% de perf en + pour 25% de fréquence en + ...
un petit lien tout mignon
-> 03:12PM EDT - Reduce CUs from 11 to 8, but higher frequency, better IPC, optimized devices for throughput and power, 77% higher peak bandwidth
par _m_, le Mercredi 10 Novembre 2021 à 18h57  
par Gustavo L.P. le Mercredi 10 Novembre 2021 à 14h36
Merci, tu aurais pu me proposer celle-ci directement
Mais ça ne dit pas grand chose. Les deux pointent sur le même article Raven Ridge, pour "obtenir plus de détails". Donc c'est bien la preuve que ce sont les mêmes.
Et je me suis aussi recoltiné quelques review US de Renoir, à sa sortie (Tom's, Anandtech, etc...).
Ce dernier explique ceci:
 
On the GPU side is where we see bigger changes. AMD does two significant things here: it has reduced the maximum number of graphics compute units from 11 to 8, but also claims a +59% improvement in graphics performance per compute unit despite using the same Vega graphics architecture as in the prior generation. Overall, AMD says, this affords a peak compute throughput of 1.79 TFLOPS (FP32), up from 1.41 TFLOPS (FP32) on the previous generation, or a +27% increase overall.


Ce sont les même CU que Vega11. Ils ont juste optimisé son implémentation physique pour l'aider à monter plus haut en fréquence, et aussi amélioré la bande passante mémoire qui les nourris (DDR4 plus rapide notament).

Donc bon, Jemporte et Pyvesd, vous qui avez lancé cette rumeur, vous pouvez le sources, votre "VegRDNAisée"?

Parce que ça se saurait, si il suffisait de booster la fréquence de quelque chose pour le faire passer à la gen suivante.
Faudrait que j'essaie avec mon Skylake tiens. Peut-être qu'en l'overclokant suffisament, j'arriverai à le transformer en un AlderLake?
A mon avis, j'aurai plus de chance en trouvant une princesse pour lui faire un bisou
par Gustavo L.P., le Mercredi 10 Novembre 2021 à 14h36  
Yop
Tu trouveras ptt quelques infos intéressantes ici
et ici aussi
Tout ce que j'ai trouv&é
par _m_ le Mercredi 10 Novembre 2021 à 11h16
Le Comptoir, vous avez vu passé des info là dessus (évolution des CU Vega)?
par _m_, le Mercredi 10 Novembre 2021 à 11h16  
Le Comptoir, vous avez vu passé des info là dessus (évolution des CU Vega)?
Je viens de relire votre test 5700G (pas de test/présentation de la transition cruciale 3000G->4000G malheureusement, puisque les 4000G n'ont jamais été lâché au publique). Et pareil, vous n'avez rien relevé de plus qu'un simple changement de fréquence.

 
nous retrouvons ainsi la fameuse microarchitecture Zen 3 gravée en 7 nm chez TSMC, accompagnée - pour la dernière fois - d'une partie graphique VEGA à 8 CU. AMD ne communique pas sur une quelconque amélioration des cœurs, et pour cause : leur design a depuis divergé pour donner CDNA sur datacenter et RDNA sur cartes graphiques. Même les composants annexes (Multimedia Engine, entrée/sorties intégrées) ne changent pas...

 
Lors de la conception des premiers APU s'appuyant sur l'architecture CPU Zen, AMD les a couplés à une base GPU Vega. Cette dernière comprenait pour le haut de gamme jusqu'à 11 CU. Lors du passage des APU à l'architecture Zen 2 (Renoir), les rouges ont conservé la base Vega pour le GPU, mais ramené le nombre de CU à 8, tout en augmentant drastiquement la fréquence de fonctionnement. Pour Cézanne, le GPU reste à 8 CU, mais la fréquence est légèrement moindre....

Pour moi, ce sont toujours resté les mêmes CU Vega depuis les 2000G (sauf adaptions mineurs pour le process de TSMC/7nm)
par _m_, le Mercredi 10 Novembre 2021 à 08h36  
par Pyvesd en Nouvelle-Aquitaine le Mardi 09 Novembre 2021 à 22h38
justement la + grosse évolution c'est quand les APU sont passés de 12CU à 8. C'est que les coeurs étaient + gros et supportaient mieux la montée en fréquence (genre 40%), on était sur une semi- nouvelle archi GPU VEGRDNAisée
Le passage de 11 à 8 était surtout justifier pour la place qu'il fallait laisser aux cœurs x86, qui étaient de leur côté passé de 4 à 8 (le passage de 12nm à 7 était bon, mais pas assez).
Alors certes, pour compenser cette perte d'un bon tiers de CU, il y a eu cette grosse monté en fréquence (permise justement par le passage au 7nm et un nouveau fondeur, pas nécessairement par des changements de design). Mais pour éviter la stagnation, j'espérais bien des évolutions d'architecture également, sur ces CU.
Mais j'ai jamais rien vu de concret. La presse a quelque fois utiliser ces mots (évolution, amélioration, ...), mais sans jamais les justifier. Je ne suis même pas sûr que ça vienne d'AMD, peu-être juste des journalistes pour brodé leur articles.
Si évolution il y a eu, c'était probablement que des trucs mineurs. Juste pour dire "ouai ouai, on a bossé". Sinon ils auraient communiqué dessus, comme ils le font sur leur cpu et la presse aurait relayé.

Mais si t'as un papier, que je serai passé à côté, ça m'intéresse
par Pyvesd en Nouvelle-Aquitaine, le Mardi 09 Novembre 2021 à 22h38  
par _m_ le Mardi 09 Novembre 2021 à 20h27
Depuis l'origine alors? Parce que j'ai jamais entendu qu'ils auraient évolué au fils des 4 itérations. Juste des changements de fréquences et quantité de CU.
justement la + grosse évolution c'est quand les APU sont passés de 12CU à 8. C'est que les coeurs étaient + gros et supportaient mieux la montée en fréquence (genre 40%), on était sur une semi- nouvelle archi GPU VEGRDNAisée
par Pascal M., le Mardi 09 Novembre 2021 à 22h26  
par DonBosco le Mardi 09 Novembre 2021 à 21h05
Pour compléter la réponse de Nicolas, de manière générale, tu peux avoir soit des unités généralistes, que tu peux mutualiser pour différentes tâches, soit des unités spécialisées, plus performantes, mais spécifiques.
À noter que faire des unités dédiées prend plus de temps, et coûte donc plus cher en R&D.

Bien souvent, AMD préfère multiplier les unités généralistes et ne mettre des unités dédiées que là où ça coince.
À l'inverse, nVidia recourt plus régulièrement à l'emploi d'unités dédiées.

Il n'y a pas de meilleur choix. Parfois AMD est devant, parfois c'est nVidia, selon les générations. Et les deux tendent à converger sur les fonctionnalités "classiques".
tu es dans le milieu et/ou utilisateur ?
par un lidtzig sur téléphone en Wallonie, le Mardi 09 Novembre 2021 à 22h19  
par DonBosco le Mardi 09 Novembre 2021 à 21h05
Pour compléter la réponse de Nicolas, de manière générale, tu peux avoir soit des unités généralistes, que tu peux mutualiser pour différentes tâches, soit des unités spécialisées, plus performantes, mais spécifiques.
À noter que faire des unités dédiées prend plus de temps, et coûte donc plus cher en R&D.

Bien souvent, AMD préfère multiplier les unités généralistes et ne mettre des unités dédiées que là où ça coince.
À l'inverse, nVidia recourt plus régulièrement à l'emploi d'unités dédiées.

Il n'y a pas de meilleur choix. Parfois AMD est devant, parfois c'est nVidia, selon les générations. Et les deux tendent à converger sur les fonctionnalités "classiques".
Je comprends mieux l'achat de xilinx par AMD. Des fgpa sont au final de du ites spécialisées justement non ?
Également, ton explication l'aiguille aussi sur comment AMD est devant en rasterisation et bien derrière en terme de RT.
par DonBosco, le Mardi 09 Novembre 2021 à 21h05  
par LidtZig le Mardi 09 Novembre 2021 à 17h58
Est-ce que ça à un rapport avec le fait que les unité RT AMD soient moins "complètes" que celles de chez nVidia ? Je me souviens avoir lu ici que le RT d'amd était plus simple et moins complet que chez les verts.

Après, je dis peut-être de la merde.
Pour compléter la réponse de Nicolas, de manière générale, tu peux avoir soit des unités généralistes, que tu peux mutualiser pour différentes tâches, soit des unités spécialisées, plus performantes, mais spécifiques.
À noter que faire des unités dédiées prend plus de temps, et coûte donc plus cher en R&D.

Bien souvent, AMD préfère multiplier les unités généralistes et ne mettre des unités dédiées que là où ça coince.
À l'inverse, nVidia recourt plus régulièrement à l'emploi d'unités dédiées.

Il n'y a pas de meilleur choix. Parfois AMD est devant, parfois c'est nVidia, selon les générations. Et les deux tendent à converger sur les fonctionnalités "classiques".