NVIDIA GTC : Hopper H100, te voilà !

La réception • Actualités • Cartes graphiques

Alors que les caractéristiques techniques du dernier monstre de NVIDIA semblaient avoir fuité un jour avant sa présentation officielle, voilà que notre chez Jensen Huang vient remettre les points sur les i à l’occasion de la GPU Technology Conference, également abrégée GTC. En effet, durant l’heure et demi d’énumération de frameworks divers et variés sur fond d’images de synthèse et d’IA se trouvait l’annonce de la puce la plus puissante jamais créée : Hopper et ses 16 896 cœurs CUDA (version SXM5) ou 14 592 cœurs CUDA (sauce PCIe).

Alors que certains la présageaient en 5 nm sauce N5 de chez TSMC, il n’en est rien dans les fait, puisque la belle fait en réalité usage du N4 de la firme, souvent nommé 5 nm par abus de langage ! La bagatelle de 80 milliards de transistors se trouve ainsi compressée sur un die monolithique de 814 mm² de silicium, soit un petit 50 % d’augmentation de la densité par rapport au 7 nm de la A100 précédente. Rajoutez un bon cocktail de technologies en vogue à base de PCIe 5 (elle est d’ailleurs la première à en faire usage en matière de GPU), de la HBM 3 (first également, à raison de 80 Gio, rétrogradés en HBM 2e sur la version PCIe) disposée au moyen du procédé CoWoS de la firme ainsi que 40 Tbits/sec de bande passante pour les entrées/sortie (probablement obtenus en sommant les bandes passantes du NVLink et du bus PCIe), et voilà pour la compétitrice du jour. Enfin, c’était en oubliant presque son TDP, qui pourra courir jusqu’à… 700 W. Il y aurait intérêt à sacrément ventiler les racks pour réussir à dissiper un tel bousin !

nvidia h100

En interne, la microarchitecture évolue également : le calcul en FP8 est désormais supporté — Machine Learning en tête des usages potentiel — à raison du double de la vitesse du FP16, soit 8 PFLOPS. En ce qui concerne le FP16 et le TF32, il est respectivement question de 2 PFLOPS et 1 PFLOPS ; chiffre tombant à 60 TFLOPS en flottant simple et double précision. Rajoutez une amélioration des Tensor Cores, qui intègrent désormais un Transformer Engine : de quoi mapper automatiquement les couches des réseaux transformers développés en interne par les verts sur les unités de calcul existantes à grand coup de précision mixte FP8+FP16.

Cependant et heureusement, le ML n’a pas le monopole des améliorations architecturales : un système de chiffrement des calculs, le Confidential Computing, est également au programme, similaire au SGX de chez Intel, SME chez AMD ou encore CCA chez Arm. Au cœur du bousin, l’idée de sécuriser ses données en les chiffrant au niveau matériel afin de se protéger d’éventuelles attaques dans un scénario où l’hébergeur serait compromis — typiquement le cloud.

nvidia confidential computing

Dans le même registre, des nouvelles instructions nommées DPX permettant d’accélérer les algorithmes se basant sur le paradigme de la programmation dynamique sont au rapport. Elles permettraient des gains importants affichés jusqu’à un facteur 40, officiellement du moins. Rajoutez des fonctionnalités de virtualisation toujours plus avancées avec 7 VM maximum par carte et la possibilité de virtualiser également séparément les communications de ces 7 GPU virtuels, permettant ainsi de les faire fonctionner simultanément dans le cloud.

Si jamais vous souhaitez vous en procurer une, NVIDIA a un bon tas de plans pour vous : les H100 sont ainsi disponibles soit dans une version PCIe plus conventionnelle (mais au refroidissement passif, utilisation pour serveur obligeant), soit au format SXM5. Dans tous les cas, le protocole magique de communication intercartes, le NVLink, est également dans la fête. Cela tombe bien, il est possible de lier 8 de ces cartes ensemble : de quoi former un PCB nommé HGX, lui-même au centre des plus gros DGX-H100 (à raison d’un HGX par DGX).

nvidia sxm h100

Ces modules peuvent être exploités tels quels, mais, si vous n’avez pas de limite du budget, alors, la solution des PODs (assemblage de DGX) et des SuperPODs (assemblages de PODs, vous avez compris l’histoire) sera une valeur d’autant plus rentable sur le long terme.

nvidia dgx h100

Car NVIDIA s’est aventuré sur le segment des puces de réseau histoire de diminuer les coûts des transferts mémoires entre GPU. Ainsi, les NVIDIA NVLinks Switchs, articulés autour de 4 ports fibre optique par DGX-H100 connecté, dans la limite de 32 machines maximum, offrent 8 canaux par port supportant 100 Gbit/sec en PAM4 : de quoi roxxer du ponez en datacenter.

nvidia nvlink switch system

En ce qui concerne l'intégration de l'architecture Hopper dans le paysage des supercalculateurs existants, pas de panique : une machine du nom de NVIDIA EOS, composée de 18 superPODs, soit 275 TFLOPS en FP32/64 répartis sur les 768 DGX-H100, est en construction. Pour redonner un peu de contexte, cela correspond à une machine 1,4 fois plus performante que le supercalculateur scientifique le plus puissant actuellement disponible au pays de l’oncle Sam.

Enfin, côté performances en machine learning, NVIDIA se vante de gains faramineux comme à chaque sortie de carte : un facteur 6 par ici, un facteur 9 par là, une augmentation du débit d’un facteur 30 (rien que ça)… Reste à mettre tout cela à l’épreuve de la réalité en testant par des mains un peu plus objectives — pas vraiment celles de votre Comptoir chéri pour ce type de produit ! Néanmoins, les améliorations architecturales des gammes serveur arrivant très souvent dans les générations futures, il n’y a qu’à attendre les déclinaisons grand public pour observer un cousin d’Hopper se pavaner sous DirectX. Affaire à suivre !

nvidia h100 performances

Par ici pour la page officielle du bousin !

Un poil avant ?

Thermaltake Versa T26 et Versa T27 TG ARGB : 1 boitier, 2 choix de façades "originales"

Un peu plus tard ...

Test • ASRock Z690 Phantom Gaming-ITX/TB4

Le caméléon pose ses valseuses avec 80 milliards de transistors en N4 TSMC. La vache !

4 minutes, pensez au café

Sur le comptoir, au ~même sujet

	Un bus 512-bit sur le prochain flagship NVIDIA... Qui ne sera pas la 4090 Ti
	GeForce RTX 40 Series : NVIDIA fait le ménage avant Blackwell, un seul GPU encore produit
	NVIDIA va relocaliser sa production de puces IA aux États-Unis
	CPU ARM Cortex X5, GPU Blackwell et mémoire LPPDR6 : la recette des processeurs IA de NVIDIA ?
	300 W de plus pour le prochain GPU de NVIDIA ?
	La GH200 de NVIDIA se confronte aux processeurs AMD EPYC et Intel Xeon
	Project G-Assist, l’assistant IA de NVIDIA pour les joueurs désemparés
	Avec Project G-Assist, NVIDIA prend les noobs par l’IA main
	Vers une architecture Blackwell designée en chiplet chez NVIDIA ?
	NVIDIA ressuscite, à nouveau, son architecture Ampere, avec deux cartes RTX
	AMD parle d'architecture RDNA 3+ pour les Ryzen Strix, des processeurs attendus en 2024
	Test • Nvidia GeForce RTX 4070 Ti

Suivez-nous sur G.Actualités

Les 10 ragots

Les ragots sont actuellement
ouverts à tous, c'est open bar !

Changer l'ordre d'affichage des ragôts
Vous devez être identifié pour changer cette option !

par dfd, le Vendredi 25 Mars 2022 à 16h59

DGX, PODS, super PODS : The More You Buy, The More You Save...

par Un hardeur des ragots en Bourgogne-Franche-Comté, le Vendredi 25 Mars 2022 à 11h57

"Si jamais vous souhaitez vous en procurer une, NVIDIA a un bon tas de plans pour vous "

1 )vendre votre ferrari votre Bugatti , votre jet et votre yacht privé .
2) Vendre votre maison ( à condition qu'elle soit vraiment la plus belle du département)
3) Demander l'aide d'un roi du pétrole ou d'un dirigeant d'Apple.

Ok je sors.

par Un ragoteur blond en Bourgogne-Franche-Comté, le Jeudi 24 Mars 2022 à 11h01

par Nicolas D. le Jeudi 24 Mars 2022 à 04h01

À mon avis c'est clairement pour permettre 1) une fiabilité plus grande (le 4 nm étant tout nouveau, l'envoyer dans une puce haute performance n'est pas gagné ) et 2) pour monter suffisamment en fréquence (700 W purée !)

En plus cela permet de ne pas réduire la surface de dissipation. Surtout si ça monte aussi haut que le max le permet.

par Nicolas D., le Jeudi 24 Mars 2022 à 04h01

par Jemporte le Mercredi 23 Mars 2022 à 15h19

par Un ragoteur qui picole en Île-de-France, le Mercredi 23 Mars 2022 à 17h15

Ca fait une jolie boite aux lettres aussi

par Jemporte, le Mercredi 23 Mars 2022 à 15h19

Je me posais la question dans l'autre sujet du pourquoi seulement 80 millions de transistors, alors qu'on passe de 7 à 4nm TSMC et qu'on garde la même surface. L'augmentation en nombre de transistors est normalement plus que linéaire (théoriquement même au carré de la finesse).
Je me suis rappelé des CPU Cyrix qui étaient gros et malgré la finesse n'était au niveau des concurrents en nombre de transistors et pourtant chauffaient beaucoup et avaient des perfs respectables d'un certain point de vue. Les dev du CPU avaient expliqué qu'ils avaient privilégie le nombre de connexions au nombre de transistors et que les dessins CPU vont dans un sens ou dans l'autre selon l'option choisie.
L'autre aspect c'est qu'on a à priori beaucoup de transistors dans les circuits bien ordonnés comme les mémoires caches.
Conclusion : Nvidia a du privilégier les deux options :
- les interconnexions dans les circuits avec moins de transistors et moins de mémoire cache, se basant sur un gros bus HBM3.
On note que l'augmentation du nombre de CUDA cores est bien supérieur à celui de transistors. Par contre la partie IA semble moins augmenter en taille.

par Un hardeur des ragots en Bourgogne-Franche-Comté, le Mercredi 23 Mars 2022 à 14h32

par Nicolas D. le Mercredi 23 Mars 2022 à 14h13

80 pardon, un zéro est passé à la trappe !

Zero ca ne vaut rien . Alors un zero de plus ou de moins , c'est la même chose

par Nicolas D., le Mercredi 23 Mars 2022 à 14h13

par Riseoflegends le Mercredi 23 Mars 2022 à 12h39

Seulement 8Go de mémoire HBM? A moins que ce soit 8Go par puce HBM3

80 pardon, un zéro est passé à la trappe !

par jumorolo, le Mercredi 23 Mars 2022 à 12h47

par Riseoflegends le Mercredi 23 Mars 2022 à 12h39

Seulement 8Go de mémoire HBM? A moins que ce soit 8Go par puce HBM3

probablement des puces de 8 oui

par Riseoflegends, le Mercredi 23 Mars 2022 à 12h39

Seulement 8Go de mémoire HBM? A moins que ce soit 8Go par puce HBM3

Thermaltake Versa T26 et Versa T27 TG ARGB : 1 boitier, 2 choix de façades "originales"

Test • ASRock Z690 Phantom Gaming-ITX/TB4

Le caméléon pose ses valseuses avec 80 milliards de transistors en N4 TSMC. La vache !

Sur le comptoir, au ~même sujet

les dernières brèves, en bref, pour aller vite, toussa.

les derniers articles, pointus, précis, comme la mouette.

pour les médias du Comptoir 2006 - 2099 (ça, c'est fait)