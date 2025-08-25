Le chemin qui mÃ¨ne de Blackwell Ã Rubin comprend une Ã©tape, Blackwell Ultra. NVIDIA a dÃ©taillÃ© la conception de cette puce dans un article de blog dont le titre retranscrit bien le propos : Inside NVIDIA Blackwell Ultra: The Chip Powering the AI Factory Era.

Pas Super, mais pas loin

Dâ€™emblÃ©e, Ã©cartons tout malentendu. Si tout laisse Ã penser quâ€™il y aura prochainement des GeForce RTX 50 Super, elles conserveront leurs GPU Blackwell ; Blackwell Ultra sied uniquement aux serveurs dâ€™IA.

La puce Blackwell Ultra repose sur le procÃ©dÃ© TSMC 4NP. Elle embarque 208 milliards de transistors, soit 2,6 fois plus que la gÃ©nÃ©ration Hopper (mais c'est aussi 1 vs 2 GPU). En contrepartie, son TGP autorise jusquâ€™Ã 1 400 W, soit le double de Hopper (la limite est fixÃ©e Ã 1 200 W pour Blackwell pas Ultra). La puce associe 160 SM rÃ©partis sur deux dies interconnectÃ©s via le lien NV-HBI (NVIDIA High-Bandwidth Interface) de NVIDIA, fournissant une interconnexion die-to-die de 10 To/s. Elle possÃ¨de 288 Go de HBM3E et dÃ©livre jusquâ€™Ã 8 To/s de bande passante. Vous aurez aussi notÃ© la prise en charge du PCIe 6.0.

GÃ©nÃ©ration Hopper Blackwell Blackwell Ultra ProcÃ©dÃ© de fabrication TSMC 4N TSMC 4NP TSMC 4NP Nombre de transistors 80 milliards 208 milliards 208 milliards Nombre de dies par GPU 1 2 2 NVFP4 dense | sparse performance â€“ 10 | 20 PetaFLOPS 15 | 20 PetaFLOPS FP8 dense | sparse performance 2 | 4 PetaFLOPS 5 | 10 PetaFLOPS 5 | 10 PetaFLOPS Attention acceleration

(SFU EX2) 4,5 TeraExponentials/s 5 TeraExponentials/s 10,7 TeraExponentials/s CapacitÃ© maximale HBM 80 Go HBM (H100) / 141 Go HBM3E (H200) 192 Go HBM3E 288 Go HBM3E Bande passante HBM maximale 3,35 To/s (H100) / 4,8 To/s (H200) 8 To/s 8 To/s Bande passante NVLink 900 Go/s 1 800 Go/s 1 800 Go/s Consommation maximale (TGP) Jusquâ€™Ã 700 W Jusquâ€™Ã 1 200 W Jusquâ€™Ã 1 400 W

CÃ´tÃ© performances, le Blackwell Ultra offre une densitÃ© de calcul NVFP4 (un format de nombre Ã virgule flottante 4 bits ; plus d'infos sur le NVFP4 sur le site de la principale intÃ©ressÃ©e) environ 1,5 fois supÃ©rieure Ã celle du Blackwell, aux dires de NVIDIA.

Les gains par rapport Ã Blackwell sâ€™expliquent notamment par le doublement du dÃ©bit des SFU (Special Function Units) pour les opÃ©rations dâ€™attention des modÃ¨les Transformers. Lâ€™article prÃ©cise Ã ce sujetâ€¯: Â«â€¯Avec le Blackwell Ultra, le dÃ©bit des SFU a Ã©tÃ© doublÃ© pour les instructions clÃ©s utilisÃ©es dans lâ€™attention, offrant jusquâ€™au double de performances dans les couches dâ€™attention par rapport aux GPU Blackwell. Cette amÃ©lioration accÃ©lÃ¨re aussi bien lâ€™attention sur de courtes que sur de longues sÃ©quences, mais elle est particuliÃ¨rement bÃ©nÃ©fique pour les modÃ¨les de raisonnement avec de grandes fenÃªtres de contexte, oÃ¹ lâ€™Ã©tape du softmax peut devenir un goulot dâ€™Ã©tranglement en latence.â€¯Â»

Si ce qui prÃ©cÃ¨de ressemble pour vous Ã du charabia et que vous n'Ãªtes pas un spÃ©cialiste de l'apprentissage automatique, c'est normal. Pour lâ€™Ã©claircir, retenez que le softmax dÃ©signe une Ã©tape clÃ© qui sert Ã dÃ©terminer comment chaque token influence la sortie via une pondÃ©ration â€” en transformant des scores bruts dâ€™attention en poids normalisÃ©s, appelÃ©s poids dâ€™attention. Cette opÃ©ration implique des calculs coÃ»teux, surtout pour de longues sÃ©quences. Logiquement, plus ils sont optimisÃ©s, plus les modÃ¨les dâ€™attention fonctionnent vite et efficacement. Si vous souhaitez approfondir ce sujet, IBM propose un excellent article de vulgarisation intÃ©gralement traduit en franÃ§ais : Quâ€™est-ce quâ€™un mÃ©canisme dâ€™attention ?

Ã€ lâ€™Ã©chelle systÃ¨me, NVIDIA met en avant le GB300 NVL72 comme solution de rÃ©fÃ©rence : des baies Ã refroidissement liquide, bÃ¢ties autour des Grace Blackwell Ultra Superchips, capables dâ€™atteindre des performances FP4 denses de classe exascale, tout en offrant un gain significatif de dÃ©bit par mÃ©gawatt face aux prÃ©cÃ©dentes plateformes HGX. Lâ€™entreprise propose aussi des systÃ¨mes HGX B300 et DGX B300, des configurations standardisÃ©es Ã 8 GPU Blackwell Ultra.

Enfin, le Blackwell Ultra conserve bien entendu une compatibilitÃ© complÃ¨te avec lâ€™Ã©cosystÃ¨me CUDA, tout en apportant des optimisations pour les frameworks IA de nouvelle gÃ©nÃ©ration. Il prend en charge nativement SGLang, TensorRT-LLM et vLLM avec des kernels optimisÃ©s pour la prÃ©cision NVFP4 et lâ€™architecture double-die. D'autre part, NVIDIA Dynamo optimise les dÃ©ploiements massifs, tandis que la plateforme Enterprise AI fournit tous les outils cloud-native pour dÃ©velopper et gÃ©rer des charges IA Ã grande Ã©chelle. Ennfin, Ã propos des outils et bibliothÃ¨ques CUDA Ã disposition des dÃ©veloppeurs, l'article Ã©numÃ¨re CUTLASS, Nsight, Model Optimizer, cuDNN, NCCL et CUDA Graphs.