COMPTOIR
  
register

L’architecture Blackwell des GeForce RTX 50 mise en lumière

Présentées à l’occasion du CES 2025, les premières GeForce RTX 50 Series Blackwell seront disponibles à partir du 30 janvier prochain. NVIDIA a exposé les rouages de son architecture ; nous allons essayer de vous résumer les principaux aspects ici.

Place aux Neural Shaders

Pour commencer, Blackwell implique la 5e génération de cœurs Tensor, la quatrième génération de cœurs RT. En outre, NVIDIA mentionne la présence d’un processeur de gestion de l'IA. Plus aucune trace de l'accélérateur de flux optique (l’Optical Flow Accelerator) de la génération Ada par contre. Par ailleurs, les GPU adoptent la mémoire GDDR7.

blackwell architecture generale

Parmi les avancées générationnelles, les cœurs RT de 4e génération sont optimisés pour la RTX Mega Geometry, un système censé accélérer la construction BVH (Bounding Volume Hierarchy) en permettant bien plus de polygones qu’actuellement. Grosso modo, le RTX Mega Geometry met à jour les polygones par lots sur le GPU. Cela doit réduire la charge de travail CPU mais aussi la quantité de VRAM nécessaire. Alan Wake 2 sera le premier titre à bénéficier de cette prise en charge.

blackwell mega gemotry

Toujours sur un plan architectural, il y a d'autres changements notables. Par exemple, NVIDIA a rendu les cœurs de shaders de Blackwell entièrement compatibles FP32 / INT32 ; la société les qualifie dorénavant de Neural Shaders. Avec Ampere puis Ada, NVIDIA avait doublé nombre de cœurs CUDA FP32 par SM, mais la moitié d'entre eux étaient uniquement destinés au FP32, tandis que l'autre moitié pouvait faire du FP32 ou de l'INT32 ; Blackwell uniformise tous les cœur, tout en conservant la quantité doublée par SM par rapport à Turing. Ajoutez à cela une prise en charge native du FP4 pour les Tensor, ainsi que des améliorations apportées au SER (Shader Execution Reordering) — présenté comme deux fois plus rapide sur Blackwell que sur Ada. NVIDIA a formé et mis à jour ses modèles d'intelligence artificielle pour exploiter ces cœurs améliorés. Nous y reviendrons un peu plus loin dans l’article.

blackwell sm type

blackwell fp4

blackwell ser improvement

Ces changements permettent à NVIDIA de gonfler un peu artificiellement les chiffres. Par exemple, les 3352 AI TOPS revendiqués pour les cœurs Tensor sont en grande partie le fruit du support natif du FP4. Pour comparer avec la GeForce RTX 4090, qualifiée comme susceptible de fournir 1321 trillions d'opérations par seconde en FP8, il faut garder ce même format pour la RTX 5090, soit 1 676 TFLOPS. Vous avez ainsi une hausse de 27 % « seulement ». Même chose pour le FP32, avec respectivement 104,8 TFLOPS vs 82,6 TFLOPS pour la RTX 4090, soit le même écart. Entre la RTX 3090 et la RTX 4090, la différence était de 132 %.

Ce flagship bénéficie toutefois d’une nette hausse du nombre du nombre de cœurs. Cette abondance permet à la RTX 5090 de creuser un bon écart avec la RTX 4090 dans les jeux, y compris lorsque les mesures de ne sont pas gonflées par la MFG du DLSS4.

GPUSKUSM maxSurface dieTransistorsDensité
GB202 RTX 5090(D) 192 750 mm² 92,2 milliards 122,9 MTr/ mm²
GB203 RTX 5080 / 5070Ti 84 378 mm² 45,6 milliards 120,6 MTr/ mm²
GB205 RTX 5070 50 263 mm² 31 milliards 117,9 MTr/ mm²
GB206 RTX 5060 Ti ? 36 À déterminer À déterminer À déterminer
GB207 RTX 5060 ? 20 À déterminer À déterminer À déterminer
AD102 RTX 4090(D) 144 608 mm² 76,3 milliards 124,9 MTr/ mm²
AD103 RTX 4080(S) / 4070TiS 80 379 mm² 45,9 milliards 121,2 MTr/ mm²
AD104 RTX 4070(S) / Ti 60 295 mm² 35,8 milliards 121,6 MTr/ mm²
AD106 RTX 4060Ti 36 188 mm² 22,9 milliards 121,8 MTr/ mm²
AD107 RTX 4060 24 159 mm² 18,9 milliards 118,9 MTr/ mm²

Pour le reste de la gamme par contre, sur la base de mesures partagées par NVIDIA et judicieusement exposées comme ce qui va suivre par ComputerBase, dans un rendu purement natif, le gap RTX 50 Series / RTX 40 Series n’est pas pharamineux.

RingDifference de ShadersDifference d'IPS, Resident Evil (RT) + Horizon Forbidden West (DLSS, pas de MFG)
Référence RTX 5000 RTX 4000S RTX 4000 RTX 5000 RTX 4000S RTX 4000
RTX XX90 133,00 % 100,00 % ~ 133 % 100,00 %
RTX XX80 111,00 % 105,00 % 100,00 % ~ 115 % 102,00 % 100,00 %
RTX XX70 Ti 117,00 % 110,00 % 100,00 % ~ 120 % 110,00 % 100,00 %
RTX XX 70 104,00 % 122,00 % 100,00 % ~ 120 % 116,00 % 100,00 %

rtx 5070 ti vs rtx 4070 ti

En dehors de cela, Blackwell est la première génération GPU de NVIDIA à aller au-delà du DisplayPort 1.4a ; support complet du DisplayPort 2.1 UHBR20 au programme, et moteurs d'encodage / décodage de 9e et 6e génération respectivement. Le PCIe 5.0 est également l'une des nouveautés.

blackell moteurs

L’autre grande avancée est naturellement la GDDR7. Elle est cadencée à 28 Gbit/s, sauf pour la GeForce RTX 5080, pour laquelle les puces sont à 30 Gbit/s. Logiquement, l'effet sur la bande passante mémoire se fait ressentir par rapport aux anciennes cartes équipées de puces GDDR6X.

blackwell gddr7

D'autre part, NVIDIA revendique aussi des gains sur le terrain de l'efficacité énergétique.

blackell efficacite

Sans surprise, Blackwell fait la part belle aux charges de travail d’IA. Cela passe notamment pas l’ajout d’un processeur de gestion de l'IA dont le rôle consiste apparemment à recevoir des indications sur le type de charges de travail en cours d'exécution afin de déterminer celles qui doivent être traitées en priorité.

blackwell ai management processeur

Par ailleurs, les Neural Shaders bougonnent à travers cinq branches : celles des Neural Textures, Neural Materials, Neural Volumes, Neural Radiance Fields et Neural Radiance Cache.

blackell neural shaders

Les Neural Materials par exemple doivent contribuer à réduire l’utilisation de la VRAM pour les textures et matériaux. Sous réserve que les développeurs implémentent le support dans leurs productions. Plus globalement, Microsoft a déjà annoncé que ses équipes œuvraient à l’implémentation d’un rendu neural dans DirectX, plus particulièrement par l’entremise des « cooperative vectors ». Restera à voir la prise de tout ceci par d’autres GPU. Cela restera un standard ouvert, mais il est probable que des architectures plus anciennes ne supportent pas nativement certaines fonctionnalités matérielles nécessaires à sa mise en œuvre.

blackwell rtx neural material

blackwell cooperative vectors

Citons aussi des dispositifs plus mineurs tels que le RTX Skin ou RTX Hair, pour lesquels les titres sont suffisamment explicites.

DLSS 4

Un autre versant majeur de l’architecture Blackwell est le DLSS 4 renforcé par sa Multi-Frame Generation. Pour l’anecdote, NVIDIA allègue que plus de 80 % des détenteurs de RTX ont recours au DLSS.

blackell dlss utilisation

Les premières versions du DLSS reposaient sur des réseaux de neurones convolutifs (CNN). Désormais, NVIDIA apporte un modèle d’apprentissage profond de type transformeur, également appelé modèle auto-attentif. Le site Picsellia nous éclaire à ce sujet en expliquant que les « CNN utilisent la convolution, une opération « locale » limitée à un petit voisinage d'une image », tandis que « les Transformers utilisent l'auto-attention, une opération "globale", puisqu'elle tire des informations de l'image entière ». La page Wikipedia de ces derniers nous apprend qu’ils reposent sur une architecture d'apprentissage profond introduite en 2017.

blackwell transformers

Quoi qu’il en soit, avec le nouveau modèle DLSS, NVIDIA revendique deux fois plus de paramètres et quatre fois plus de calculs, ce qui améliore considérablement la qualité de l'image. C’est valable pour la mise à l’échelle, mais aussi pour la Ray Reconstruction.

super resolution transformers

ray reconstructions transformers

Concernant la MFG, comme nous l’avons écrit précédemment, NVIDIA n’interpole plus une image, mais carrément trois. Un bon moyen d’obtenir magiquement trois fois plus de perf dans les benchmarks !

dlss 3 frame generation

dlss mfg

dlss mfg 2

Pour contrebalancer la latence induite par son arme de destruction massive dans la guerre de la Frame Generation, NVIDIA mise sur le Reflex 2. Cette version introduit un système de prédiction et d'in-painting.

reflex 2

reflex 2 inpainting

Enfin, via la NVIDA App, les joueurs pourront choisir leur Frame Generation fétiche.

nvidia app choix dlss

Terminons par une diapositive plus générale. Elle montre la hausse exponentielle du nombre de polygones dans les jeux depuis 30 ans. Nous sommes passés, au début des années 1990, d’environ 1 000 à 10 000 polygones par scène, à entre 10 et 50 millions dans un jeu comme Cyberpunk 2077.

blackwell polygones

NVIDIA entrevoit déjà les 500 millions. Comme dans sa démo technique Zorah, que vous pouvez visionner ci-dessous.

Un poil avant ?

Asus nous sert la cuvée 2025 de son ROG NUC, sangria ou vin chaud ? (MAJ)

Un peu plus tard ...

La Multi Frame Generation du DLSS 4 n'est pas inconciliable avec les anciennes RTX

Les 15 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Un champion du monde embusqué ••, le Mardi 21 Janvier à 20h27  
par Scrabble le Lundi 20 Janvier à 09h12
C'est pas un probleme ca, la 5090 c'est comme une voiture de sport, tu vas pas la conduire a fond 100% du temps.
Pour certains jeux, tu aura du bottleneck parce que la CG sera sous-utilisee, et puis dans d'autres jeux en path tracing, la CG donnera son plein potentiel et sera donc pleinement utile.
La rapidite du GPU est la quand on en a besoin
Ça dépend ce qu on fait
Perso je préfère acheter une carte 2x moins cher 2 fois plus souvent qu une carte 2x plus cher 2x moins souvent
La précédente carte ira mettre à jour mon 2nd PC

Là j ai 2 PCs l un a une 3060ti l autre une 3080 payé à prix Founder de l époque (mm si j en ai chié à moulte tentative pour les avoir au bout du xx drop)
Là une 5080 remplacera ma 3080 et ma 3080 remplacera ma 3060ti
Une 5090 j en ai pas besoin, comme j ai jamais eu besoin d une 4090 nu d une 3090

On continu à subir le nivellement par le bas des consoles... Donc ces monstre "xx90" ne me servent à rien
Et je suis surtout passé au "xx80" surtout quand je suis passé un écran 4K sur mon pc principal
Sur mon secondaire, faire tourner les jeux en 4K n'est aucunement une obligation
Et je suis loin sur mon principal de faire tourner tout les type de jeux en 4K
Pour moi jouer en 4K c'est plus sur les jeux de stratégie, rts, mmo... Que ça tourne en 4K sur un jeu sais pas... Les jeux Sony genre horizon forbiden west... C est du bonus pour moi
Je suit pas le mec gros boeuf à mettre tout les potard sur "ultra" dans le menu option
Le faisais déjà pas du temps de Crysis 1, c'est pas une sale habitude qui naîtra chez moi
par Jemporte, le Lundi 20 Janvier à 21h44  
par Scrabble le Lundi 20 Janvier à 09h12
C'est pas un probleme ca, la 5090 c'est comme une voiture de sport, tu vas pas la conduire a fond 100% du temps.
Pour certains jeux, tu aura du bottleneck parce que la CG sera sous-utilisee, et puis dans d'autres jeux en path tracing, la CG donnera son plein potentiel et sera donc pleinement utile.
La rapidite du GPU est la quand on en a besoin
C'est pas un vrai bottleneck qui est surtout relatif à la bande passante. Dans ce cas on est loin du botteleneck.
Par contre il pourrait y avoir une inadéquation entre les perfs de la carte et celle du CPU, sauf que la carte ne fait que 30% de perfs en plus au mieux, et on n'a jamais été obligé d'utiliser une 7950X3D pour éviter d'être en bottleneck avec la 4090. Même une 7700X suffisait (le 7800X3D performait similairement à de très rares exception marginales) et chez Intel pareil.
par Jemporte, le Lundi 20 Janvier à 21h35  
par beguemot le Dimanche 19 Janvier à 17h39
Quand je vois la différence entre les puces 4080 vs 5080, je ne vois pas comment le 5080 peut proposée une augmentation de FPS. Et que dire de la différence entre la 5080 et la 5090 ça sent le rush sur la 5090 parce que la 5080 pue le mauvais rapport qualité / prix. Leur amélioration IA fait assez peur comme une poudre à perlimpinpin pour cacher la faible augmentation de cette génération.
C'est assez simple, en n'utilisant pas la MFG. Il y a augmentation de fréquence (pas de densité malgré la meilleure gravure) et quelques fonctionnalités qui permettent plus de souplesse à l'usage des Cores. Donc quelques pour cents architecturaux et une fréquence supérieure qui se traduit par une conso supérieure. CQFD.
Niveau prix, c'est le prix de la 4080 Super qui est repris. Comme AMD n'a pas complètement rattrapé la RTX5080 avec la 9070XT, Nvidia est assez tranquille. Par contre ils devront surveiller le prix leur 5070Ti qui devra être souple alors que la 9070XT devrait être une carte low cost dans le milieu de gamme (c'est toute sa qualité ).
par Scrabble, le Lundi 20 Janvier à 09h12  
par Un champion du monde embusqué ?? le Dimanche 19 Janvier à 22h56
La rtx5090 coûte le double vs 5080 pour te faire bottleneck par le cpu
C'est pas un probleme ca, la 5090 c'est comme une voiture de sport, tu vas pas la conduire a fond 100% du temps.
Pour certains jeux, tu aura du bottleneck parce que la CG sera sous-utilisee, et puis dans d'autres jeux en path tracing, la CG donnera son plein potentiel et sera donc pleinement utile.
La rapidite du GPU est la quand on en a besoin
par Un champion du monde embusqué ••, le Dimanche 19 Janvier à 22h56  
par beguemot le Dimanche 19 Janvier à 17h39
Quand je vois la différence entre les puces 4080 vs 5080, je ne vois pas comment le 5080 peut proposée une augmentation de FPS. Et que dire de la différence entre la 5080 et la 5090 ça sent le rush sur la 5090 parce que la 5080 pue le mauvais rapport qualité / prix. Leur amélioration IA fait assez peur comme une poudre à perlimpinpin pour cacher la faible augmentation de cette génération.
Versus rtx3080 le prix est moisi oui
Par contre versus rtx4080/rtx4080super le prix de la Founder se tiend
Le prix de la rtx5090 est bien plus naze pour un gamer
La rtx5090 coûte le double vs 5080 pour te faire bottleneck par le cpu vu que les rtx4090 est déja souvent cpu bottleneck
Les gain 5080/4080 tu va le trouvé sur les maigre gain BP de la gddr7 + pet de mouche de tmu/rop en plus, et qqs amélioration architectural oui

Maintenant encoder/décoder vidéo amelioré, connectique HDMI/DP mise à jour
Et malheureusement la 5070ti n existera pas en Founder donc les oem vont la vendre aussi cher que la 5080founder

Donc coté NVIDIA la 5080 Founder semble la plus pertinente des avis des scalper, des abus des oem sur les modèles inférieur
Après si pas pressé oui dans 1an ptet une 5070super avec des puce 3GB et une 5080super idem
Du coup ptet ou ptet pas des super avec 5070super 18GB 5080super 24GB
Et une 5080TI basé sur la puce pour notebook

Sauf que.. scoop le taux euro/dollar il va pas aller entre notre faveur avec nos "intellectuel" de Bruxelles

Va falloir réinstaller telegram pour pécho une 5080
par Un champion du monde embusqué ••, le Dimanche 19 Janvier à 22h39  
par Jemporte le Vendredi 17 Janvier à 21h31
Totalement faux dans le sens où le GPU depuis longtemps ne sert plus que pour le graphisme.
En fait le GPU est une unité de calcul massivement parallèle. C'est très différent du CPU, et c'est le NPU ajouté au CPU qui est l'anomalie.
Y a t il des "cpu" qui inclut des "Npu" sans une présence de "igpu" ? (Bref un apu de la vieille appellation de AMD quand l igpu est passé du coté cpu et plus northbridge dédié sur la mobo)
Me semble pas
Que je sache chez AMD les seul à avoir du npu sont les rx7000 (qui sont autant dire pas utilisé car xdna1)
Et les "apu"
Coté Intel pareil, coté Qualcomm, pareil, NVIDIA pareil, Samsung pareil,...
Bref sont ou les npu ajouté sans présence de gpu ?

Je parle bien sûr pas de puce only npu dédié pour le monde pro

Alors à mon d avoir loupé un produit, ton "totalement faux" bah est faux
par beguemot, le Dimanche 19 Janvier à 17h39  
Quand je vois la différence entre les puces 4080 vs 5080, je ne vois pas comment le 5080 peut proposée une augmentation de FPS. Et que dire de la différence entre la 5080 et la 5090 ça sent le rush sur la 5090 parce que la 5080 pue le mauvais rapport qualité / prix. Leur amélioration IA fait assez peur comme une poudre à perlimpinpin pour cacher la faible augmentation de cette génération.
par Jemporte, le Samedi 18 Janvier à 22h03  
Le FP4 c'est vraiment très primitif comme info
Le nombre maximal c'est +/- 1,28 x10^24

Vous êtes sur un flottant avec en gros un nombre de 0 à 100 en précision. Imaginez ce que vous pouvez en faire. C'est assez limité. Il est clair que vous ne pouvez pas vous en servir pour du positionnement, mais uniquement sur une direction de vecteur. On ne peut pas généraliser l'usage du FP4 à tout mais plutôt l'inverse, le restreindre à certains usages.
Donc automatiquement on ne multiplie pas la vitesse de calcul d'autant que ce que voudrait afficher Nvidia.

Si on regarde les RTX 4000/5000, on a la même densité de transistors et même taille de chip sauf pour le 5090. La différence c'est que la gravure plus performante permet de monter en fréquence. Globalement les RTX 5000 sont une réorganisation du chip pour l'orienter vers de nouveaux usages, l'architecture RTX ayant des limitations du fait de coeurs CUDA, coeurs RT et coeurs IA, spécialisées. Cette augmentation de fréquence est combinée à la GDDR7 plus rapide. Au final on a peu d'amélioration de vitesse brute mais des fonctionnalités en plus. Un prix similaire ou inférieur aux RTX 4000 est une quasi-obligation sauf pour la 5090.
par Un fanfaron de la flibuste en Voïvodie de Mazovie, le Samedi 18 Janvier à 14h52  
bla bla bla
par Jemporte, le Vendredi 17 Janvier à 21h31  
par Un champion du monde embusqué ?? le Vendredi 17 Janvier à 12h22
De toute façon déjà amorcé sur rtx4000 cela n a plus de carte "graphique" que le nom

On est en train de "supprimer" (en tout cas ne plus vraiment augmenter) de ces carte petit à petit les unité qui permettent la rasterisation (bref les unité shader) au profit de circuit dédié à un marché pro
Deep learning etc...

On vit la fin des carte graphique, et d ici qqs gen le nb d unité shader se réduira et le graphisme sera "logiciel"
Car à terme du raytracing NON hybride comme c est le cas actuellement qui s appui sur une base rasterisé
Bah y a pas en soit besoin d un "gpu"
Les rendu rt dans des soft genre 3dsmax à l origine c était traité par le cpu
Les gpu deviennent des Npu quand bien mm un npu est pas vraiment non plus vraiment adapté pour du raytracing

On change de paradigme
Et c est pas dit que les après rtx4000/5000 soit top sur les anciens jeux de nos collections steam

Pour ça que je compte bien remplacer d ici 1an ma rtx3080 par une rrx5000... Pendant qu il y a encore des unité shader
Pas convaincu que les RTX"6"000 ne sera pas le debit de la réduction d unité shader
Totalement faux dans le sens où le GPU depuis longtemps ne sert plus que pour le graphisme.
En fait le GPU est une unité de calcul massivement parallèle. C'est très différent du CPU, et c'est le NPU ajouté au CPU qui est l'anomalie.
par Jemporte, le Vendredi 17 Janvier à 21h26  
Donc le RTX 5060Ti 16 Go sera sensiblement supérieure à la 4060Ti 16Go et la 5070Ti 16Go aussi par rapport à la 4070Ti 16Go. Pour des raisons architecturales. C'est rassurant. mais uniquement grâce à de nouvelles fonctionnalités, si elles sont exploitées.
par Un champion du monde embusqué ••, le Vendredi 17 Janvier à 18h40  
Une requête type "chatgpt" est plus energivore qu une requête classique sans bien souvent apporté une plus valu
Est ce pour autant qu on met la holla sur l IA ?

Ce sont des vendeurs de service dans le cloud, ils s en foutent que ça soit energivore, à la fin c est l utilisateur final qui paie la facture
Le monde capitaliste/boursier aime la spéculation sur du solide et surtout du vent

Le bon sens ils s en foutent tant qu il y en a pour acheter

Pour en revenir à NVIDIA... GeForce now... Osef du nb de transistor dans la boiboute en local chez toi