COMPTOIR

AMD a donc levé hier soir une partie du voile sur sa nouvelle architecture RDNA 3, au travers d'un nouveau GPU Navi 3x (probablement 31, mais AMD ne le précise pas) et des premières cartes l'utilisant, à savoir les Radeon RX 7900 XTX & RX 7900 XT. Que faut-il en retenir ?

 

caract t [cliquer pour agrandir]

 

Tout d'abord, il s'agit du premier GPU à adopter l'approche en chiplet, que le concepteur utilise sur CPU depuis Zen 2. En pratique ici, 2 types de chiplets vont donc cohabiter :

  • le Graphics Compute Die ou GCD qui va intégrer toutes les éléments constitutifs d'un GPU classique, à l'exception des contrôleurs mémoire et du cache L3
  •  les Memory Cache Die qui vont de leur côté embarquer 2 contrôleurs mémoire 32-bit et 16 Mo de cache L3

L'avantage de cette approche, c'est qu'elle va permettre davantage de flexibilité au niveau de la production, mais aussi du "calibrage" des différents GPU. Ainsi, l'onéreux process 5 nm de TSMC est réservé au GCD, qui va profiter à plein des gains en termes de performance du procédé de gravure, en particulier pour limiter la puissance électrique nécessaire. Les MCD moins sensibles à cette problématique, peuvent se contenter d'un nœud de gravure moins performant (et donc moins onéreux), ici le 6 nm de TSMC (optimisation du node 7 nm). AMD peut aussi varier le nombre MCD accompagnant le GCD pour ajuster les coûts et les performances au sein de sa gamme : ainsi la 7900 XTX en utilisera 6, contre 5 sur la version XT. Cela conduira à un L3 max de 96 Mo (80 Mo sur la XT), en berne par rapport aux 128 Mo de RDNA2.

 

Chiplet [cliquer pour agrandir]

 

La difficulté de l'approche en chiplet sur un GPU, provient des débits gigantesques nécessaires entre die. Pas d'interposer ici comme à l'époque des premières puces utilisant la HBM, mais l'utilisation d'une technologie de packaging spécifique qu'AMD nomme Elevated Fannout Bridge (EFB), intronisée sur les accélérateurs CDNA 2 des rouges. Ainsi, 5,3 To de données peuvent transiter chaque seconde par ce biais entre dies, soit un peu plus de 880 Go/s entre chaque MCD et le GCD. AMD indique qu'au global, cette approche permet d'obtenir une bande passante mémoire en pic jusqu'à 2,7x plus élevée qu'avec RDNA 2 (avec de la GDDR6 plus rapide et un bus 50% plus large).

 

MCD [cliquer pour agrandir]

 

Du côté des unités de calcul "traditionnelles", si RDNA 2 n'avait presque pas évolué par rapport à RDNA, ce n'est pas le cas de cette version 3. Les Stream Processors (SP) sont toujours regroupés au sein d'unités SIMD32, à raison de 2 par Compute Unit (CU). Leur nombre (96 max. soit 6144 SP) progresse finalement peu en comparaison du plus gros GPU RDNA 2 (80 CU / 5120 SP), mais elles se voient dotées de la capacité à traiter 2 instructions par cycle (Dual Issue). Comme toujours, le diable se cache dans les détails de l'implémentation et il ne sera possible de profiter de cette Dual issue, qu'à condition expresse que le compilateur soit capable d'extraire la seconde instruction d'une même Wavefront.

 

Unités de calcul [cliquer pour agrandir]

 

Ainsi, le doublement du débit des unités de calcul ne sera possible que dans le meilleur des cas et pas systématiquement. De quoi afficher de gros chiffres brutes à l'instar d'Ampere et Lovelace pour la puissance de calcul en FMA FP32, mais qui ne sont retrouverons pas forcément en pratique de chaque côté. Un mot sur les unités dédiées qui évoluent également. Ainsi, AMD suit la tendance initiée par Nvidia et poursuivie par Intel, avec l'intégration d'unités dédiées à l'accélération de l'IA. Les rouges sont plutôt avares sur leurs capacités pour l'heure, il s'agit à n'en pas douter d'équivalents aux Tensor Cores, reste à voir si un usage dans le domaine ludique en sera fait.

 

Autre évolution importante, AMD a revu ses unités dédiées à l'accélération du Ray Tracing. La première itération de ses Ray Accelerator s'est montrée plutôt décevante. Un des points que nous avions soulevé concernant leur contre-performance, provenait de l'absence de traitement dédié pour la constitution et la traversée du BVH, qui devaient être effectuées par les unités SIMD via un shader. Le problème d'une telle approche, vient de l'inadéquation de l'organisation SIMD des unités de calculs pour ce genre de tâche (Pointer Chasing). RDNA3 intègre désormais la prise en charge de la traversée du BVH directement au sein des Ray Accelerators, qui voient également leur débit brut progresser de 50 %.

 

RT [cliquer pour agrandir]

 

Autre spécificité de RDNA3, le découplage des fréquences entre les unités de calcul et le reste du GPU au sein GCD. Ainsi, les premières pourront se limiter à 2,3 GHz contre 2,5 GHz pour les autres éléments. L'objectif affiché est de maitriser la consommation électrique, et rester donc dans une enveloppe raisonnable, sachant que les fréquences élevées se paient souvent très chères à ce niveau. On peut par contre penser que des modèles customs disposant de 3 connecteurs à 8 broches, seront en capacité d'augmenter sensiblement cette valeur et donc les performances, au prix d'une consommation bien supérieure. Un mot sur l'interface : AMD ne le précise pas, nous supposons donc que ces RX 7900 n'utilisent pas le PCIe Gen 5 mais se limite à l'instar d'Ada, à la version 4.0.

 

Découplage des fréquences [cliquer pour agrandir]

 

Les moteurs d'affichage et vidéo progressent aussi notablement. Ainsi, en sus du décodage AV1, RDNA3 propose également l'encodage de ce format. Les rouges indiquent que la fréquence de ce media engine progresse de 80 % autorisant un décodage/encodage simultané de 2 flux H.264/265 (nous ignorons si c'est aussi le cas pour l'AV1). Coté affichage et contrairement à son concurrent vert, AMD a décidé d'adopter la dernière norme DisplayPort 2.1, doublant le débit par rapport à la version 1.4. Un avantage indéniable pour le 8K, quadruplant le besoin en bande passante, faut-il encore avoir un tel écran et les contenus / ressources adaptés.

 

moteur video t [cliquer pour agrandir]

 

Résumons donc les nouvelles venues au sein du tableau suivant. Une précision : depuis Ampere, Nvidia a doublé le nombre d'unités de calcul FP32 au sein des Cuda Core (CC ou SP chez AMD). Pour des raisons marketing, ces unités FP32 sont devenues des CC (les gros chiffres sont vendeurs), sans que cela soit réellement le cas d'un point de vue de leur définition en comparaison des générations antérieures. AMD a semble-t-il (ce point mérite d'être confirmé en l'absence de document l'attestant pour l'heure) lui aussi doublé le nombre d'ALU au sein de ses SP avec RDNA 3, mais ne les présente pas comme un doublement de leur nombre, ce qui nous parait plus correct compte tenu de l'historique des dénominations.

 

C'est pourquoi nous avons ajouté une colonne FP32 pour aller au-delà des appelations marketing. Notez que comme indiqué précédemment, d'un côté comme de l'autre (pour des raisons différentes), ce doublement du nombre d'unités FP32 ne se traduira pas forcément par un doublement de la puissance de calcul pour toutes les tâches, en particulier celles ludiques. Pour le dire autrement et très "schématiquement" : un flop/s Ampere(Ada)/RDNA 3 ne vaudra pas systématiquement un flop/s Turing/RDNA2, une fois traduit en performance ludique.  

 

CartesGPUFréq. Boost GPU (MHz)Fréq. Mémoire (MHz)SP *FP32TMUROPTaille mémoire (Go)Bus mémoire (bits)Calcul SP (Tflops)Bande Passante (Go/s)TGP (W)
RX 6800 Navi 21 1815

1988

3840 3840 240 96 16 256 13,9 509 250
RX 6800 XT Navi 21 2015 1988 4608 4608 288 128 16 256 18,6 509 300
RX 6900 XT Navi 21 2015 1988 5120 5120 320 128 16 256 20,6 509 300
RX 6950 XT Navi 21 2100 2238 5120 5120 320 128 16 256 21,5 573 335
RX 7900 XT Navi 3x 2400 2500 5376 10752 336 192 20 320 51,6 800 300
RX 7900 XTX Navi 3x 2500 2500 6144 12288 384 192 24 384 61,4 960 355
RTX 3080 GA102 1710 1188 4352 8704 272 96 10 320 29,8 760 320
RTX 3080 12 Go GA102 1710 1188 4480 8960 280 96 12 384 30.6 912 350
RTX 3080 Ti GA102 1665 1188 5120 10240 320 112 12 384 34,1 912 350
RTX 3090 GA102 1695 1219 5248 10496

328

112 24 384 35,6 936 350
RTX 3090 Ti GA102 1860 1313 5376 10752 336 112 24 384 40 1008 450
RTX 4080 12 Go AD104 2610 1313 3840 7680 240 80 12 192 40.1 504 285
RTX 4080 AD103 2505 1400 4864 9728 304 112 16 256 48.7 717 320
RTX 4090 AD102 2520 1313 8192 16384 512 176 24 384 82.6 1008 450

* Stream Processor (Cuda Core chez Nvidia) 

 

Quid de la tarification et disponibilité ? A respectivement 999$ et 899$ HT, on devrait se retrouver avec des tarifs respectifs en € TTC, aux alentours des 1225 € et 1100 € au taux de change actuel. Elles devraient donc être bien plus accessibles que la RTX 4090, mais cette dernière devrait conserver un avantage significatif côté performances, A voir ce qu'il en sera face à la RTX 4080, qui sera commercialisée dans une dizaine de jours, soit un mois avant ce duo. 

 

Prix [cliquer pour agrandir]

Un poil avant ?

Vers un risque de surproduction de semiconducteur d'ici 2025 ?

Un peu plus tard ...

Zhaoxin lance de nouveaux CPU x86 : les KH-4000 et les KX-6000G

Les rouges lèvent le voile sur leurs nouvelles carte graphiques RDNA 3 !

Sur le comptoir, au ~même sujet

 
 
 
 
 
 
 
 
 
 

afficher plus de prixAffichez donc moi tout, nom de nom
Les 62 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !