• VEGA 10

Avant de décrire la carte que nous nous sommes procurée pour ce test, passons en revue les principales caractéristiques de son GPU, aka VEGA 10. Ce dernier fait partie de ce que l'on pourrait appeler les "grosses puces", avec pas moins de 486 mm² pour 12,5 milliards de transistors, même si on reste relativement éloigné des records à ce niveau, comme le GV100 et ses 21 milliards de transistors étalés sur 815 mm².

 

Il est par contre d'une taille et densité similaire au GP102 des TITAN Xp et 1080 Ti, concentrant 12 milliards de transistors au sein d'un die de 471 mm² et donc notablement plus gros que le GP104 (314 mm²) des GTX 1080, ce qui a son importance, puisqu'il s'agit de la cible annoncée. C'est GlobalFoundries qui a été choisi pour graver la puce via son 14 nm LPP, déjà usité sur les Polaris 10 et 11. L'architecture au sein de ce GPU serait NCU (pour New generation Core Units), même si en pratique, les liens de parenté avec GCN crèvent les yeux, comme l'indique ce schéma de principe du GPU :

 

Diagramme logique VEGA [cliquer pour agrandir]

Diagramme logique de VEGA 10

 

On note toutefois de légères différences au niveau de l'organisation interne, ou tout du moins la représentation qui en est faite. Ainsi, plus trace des Shader Engine, c'est à dire les entités qui regroupaient précédemment les unités géométriques, de rastérisation, de calcul (CU) et de rendu (ROP). Bien entendu, tous ces éléments sont toujours présents, mais AMD les dissocient en 3 blocs distincts sur le diagramme, la somme correspondant bien à un ancien Shader Engine. Réel changement ou représentation différente ? Toujours est-il que vu l'inflation du nombre de transistors, on pouvait espérer une augmentation de leur nombre, bloqués à 4 maximum depuis plusieurs années, il n'en est rien.

 

A priori, pas de limitation technique de l'architecture, mais cela demanderait un redesign poussé de la puce et donc des ressources qu'AMD dispose en quantité limitée pour le moment. Le concepteur a donc préféré conserver une organisation interne similaire à Fiji en ajustant quelques points, et se concentrer par contre sur la montée en fréquence en allongeant certains pipelines, assurant la redondance du signal, etc. Tout ceci serait responsable d'une bonne partie de la croissance du nombre de transistors. Toujours au niveau des petits ajustements, les ROP n'exploitent plus de petits tampons dédiés, mais directement le cache L2. Deux ACE disparaissent également par rapport à Fiji.

 

Les plus observateurs auront remarqué qu'AMD fait apparaître sur ce schéma le terme Infinity Fabric, qui doit être familier à la plupart, puisqu'il s'agit ni plus ni moins que celui déjà utilisé par le concepteur, lors de la description de Ryzen pour l'interconnexion entre CCX et les contrôleurs mémoire. L'usage serait peu ou prou le même ici, c'est à dire l'interconnexion de modules entre eux. Cette uniformisation a probablement pour but de simplifier grandement la tâche des équipe d'AMD pour le développement des futurs APU, pouvant piocher ainsi parmi une banque de modules Ryzen ou VEGA, interconnectables entre eux via cette Infinity Fabric.  

 

Si on se concentre sur les chiffres, le nombre d'unités de calcul et de texturing n'évolue pas depuis Fiji, pas plus que celles de rendu ou de géométrie. Mais si la quantité n'évolue pas, ce n'est pas forcément le cas de leurs capacités, nous détaillerons tout cela un peu plus bas. Abordons d'abord la HBM 2 qui a fait couler beaucoup d'encre depuis des mois, car longtemps pointée du doigt quant au retard de VEGA 10. AMD indique que par rapport à la 1ère version, la bande passante est doublée par pin et la capacité par stack (empilement) multipliée par 8. De quoi proposer une capacité doublée avec la même bande passante, malgré deux fois moins de stack sur VEGA 10 que Fiji.

 

Récapitulatif VEGA 10 [cliquer pour agrandir]Efficacité HBM2 [cliquer pour agrandir]

 

Le cache L2 centralisé est doublé à 4 Mo, suivant ainsi la tendance à l'inflation de cet élément sur les GPU modernes. AMD annonce également le High-Bandwith Cache Controller, une gestion modernisée de la mémoire des GPU à l'instar de celle faite par les CPU via pagination. Après activation, on détermine la quantité à utiliser en mémoire centrale du système, puis la HBM 2 embarquée sur la carte se comporte comme un cache local pour cette dernière.

 

Cela permet d'affiner l'allocation mémoire par le GPU et augmenter largement la quantité (on a souvent bien plus de mémoire centrale que sur la carte graphique en elle-même) adressable par le GPU. Toutefois, les données non stockées sur la HBM 2 utiliseront une mémoire plus lente (DDR4/3) et devront transiter par le bus PCIe bien moins rapide que les contrôleurs locaux. En jeu (3D temps réel), il est probable que cela se traduise par des saccades désagréables du fait des temps d'accès lorsque la capacité de la HBM 2 sera dépassée, cette fonctionnalité parait donc plus utile dans le cadre d'un usage pro.

 

Cache L2 [cliquer pour agrandir]HBCC [cliquer pour agrandir]

 

Abordons cette fois la refonte des unités de calcul, justifiant ce Next gen Compute Unit. AMD propose en fait la capacité à traiter deux fois plus rapidement les données 16-bit pour ses unités de calcul. Les précédentes RADEON pouvaient déjà stocker 2 données 16-bit dans un registre 32-bit pour gagner de la place, par contre leur traitement se faisait à la même vitesse que les FP32. Ce n'est plus le cas avec un débit donc doublé, ce que le concepteur nomme Rapid Packed Math, très utile en usage deep learning par exemple, mais pas que selon le concepteur de GPU.

 

À titre d'exemple, AMD indique que l'usage du 16-bit permet de gagner jusqu'à 25% sur certains effets sous 3DMark ne nécessitant pas un traitement 32-bit pour obtenir un bon résultat. C'est encourageant, 2 points seront toutefois cruciaux pour un éventuel succès : une adoption par de nombreux développeurs (pas gagné) et l'aspect qualitatif/usage réel, car on garde en mémoire l'époque des tristement célèbres FX 5xxx, où le caméléon forçait un rendu 16-bit (au lieu de 32-bit donc bien moins qualitatif sur l'ensemble de la scène) pour lutter avec les RADEON 9xxx utilisant, elles, le FP24.

 

NCU [cliquer pour agrandir]16-bit Math [cliquer pour agrandir]

 

Pour finir avec les unités de calcul, AMD annonce avoir ajouté pas moins de 40 nouvelles instructions au jeu d'instructions internes, dont une partie dédiée au cryptomining. Toujours côté ajouts, quelques instructions 8-bit spécifiques au Deep Learning, font leur apparition à l'instar de ce que NVIDIA a fait pour les puces Pascal gaming. Plus intéressant pour les joueurs, le support de DX12 évolue enfin du côté rouge, avec une prise en charge du niveau de fonctionnalité DX12_1 supporté par la concurrence depuis Maxwell. Mieux, cette prise en charge est même plus complète, avec un accès plus flexible à certaines ressources (Tier 3) et le standard swizzle absent chez les verts.

 

Deep Learning [cliquer pour agrandir]DX12 Features [cliquer pour agrandir]

 

Poursuivons avec le Draw Stream Bining Rasterizer. Kesako ? Derrière ce nom barbare se cache en fait la mise en application du Tiled Rendering adopté par NVIDIA depuis Maxwell et qui permet lorsqu'il y a gain possible, d'éviter les opérations inutiles (pixels masqués) sur une partie de la scène (Tile), lors de la rasterization (découpe des triangles en pixels). Ceci est possible en suivant la position de chaque triangle en cache et indiquant ceux masqués, donc à ne pas rastériser, quand leur tour arrive, économisant ainsi de la bande passante mémoire, puisque tout reste au niveau du L2.

 

AMD décrit ensuite les Primitive Shaders, un nouveau type de Shader capable de remplacer les Vertex et Geometry Shaders avec une bien meilleure efficacité pour éjecter les triangles masqués (culling), point de domination outrancière des GeFORCE actuelles. Le souci provient de la nécessité d'une adoption par les développeurs (encore une fois), même si AMD indique disposer d'un path alternatif dans ses pilotes permettant des gains opportunistes.

 

DSBR [cliquer pour agrandir]Primitive Shaders [cliquer pour agrandir]

 

Finissons notre rapide tour d'horizon des nouveautés de l'architecture par 2 points : le premier consiste en la modification du microcontrôleur gérant l'énergie au sein de la puce. Il permet de basculer la puce au repos sur un second générateur de fréquence autorisant des valeurs beaucoup plus faibles du GPU et de la HBM 2, nous vérifierons cela dans quelques pages. Le second point attrait au moteur de gestion vidéo qui évolue légèrement avec davantage d'écrans gérés simultanément dans les modes 4K (standard et HDR), ainsi que quelques petits aménagements du côté encodage/décodage.

 

Power Management [cliquer pour agrandir]Moteur vidéo [cliquer pour agrandir]

 

 Voilà, c'est tout pour VEGA 10, passons aux spécifications des cartes employant ce nouveau GPU.




Les 44 Ragots
   
Les ragots sont actuellement
ragots réservés aux QI élevésouverts aux ragoteurs logués