• GP102

Avant de décrire la carte que nous a fait parvenir NVIDIA, passons en revue les principales caractéristiques de son nouveau GPU aka GP102. Ce dernier fait partie de ce que l'on pourrait appeler les "grosses puces" avec pas moins de 471 mm², même si on reste relativement éloigné des records à ce niveau, dont le GP100 et ses 610 mm². Mais revenons à la star du jour qui concentre pas moins de 12 Milliards de transistors au sein de son die. C'est TSMC qui a été choisi pour graver la puce via son 16 nm déjà usité sur les GP100/104/106. La taille est donc en hausse de 50% par rapport à GP104 et le nombre de transistors est encore plus impressionnant avec +66% vis-à-vis de la même référence. C'est bien entendu l’architecture Pascal qui est à la manœuvre, pour les détails concernant cette dernière, nous vous invitons à lire ou relire la page qui lui est dédiée dans le dossier GTX 1070/1080. Commençons par le diagramme du GPU :

 

diagramme logique de GP102 [cliquer pour agrandir]

Diagramme logique du GP102

 

La recette appliquée par NVIDIA pour concevoir sa puce "Enthusiast" à partir de celle dédiée au haut de gamme est la même que celle qui fut utilisée lors de la précédente génération : x 1,5 pour toutes les unités ! On passe donc de 4 GPC sur GP104 à 6 pour GP102, permettant ainsi la génération de 6 triangles par cycle d'horloge et 96 pixels en sortie des unités de rasterisation pour une puce complète. En descendant d'un niveau au sein de l'architecture, on retrouve bien entendu les TPC (5 par GPC) comprenant chacun 1 SM (Streaming Multiprocessor se chargeant des calculs, du texturing et disposant de mémoire partagée) et 1 Polymorph Engine dédié à la géométrie (dont la tesselation). On obtient donc 30 SM soit 3840 unités de calculs scalaires et 240 TMU pour un GP102 intégral.

 

Pour le bus mémoire, NVIDIA a appliqué le même régime en augmentant de 50% le nombre de contrôleurs 32-bit qui passent en conséquence à 12. Le nombre de ROP suit cet ajustement avec 96, tout comme le cache L2 progressant de 2 à 3 Mo. NVIDIA réemploie la GDDR5X en association avec ce GPU (très) haut de gamme et à l'instar de la GTX 1080, ce sont des puces certifiées pour 10 Gbps qui sont compagnons de ce GP102 sur la TITAN X. En conséquence, la bande passante va grimper de 50% du fait d'un bus total à 384-bit. Ajoutons que bien entendu, les algorithmes de compression sans perte des couleurs (Delta Color), en progrès avec Pascal, répondent présents et permettent d'optimiser la bande passante effective en comparaison de la génération Maxwell.

 

Du côté des fonctionnalités, on retrouve les mêmes éléments que pour GP104. Ainsi, au niveau de la prise en charge DX12, pas de nouveautés (niveau de fonctionnalités 12_1 / Tier 2) par rapport à Maxwell. Le moteur vidéo reste le même avec la prise en charge de 4 écrans simultanés et des normes HDMI 2.0B et DP 1.3/1.4 pour le HDR entre autres choses. Côté décodage/encodage, on conserve les capacités du GP104. Poursuivons par le SMP (Simultanous Multi-Projection), GPU Boost 3.0 et Fast Sync qui répondent toujours présents à l'instar des autres puces de cette génération. Enfin, un mot rapide sur les instructions DP2A et DP4A dédiées au Deep Learning et permettant d'accélérer par 2 et 4 les opérations à faible précision (16 et 8 bits).

 

Voilà pour ce bref tour d'horizon de ce nouveau GPU, passons aux caractéristiques de la première carte l'abritant en comparaison de quelques cartes haut de gammes présentes ou passées.

 

 

• Spécifications

 

CartesGPUFréquence GPU (MHz)Fréquence Mémoire (MHz)Unités de calculTMUROPTaille mémoire (Go)Bus mémoire (bits)Calcul SP (Gflops)Bande Passante (Go/s)
HD 7970 GHz Tahiti 1050 1500 2048 128 32 3 384 4301 288
HD 7990 Tahiti (x2) 950 à 1000 1500 2048 (x2) 128 (x2) 32 (x2) 3 (x2) 384 (x2) 7782 à 8192 576
R9 295 X2 Hawaii (x2) 1018 1250 2816 (x2) 176 (x2) 64 (x2) 4 (x2) 512 (x2) 11467 640
R9 390X Hawaii 1050 1500 2816 176 64 8 512 5914 384
R9 Fury X Fiji 1050 500 4096 256 64 4 4096 8602 512
RADEON PRO DUO Fiji (x2) 1000 500 4096 (x2) 256 (x2) 64 (x2) 4 (x2) 4096 (x2) 16384 1024
GTX 780 Ti GK 110 876 à 928 1750 2880 240 48 3 384 5045 à 5345 336
TITAN GK110 837 à 876 1502 2688 224 48 6 384 4500 à 4709 288
TITAN Black GK110 889 à 980 1750 2880 240 48 6 384 5121 à 5645 336
TITAN Z GK110 (x2) 705 à 876 1750 2880 (x2) 240 (x2) 48 (x2) 6 (x2) 384 (x2) 8122 à 10092 672
GTX 980 Ti GM200 1000 à 1075 1753 2816 176 96 6 384 5632 à 6054 337
TITAN X GM200 1000 à 1075 1753 3072 192 96 12 384 6144 à 6605 337
GTX 1080 GP104 1607 à 1733 1251 2560 160 64 8 256 8228 à 8873 320
TITAN X GP102 1417 à 1531  1251 3584 224 96 12 384 10157 à 10974  480

 

Vous avez peut-être remarqué que lors de notre description de GP102, nous avons souvent utilisé les termes "pour une puce complète" ou "un GPU intégral" : c'était à dessein puisque à l'instar de la TITAN première du nom, NVIDIA utilise ici une puce légèrement bridée pour faciliter sa production.

titanx2

 

En pratique, "seuls" 28 des 30 TPC sont activés sur la TITAN X 2016. Par voie de conséquence, le nombre d'unités de calcul passe de 3840 à 3584, les TMU de 240 à 224 et les Polymorph Engine de 30 à 28 soit, une baisse de 6,66%. Un petit détail à ajouter sur le sujet, si les 2 TPC désactivés le sont au sein d'un même GPC, le fillrate sera également impacté puisque limité à 92 pixels par cycle au lieu de 96. En effet, chaque GPC se voit "attribué" 2 partitions de 8 ROP, soit 16 pixels max par cycle en sortie. Mais faut-il encore les alimenter suffisamment : en temps normal, pas de souci puisque les 5 SM sont capables de calculer 20 pixels par cycle (4 pixels / SM). Un SM désactivé permet encore d'obtenir 16 pixels, soit le débit exact des ROP. Mais avec une seconde désactivation au sein du même GPC, ce dernier doit alors se contenter de 12 pixels, insuffisants pour saturer complétement les ROP, qui pourront tout de même s'avérer utiles lors de l'application de MSAA par exemple.

 

Si on parle gros chiffres cette fois, La TITAN X (2016) devance le modèle 2015 de 66% au niveau de la puissance de calcul et de texturing. La bande passante bondit de son côté de 42%, mais n'apparaissent pas derrière ces comparaisons les gains liés à l'architecture. Face à la GTX 1080, c'est cette fois plus serré puisque cette dernière profite d'une fréquence GPU plus élevée limitant ainsi à 24% le gain de la nouvelle venue, hormis pour la bande passante mémoire qui progresse bien de 50%. Si on s'attache uniquement aux chiffres bruts, la Fury X du concurrent tient encore la route sur le papier puisqu'elle n'est devancée que de 27% en puissance de calcul et conserve un ascendant de 6,66% pour la bande passante mémoire. Elle affiche par contre de lourds déficits en géométrie et fillrate, sans compter que n'apparaissent pas dans les chiffres de calcul SP l'apport des unités SFU des GeFORCE. Passons page suivante à la description de la carte.





Les 38 Ragots
   
Les ragots sont actuellement
ragots réservés aux QI élevésouverts aux ragoteurs logués