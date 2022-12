Un bug matériel, cela ne se produit pas souvent ; et encore heureux vu les conséquences désastreuses que cela peut avoir. Si les plus récents exemples sont les failles Meltdown et Spectre — bien que cela soit discutable, il s’agit davantage d’une philosophie de design invalidée pour des raisons de sécurité ; les plus anciens se souviendront des soucis du TLB sur les Phenom, corrigés avec le stepping B3 (numéro de code comptant la révision [matérielle] de la puce), ou encore des extensions TSX sur Skylake et Haswell, ayant mené à leur désactivation. Bref, dans tous les cas, les conséquences sont graves, avec des pertes de performances ou de fonctionnalités à la clef.

Or, l’histoire pourrait bien s’être répétée sur les RX 7900 XTX, sans que nous ayons été mis au courant. En effet, en regardant la partie logicielle de la carte d’un peu plus près, @davidbepo s’est rendu compte que le stepping de la Radeon 7900 XTX était détecté par GPU-Z comme étant le C8, alors que le VBIOS indique un A0. Étrange, vous dites ? Pour un GPU multi-die, la notion même de stepping n’est pas très bien définie : autant dire que cela ne prouve rien… Jusqu’à ce qu’un @Kepler_L2 s’aperçoive que le prefetcher de shader, un composant chargé de précharcher le code déporté sur le GPU afin d’améliorer son temps d’exécution, est désactivé dans les pilotes Linux sur les stepping A0 de la belle (et de ses déclinaisons, GFX1100, GFX1102 et GFX 1103). Souci du code ? Oubli ? Fonctionnement différent dû aux chiplets ?

Les explications possibles sont multiples, et le bug hardware en fait également partie. Il est rare qu’une version A0 (tout premier stepping) arrive jusqu’en production du fait, justement, des erreurs de designs. Il n’en faut pas plus pour que la toile s’emmêle : des rumeurs causent d’un retard de plus d’un an de Navi 31 à cause de cela (mais, dans ce cas, pourquoi sortir la version A0 ?), expliquant ainsi la différence entre le marketing précédent (+70 % par rapport à la RX 6950 XT) et les résultats actuels (+40 % en moyenne). Notez que le lancer de rayon est connu pour son code divergeant, il n’est donc pas impossible que les performances en Ray Tracing de la carte soient expliquées par cette déficience… Rajoutez les problèmes de consommation et de fréquence reportés par certains tests (de 2,2 GHz sous Cyberpunk, la carte se montre pourtant capable de dépasser les 2,9 GHz sur d’autres titres).

Pour autant, la désactivation de ce cache ne poserait que 5 % de dégradation des performances pour les cartes RDNA2 : il semble donc peu probable qu’un grain de plus de 20 % soit observable sur RDNA3, ce qui explique peut-être pourquoi la carte a finalement gardé sa version A0 jusqu’à sa sortie ; à moins que le volume de production au moment de la découverte du bug n’ait été trop important ? Beaucoup de question pour peu de réponses ; il ne reste qu’à voir la réaction des rouges à ce sujet. En route pour une RX 7950 XTX au milieu d’année 2023 ?