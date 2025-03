Il y a quelques jours, NVIDIA a mis en ligne un livre blanc consacré au DLSS 4. Il offre un aperçu très détaillé de cette nouvelle version, laquelle exploite un modèle IA de type transformeur (à la place des CNN — les réseaux neuronaux convolutifs) et fait la part belle à la Multi Frame Generation.

Un nouvelle approche qui fait ses preuves

Nous n’avons pas la présentation de résumer de manière exhaustive le papier à travers les quelques lignes qui suivent. D’autant plus celui-ci regorge de vidéos et d’images comparatives, que nous ne pouvons forcément toutes inclure ici, pour illustrer ses propos. Nous nous sommes bornés à mettre en lumière les avancées concrètes, sur la qualité d’images, pour la Ray Reconstruction et l’upscaling, et à glisser quelques mots sur la génération d’images (assortie de sa réduction de latence).

L’entreprise expose largement les avantages de son modèle auto-attentif sur les CNN en matière de Ray Reconstruction. En particulier pour le débruitage et la réduction d’images fantômes. L’article rappelle que dans un pipeline de rendu typique, le débruitage s'effectue à la résolution d'entrée la plus basse avant l'application d'une mise à l’échelle. Si le procédé maintient des performances acceptables en temps réel, il compromet la qualité de l'image. En témoignent les deux comparaisons ci-dessous.

La DLSS Ray Reconstruction basée sur des CNN avait déjà permis de gommer certaines limites. Cependant, elle atteint les siennes, aux dires de NVIDIA.

La société explique avoir utilisé les réseaux neuronaux convolutionnels comme colonne vertébrale pour la reconstruction des rayons jusqu’ici. Mais que désormais, elle entrevoit les lacunes de cette approche : « Lorsque nous avons augmenté l'ensemble des données d'entraînement pour améliorer la généralisation, nous avons rencontré des problèmes tels que des images fantômes, des artefacts picturaux et un manque de cohérence temporelle », précise l’entreprise. C’est « pour surmonter ces limitations » qu’elle a adopté « une nouvelle architecture basée sur les transformeurs ». Ces derniers contribuent à améliorer le rendu final et à prévenir des artefacts dans les scènes très animée : « Contrairement aux CNN, les transformeurs excellent dans la gestion des dépendances à longue portée dans l'espace et dans le temps, ce qui permet au modèle de mieux capturer les relations spatio-temporelles complexes dans les données tracées par rayons. Ce changement d'architecture a considérablement amélioré la qualité de l'image, réduit les artefacts et permis au modèle de se généraliser dans divers scénarios ».

En pratique, voici les changements (NVIDIA ne fournit une image native que pour la première).

Outre ces gains relatifs à la Ray Reconstruction, d’autres sont visibles en matière de Super Resolution simple. « Alors que les transformeurs ont été initialement introduits pour relever les défis de la reconstruction de rayons, nous avons découvert au cours de nos recherches que la même architecture permettait également d'améliorer de manière significative la qualité de l'image dans les tâches de super-résolution », explique l’entreprise. Au programme : meilleure préservation des détails, réduction des artefacts, et anti-aliasing bonifié. Vous trouverez plein d’images comparatives CNN / Transformer sur la source.

Quelques mots sur la Multi-Frame Generation et le Reflex Frame Warp pour finir. La Frame Generation à une seule image induisait déjà de la latence. Pour les trois de la MFG, il y avait donc lieu de s’inquiéter. Que nenni ! rétorque NVIDIA. Selon ses propres mesures, avec la génération d’image du DLSS 3, il faut en moyenne 3,25 ms à une RTX 4090 pour générer une unique image 4K ; avec la MFM du DLSS 4, la GeForce RTX 5090 claque chacune des trois images à 1 ms en moyenne. « Il s'agit d'un bond remarquable pour ce que l'on peut attendre d'un produit d'interpolation en temps réel pour les jeux, et il n'y a que des marges d'amélioration pour l'avenir », s’enorgueillit la société.

Concernant le Reflex Frame Warp, NVIDIA revendique une réduction de la latence : elle passe de 56 ms à 27 ms grâce à l'activation du mode Reflex Low Latency dans THE FINALS. Celle du Reflex Frame Warp avec Frame Warp la réduit carrément à 14 ms (soit une réduction globale de 75 % de la latence – nous n’avons pas trouvé les conditions exactes de ces benchmarks). L’entreprise ajoute que dans les scénarios limités par le CPU, comme VALORANT qui tourne à plus de 800 IPS avec une RTX 5090 (idem), le Reflex Frame Warp réduit la latence à moins de 3 ms, ce qui en fait « l’une des plus basses jamais enregistrées pour un jeu de tir à la première personne ».

Bien sûr, vous trouverez de nombreux examens du DLSS 4 réalisés par des sources indépendantes au cours de ces dernières semaines. Nous mettons celles d'IGN et de Hardware Unboxed, qui témoignent bien des gains par rapport au DLSS 3. Dans l'ensemble, les avis sont dithyrambiques.