COMPTOIR
register

L'IA appliquée concrètement par NVIDIA à la compression de flux vidéo

Le Machine Learning est certainement l’une des avancées les plus majeures de notre décennie. En effet, grâce aux réseaux de neurones artificiels (ANN), de nombreuses tâches hors de portée des ordinateurs sont devenues monnaie courante, en particulier dans les domaines de traitement d’image et de son.

 

L’une des plus grandes applications de ces technologies par NVIDIA réside dans le DLSS, utilisation d’un réseau de neurones pour mettre à l’échelle une image de jeu vidéo calculée initialement dans une définition inférieure à celle de votre écran. À l’occasion de la GPU Technology Conference (GTC), les verts se sont fendus d’une nouvelle application, cette fois-ci dédiée aux professionnels, car concernant la visioconférence.

Outre le côté très opportuniste de la présentation — en temps de COVID, nombreux sont les appels vidéo par internet — ce n’est (de loin) pas la première fois que ces chers réseaux sont conviés dans ce domaine : Microsoft permet en effet de flouter voir de remplacer son arrière-plan sur Skype par une technologie similaire.

 

Cette fois-ci, c’est d’économie de débit dont il est question, car ces petits neurones sont mis à contribution dans le but de réduire la quantité de données envoyées lors de visioconférences tout en conservant une image nette.

 

nvidia ml to h264

Un résultat sans appel !

 

En interne, rien n’est vraiment nouveau : le réseau est de type adversariel (ou GAN), une partie étant consacrée à l’amélioration et l’autre à tenter de trouver des failles dans cette amélioration afin de garantir un résultat optimal. Normal ? Presque : le bousin ne transmet initialement qu’une seule image, puis se contente de points représentant diverses zones d’intérêts du visage telle la position des yeux, du nez ou encore de la bouche. À l’usage, le résultat est sans appel : le h264 est totalement dépassé (les H265 n’ayant pas été testé), avec, au choix, soit une meilleure qualité à bande passante équivalente (cf ci-dessus), ou une réduction de ladite bande passante d’un facteur 10 minimum à qualité proche.

 

Grâce à ce système, il est également possible de réorienter la tête de l’individu, et même d’animer une tête modélisée en 3D !

 

Outre le côté très Blade Runner de la chose (un upscaling de qualité à partir d’une simple photo !), rappelons tout de même que les réseaux utilisés doivent être préalablement entrainés, ce qui coûte de l’énergie, et donc de l’argent. En outre, les ingénieurs dédiés au projet restent des hommes, de ce fait sensibles aux biais sociaux : ainsi, des précédents travaux ont d’ores et déjà révélé des traitements inégaux selon l’origine des utilisateurs : les visages se trouvent très souvent européanisés, même si la couleur de peau est dans l’ensemble correctement retranscrite. Espérons donc que les verts aient suffisamment testé leur produit avant de le lancer en production de masse, sans quoi des dents risquent de grincer ! (Source : Hexus)

 

ai biais barack obama

À la base, il s’agissait d’une photo de Barack Obama...

Un poil avant ?

MODDING • ArFIO10 - BUILD BY ARCA

Un peu plus tard ...

Live Twitch • La bêta de Black Ops Cold War

Les 18 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Excelisator, le Lundi 19 Octobre 2020 à 22h56  
Il y a des ingénieurs qui ont regardé retour vers le futur et qui ont passé 30 ans à développer les chaussures autolaçantes et les hoverboard ou voitures volantes (pour ce que c'est...)
A Paris, les commerciaux qui ont lancé le vélib/autolib ont regardé sliders S1, le résultat est le même, ça finit toujours cassé.
Des exemples il y en a plein ou la science fiction devient science.
Chez Nvidia, on a des fans de NCIS. quand on zoom à 800% sur une vidéo de l'espace publique avec une caméra qui filme en 240x150px et en 3GPP, il FAUT pouvoir avoir le numéro de plaque et le visage du mec aussi bien qu'une RED 6K. Voilà encore un mythe qui s'effondre.
par dfd, le Lundi 19 Octobre 2020 à 19h41  
par Superubu le Lundi 19 Octobre 2020 à 18h36
J'imagine que ce genre d'erreur pourrait donner lieu à des contresens croquignolets à l'avenir
Ce truc à la frontière mexicaine au Texas, Donald est obligé d'accepter tout le monde et il est mort en tant que président...
par Unragoteursansespace en Colombie-Britannique, le Lundi 19 Octobre 2020 à 19h02  
Comparer a h264, ca va on prend pas trop de risques chez NV, pourquoi parce comparer leur dernière RND au tout dernier codec h266VVC plutot ?
par Superubu, le Lundi 19 Octobre 2020 à 18h36  
par dfd le Lundi 19 Octobre 2020 à 17h35
OMFG Barack Obama DLSSisé !
Whites Live Matter !
Ca va cher dans le ventilo !
J'imagine que ce genre d'erreur pourrait donner lieu à des contresens croquignolets à l'avenir
par dfd, le Lundi 19 Octobre 2020 à 17h35  
OMFG Barack Obama DLSSisé !
Whites Live Matter !
Ca va chier dans le ventilo !
Message de Jemporte supprimé par un modérateur : HS : stop les insultes gratuites.
par Un ragoteur des lumières en Île-de-France, le Lundi 19 Octobre 2020 à 15h29  
par Scrabble le Lundi 19 Octobre 2020 à 14h53
Les compresseurs modernes type AV1 sont presque parfaits, on ne pourra donc pas faire tellement mieux à l'avenir.
L'Alliance for Open Media a déjà prévu un successeur à l'AV1, le Fraunhofer planche sur le H266, et aucun de ces codecs n'utilise encore l'ensemble des technologies déjà développées dans le domaine pour cause de propriété intellectuelle ou de puissance de calcul
On pourra toujours compresser plus, certes souvent au prix d'une puissance de calcul croissante, mais il reste encore plein de pistes à explorer.
Je t'ai vu souvent répéter que la technologie était sur le point de stagner, ("les CPU sont proches de l'architecture parfaite" etc...), mais la technologie ne cessera d'avancer que lorsque les maths, la physique, et même la biologie cesseront de progresser. Et on est encore très loin d'avoir tout découvert (heureusement).

Pour en revenir à l'article, il faut que tous les participants à la visioconférence aient une CG RTX du coup ? Et il faut que le service de visio implémente cette fonctionnalité
Je ne vois pas beaucoup d'avenir à cette solution, mais la preuve de concept reste intéressante.
Et comme l'a dit un autre ragoteur, comparer aux h264 à très bas bitrate c'est pas très honnête. C'est sûr qu'en dessous d'un certain bitrate la compression h264 est dégueu, mais le h265 aussi est capable de ridiculiser le h264 sur ce terrain là. Et il compresse très bien tout type de vidéo, pas seulement les visages.
par Sgt Tagazou, le Lundi 19 Octobre 2020 à 15h03  
par Scrabble le Lundi 19 Octobre 2020 à 14h53
En compression vidéo, il n'y a pas de miracle, plus tu compresse, plus tu perd d'informations, plus donc la reconstitution à la décompression sera aléatoire, voire complètement fantaisiste suite au travail d'un réseau de neurone. Les compresseurs modernes type AV1 sont presque parfaits, on ne pourra donc pas faire tellement mieux à l'avenir.
Oui mais il n'y a pas l'accélération hardware pour le rendre utilisable par tout le monde
par Scrabble, le Lundi 19 Octobre 2020 à 14h53  
En compression vidéo, il n'y a pas de miracle, plus tu compresse, plus tu perd d'informations, plus donc la reconstitution à la décompression sera aléatoire, voire complètement fantaisiste suite au travail d'un réseau de neurone. Les compresseurs modernes type AV1 sont presque parfaits, on ne pourra donc pas faire tellement mieux à l'avenir.
par Sgt Tagazou, le Lundi 19 Octobre 2020 à 14h53  
par Almist le Lundi 19 Octobre 2020 à 13h41
Je sais bien, et ça peut encore être amélioré et / ou généralisé aux autres (twitch par exemple). Et donc pourquoi le commentaire initial si tu reconnais que ça fonctionne et que c'est utile ?
C'était pour la blague, dire que l'on ouvre un tuyau d'un coté, pour moins l'utiliser.

Il va y avoir du boulot, côté cloud gaming, qui va devenir une grosse source de consommation de data.
par Vaark, le Lundi 19 Octobre 2020 à 14h45  
par lord Varices le Lundi 19 Octobre 2020 à 13h58
avec un surcouche de ce type c'est un moyen de plus de se faire pirater son visage.
J'imagine que tu parles d'usurpation d'identité, mais j'ai une seconde imaginé que ce pouvait être que de se faire "pirater son visage" et ça m'a bien fait marrer.

"Bordel, qui m'a collé une verrue sur les lèvres et une dent sur le nez ? J'aurais pas dû aller dormir en laissant mon visage connecté au WiFi !?"
par lord Varices, le Lundi 19 Octobre 2020 à 13h58  
Pas étonnant que le H265 soit pas comparé car ce dernier est 4 fois plus performant en terme de fillrate, c'est un effet de manche pour accentuer la différence. Mais c'est pas ce qui me chagrine, avec un surcouche de ce type c'est un moyen de plus de se faire pirater son visage.