COMPTOIR
  
register

Déduire une action à partir d'images : une belle avancée au MIT

Si vous vous demandez à quoi peuvent bien servir les Tensor Cores intégrés dans les GPU grand public grâce à la nouvelle architecture Turing de la firme verte, des chercheurs du MIT ont une petite idée. En effet, un projet a récemment été terminé, consistant à utiliser du machine learning, ici des réseaux de neurones profonds - ce qui signifie au passage simplement que ce dernier est composé de multiples couches les unes au dessus des autres - afin de déduire le déroulement d'une action à l'aide de deux images seulement extraites d'une vidéo.

 

Le principe est très naturel pour un humain : si vous prenez deux images, par exemple l'une représentant un château de cartes et l'autre un tas de cartes en vrac, vous allez rapidement en déduire que quelqu'un a détruit le château, et ainsi deviner le mouvement de destruction qui a eu lieu, même sans le voir. Pour un programme, la notion de cause / action / conséquence est inexistante a priori. Grâce à un réseau de neurones convolution (CNN) et à une bonne base de donnée de quelques 200 000 vidéos classées en 174 catégorie (imaginez un peu le travail humain derrière pour fournir ce matériel !), les chercheurs ont mis au point un module, nommé Temporal Relation Network, permettant d'extraire les relations de mouvement d'un objet entre différentes images. Le module s'intéresse uniquement à certaines images extraites par ses soins depuis une vidéo source, et en déduit les transformation des objets, mis en perspective avec le temps écoulé entre ces images. A noter qu'il ne s'agit par contre pas d'un algorithme capable de fonctionner seul mais bien d'une amélioration des CNN préexistants.

 

Le bouzin en action : pas vraiment impressionnant pour un humain, mais bien pratique pour une machine !

 

Certes, ni la technologie employée - les CNN - ni le sujet - de la reconnaissance de mouvement - ne sont réellement novateurs, mais le fort taux de reconnaissance (plus de 95% en reconnaissance simple), couplé aux performances dépassant de 10 à 40% les précédentes solutions en prédiction de l'action lorsque seule une moitiés des frames est fournie au CNN en font une des productions les plus prometteuse dans ce domaine. On imagine effectivement des applications immédiates pour des interfaces homme-machines, comme des assistants vocaux directement liés à un système de caméras. A moins que vous ne craignez pour votre vie privée... (Source : MIT News)

 

Un poil avant ?

La fin du 32-bit : ça ne devrait plus tarder chez AMD !

Un peu plus tard ...

Comptoiroscope • Forza Horizon 4 et son bench

Les 16 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Un ragoteur blond du Grand Est, le Lundi 17 Septembre 2018 à 19h39  
par Fromage Fondu le Lundi 17 Septembre 2018 à 08h30
Laisse tomber, Jemporte c'est le Trump du CdH. Quand il ne sort pas des remarques ultra racistes il balance des fake news à la pelle
Oui, je sais qu'il ne tient pas compte de ce qu'on essaye de lui faire comprendre et continue dans sa logorrhée fumeuse. Mais il y aussi des gens qui tombe sur ses commentaires et qui ne s'y connaissent pas assez pour comprendre à quel point c'est du grand n'importe quoi. Ces gens pourraient croire que, puisque personne ne le contredit, c'est lui qui dit la vérité. Il faut éviter à tout prix que des débutants qui tombent sur une "création" de Jemporte ne commencent à penser comme lui. Du coup, je rectifie ses errements et erreurs quand je peux.
par Porte à double-battants du Grand Est, le Lundi 17 Septembre 2018 à 10h13  
par Fromage Fondu le Lundi 17 Septembre 2018 à 08h30
Laisse tomber, Jemporte c'est le Trump du CdH. Quand il ne sort pas des remarques ultra racistes il balance des fake news à la pelle
Trump ne balance pas de fake news, seulement des "Fake news!"
par Fromage Fondu, le Lundi 17 Septembre 2018 à 08h30  
par Un ragoteur blond du Grand Est le Lundi 17 Septembre 2018 à 00h48
Bref, je constate que tu t'es surpassé ce dimanche, je n'avais jamais vu autant d'erreurs, d'approximations et de contre-sens en si peu de lignes !
Tu t'entraines pour en sortir d'aussi énormes ou c'est un don inné chez toi ?
Laisse tomber, Jemporte c'est le Trump du CdH. Quand il ne sort pas des remarques ultra racistes il balance des fake news à la pelle
par Un ragoteur blond du Grand Est, le Lundi 17 Septembre 2018 à 00h48  
@Jemporte
Tu as lu des choses, ne les a pas comprises et tu fais des amalgames entre des choses qui n'ont rien à voir. l'histoire de la ville rendue en FP32 où on ne peut voir des détails sur les visages alors qu'en FP64 cela serait possible est la preuve que tu ne comprends absolument pas comment fonctionne un rendu 3D. Ça n'a juste aucun lien, vraiment aucun, les FP64 permettent juste de limiter le bruit dans l'image et les artefact dus à une accumulation d'erreurs d'arrondi. Mais en aucun cas, ils ne permettent d'avoir des modèles mieux définis. En fait, je me rends compte que tu confonds avec l'usage d'un système 64 bits vs 32 bits, ce dernier étant plus limité en espace mémoire adressable ne permet pas, en rendu 3D des modèles aussi détaillés.
Pour les tenseurs, c'est le même problème. Oui, les unités de calcul d'une carte graphique peuvent faire du calcul matriciel, évidemment. Mais les tensor core sont des unités de calcul spécialisées pour réaliser ces calculs matriciels plus rapidement que les unités plus génériques. Et oui, tu as raison quand tu dis que les tensor core sont des unités de calcul matriciels optimisés, puisque toutes intervention sur un tenseur revient à faire du calcul matriciel... Et non, ces unités ne peuvent pas être utilisées pour le rendu 3D car elle sont spécialisées dans les calculs avec une faible précision. En gros dans ton troisième commentaire, tu dis exactement l'inverse de ce que tu affirmes dans le deuxième.
Bref, je constate que tu t'es surpassé ce dimanche, je n'avais jamais vu autant d'erreurs, d'approximations et de contre-sens en si peu de lignes !
Tu t'entraines pour en sortir d'aussi énormes ou c'est un don inné chez toi ?
par Jemporte, le Dimanche 16 Septembre 2018 à 15h43  
par pascal2lille le Dimanche 16 Septembre 2018 à 07h39
Le rapport avec les tensors cores ?
Les FP64 sont des caractéristiques additionnelles utiles au même titre que les tensor cores. En principe les cartes graphiques telles quelles, sont capables de calculer ce qui est lié aux tenseurs, et en principe sensiblement plus vite que les CPU. Il ne s'agit donc que d'optimisations qui leur permettent d'être calculées encore plus vite. De l'aveu de Nvidia (mais ça semble en partie faux) les cores CUDA des GTX n'étaient pas capables de calculer les tenseurs de façon décente.
Les tenseurs permettent de calculer beaucoup de choses, notamment en rendu 3D. Et je ne vois pas pourquoi Nvidia veut absolument les associer à l'IA. L'élasticité de la peau pourrait être calculée par des tenseurs, dans le jeux. C'est même l'application la plus directe qui pourrait en être faite. Ou la déformation de la carrosserie d'un véhicule lors d'un choc, dans une course de voitures. Les tenseurs s'accommodent très bien du FP64, même si le FP16 peut suffire selon l'usage (précision FP16 de 1 à 1000 contre 1 à 4500 billions pour le FP64.
Il est probable que ces unités tensor cores ne soient en fait que des unités de calculs matriciels optimisés, que Nvidia aime à appeler tensor cores par ce que ça sonne mieux.
Ce qui me semble le plus ridicule c'est d'avoir fait publicité que l'anti-aliasing était réalisé grâce à la capacité IA des cartes RTX au travers des tensor cores. Mensonges et abrutissements pseudo-technologistes !
par Jemporte, le Dimanche 16 Septembre 2018 à 15h13  
par pascal2lille le Dimanche 16 Septembre 2018 à 07h39
Si je comprend bien les FP64 sont utilisés par les logiciels de modélisation 3D et apportent une réelle accélération au calcul du rendu d'une scène 3D ?
Le FP64 sert surtout dans les calculs successifs nécessitant de la précision. Les shaders, les traitements d'image en ont besoin pour ne pas dégrader l'image (perte de renseignements suite aux calculs).
Au niveau de la 3D, le FP64 sert effectivement à ne pas avoir des artefacts. En général si un carte est nettement plus puissante en FP32 on lui demande de faire plus de calculs en rendu 3D pour compenser. Au niveau de la représentation des objets, le FP32 est souvent insuffisant dans les rapports d'échelles qui sortent de la représentation locale. Au niveau professionnel (ça vaut pour les dev jeux), le FP32 est à proscrire pour la représentation, le travail, et la sauvegarde des données. La précision du FP32 est de seulement 1 à 8 millions. Pour le FP64 c'est 1 à 4500 billions.
En gros, si on représente un bonhomme en FP64 au milieu de notre système solaire (jusqu'à Neptune), il sera correctement dessiné, et on saura dire qu'il s'agit d'un bonhomme et de comment il est habillé. Alors qu'en FP32, on ne pourra même pas le représenter par un point à l'echelle terrestre. Ca veut aussi dire que si on utilise un ville en 3D dans un jeu en FP32, on ne pourra pas comme dans certains jeux représenter les traits d'un visage comme c'est le cas, sans segmenter les données de la ville ou faire des calculs complexes et couteux d'objets représentés dans leur échelle relative. Ce explique aussi les chargements incessants entre quartiers d'un ville ou au changement d'échelle de jeu.
par Jemporte, le Dimanche 16 Septembre 2018 à 14h35  
par Un ragoteur blond du Grand Est le Dimanche 16 Septembre 2018 à 09h46
Comme d'habitude, Jemporte mélange tout. Il n'y a pas de rapport, il essaye juste, encore une fois, de dire que les Vega seront aussi bonne que les RTX sur les calculs IA, ce qui est juste faux, une solution logicielle ne pouvant lutter en terme de performances avec une solution matérielle dédiée.
Non. Ce que je dis c'est que les RTX ont utilisé des cores spécifiques pour le calcul des tensors là où un core bon à tout faire était suffisant. Nvidia qui fait des cores Cuda simplifiés par rapport à AMD, en avait absolument besoin. Ce truc se voit par rapport à AMD. AMD fait du calcul juste sur ses FP32, alors que chez Nvidia pour être au niveau d'AMD à gamme égale, il faut qu'il utilise des FP32 approximatifs, autrement c'est 2x plus lent.
De même Nvidia ajoute des cores FP16, alors qu'AMD utilise ses cores FP 32 en double FP16.
L'architecture AMD est plus souple et capable au niveau HARDWARE. Nvidia a repris Maxwell et ajouté et optimsé son architecture en ajoutant des unités de calculs supplémentaires dédiées, mais en n'améliorant pas celles existantes. Et ça vaut visiblement pour les RTX.
AMD a par contre du fabriquer une architecture souple au niveau du pilote, qui va affecter les bonnes unités de calcul selon la demande, ce que Nividia ne peut faire et n'en a pas besoin tant que plusieurs applications ne roulent pas en même temps. D'ailleurs à ce niveau le pilote Pro est nettement plus capable que le pilote Jeu. Une exemple de ce problème se voit dans un rendu 3D GPU : sur Nvidia le système freeze pendant que sur AMD on conserva la main et l'affichage accéléré.
par Porte à double-battants du Grand Est, le Dimanche 16 Septembre 2018 à 11h35  
par pascal2lille le Dimanche 16 Septembre 2018 à 07h39
Si je comprend bien les FP64 sont utilisés par les logiciels de modélisation 3D et apportent une réelle accélération au calcul du rendu d'une scène 3D ?
Le rapport avec les tensors cores ?
La DP n'est vraiment utile que dans des algorithmes de rendu de bourrin en fait (précision des intersections, liée à l'accumulation d'opérations successives qui font s'accumuler les erreurs), il me semble que ça a été assez largement abandonné vu le surcoût face à une correction sur base de FP32.
par AntiZ, le Dimanche 16 Septembre 2018 à 11h24  
par Un ragoteur blond du Grand Est le Dimanche 16 Septembre 2018 à 09h46
Comme d'habitude, Jemporte mélange tout. Il n'y a pas de rapport, il essaye juste, encore une fois, de dire que les Vega seront aussi bonne que les RTX sur les calculs IA, ce qui est juste faux, une solution logicielle ne pouvant lutter en terme de performances avec une solution matérielle dédiée.
Je dirais qu'il a en grande partie un problème pour s'exprimer, le fait qu'il espace pas (monoparagraphe et pas de retours à la ligne ni de saut de lignes) et que c'est un fouillis (on dirait qu'il raccourci pas mal, et certains détails aidant à la compréhension sautent aussi) donne l'impression qu'il se drogue.

Après, Vega en puissance de calcul brute est quand même énorme (single, double, half; en GFlops):
- Titan V: ~15000, ~7500, ~30000
- Vega 64: ~12500, ~750, ~25000
- RTX 2080Ti: ~14500, ~450, ~225
- Titan XP: ~12500, ~400, ~200
- RTX 2080: ~10750, ~350, ~175
- RTX 2070: ~8000, ~250, ~125
- RTX 2060: ~5000, ~175, ~80

Le seul avantage de Volta, c'est leur tensor cores qui améliore grandement les choses. Mais il faut voir si ils seront exploités, et correctement de surcroît vu que c'est propriétaire.

Par contre, Turing (les RTX donc) ne profite pas des tensor cores qui ont étés transformés en RT cores. A voir si nVidia sortira Turing 2 pour corriger tout ça (cf Tesla T4).
par Un ragoteur blond du Grand Est, le Dimanche 16 Septembre 2018 à 09h46  
par pascal2lille le Dimanche 16 Septembre 2018 à 07h39
Si je comprend bien les FP64 sont utilisés par les logiciels de modélisation 3D et apportent une réelle accélération au calcul du rendu d'une scène 3D ?
Le rapport avec les tensors cores ?
Comme d'habitude, Jemporte mélange tout. Il n'y a pas de rapport, il essaye juste, encore une fois, de dire que les Vega seront aussi bonne que les RTX sur les calculs IA, ce qui est juste faux, une solution logicielle ne pouvant lutter en terme de performances avec une solution matérielle dédiée.
par pascal2lille, le Dimanche 16 Septembre 2018 à 07h39  
par Jemporte le Samedi 15 Septembre 2018 à 11h48
(...)
Si certains se demandent si les FP64 a le moindre intérêt, il faut savoir que pour les calculs de rendus video et de compression, ça impacte significativement sur la qualité, notamment sur les derniers codec HEVC, même si ces derniers peuvent se contenter de FP16 pour un affichage potable.
Si je comprend bien les FP64 sont utilisés par les logiciels de modélisation 3D et apportent une réelle accélération au calcul du rendu d'une scène 3D ?
Le rapport avec les tensors cores ?
par Porte à double-battants du Grand Est, le Samedi 15 Septembre 2018 à 15h21  
Trop de something dans ce scénario, il fera un bide au cinéma.