COMPTOIR
  
register

Déduire une action à partir d'images : une belle avancée au MIT

Si vous vous demandez à quoi peuvent bien servir les Tensor Cores intégrés dans les GPU grand public grâce à la nouvelle architecture Turing de la firme verte, des chercheurs du MIT ont une petite idée. En effet, un projet a récemment été terminé, consistant à utiliser du machine learning, ici des réseaux de neurones profonds - ce qui signifie au passage simplement que ce dernier est composé de multiples couches les unes au dessus des autres - afin de déduire le déroulement d'une action à l'aide de deux images seulement extraites d'une vidéo.

 

Le principe est très naturel pour un humain : si vous prenez deux images, par exemple l'une représentant un château de cartes et l'autre un tas de cartes en vrac, vous allez rapidement en déduire que quelqu'un a détruit le château, et ainsi deviner le mouvement de destruction qui a eu lieu, même sans le voir. Pour un programme, la notion de cause / action / conséquence est inexistante a priori. Grâce à un réseau de neurones convolution (CNN) et à une bonne base de donnée de quelques 200 000 vidéos classées en 174 catégorie (imaginez un peu le travail humain derrière pour fournir ce matériel !), les chercheurs ont mis au point un module, nommé Temporal Relation Network, permettant d'extraire les relations de mouvement d'un objet entre différentes images. Le module s'intéresse uniquement à certaines images extraites par ses soins depuis une vidéo source, et en déduit les transformation des objets, mis en perspective avec le temps écoulé entre ces images. A noter qu'il ne s'agit par contre pas d'un algorithme capable de fonctionner seul mais bien d'une amélioration des CNN préexistants.

 

Le bouzin en action : pas vraiment impressionnant pour un humain, mais bien pratique pour une machine !

 

Certes, ni la technologie employée - les CNN - ni le sujet - de la reconnaissance de mouvement - ne sont réellement novateurs, mais le fort taux de reconnaissance (plus de 95% en reconnaissance simple), couplé aux performances dépassant de 10 à 40% les précédentes solutions en prédiction de l'action lorsque seule une moitiés des frames est fournie au CNN en font une des productions les plus prometteuse dans ce domaine. On imagine effectivement des applications immédiates pour des interfaces homme-machines, comme des assistants vocaux directement liés à un système de caméras. A moins que vous ne craignez pour votre vie privée... (Source : MIT News)

 

Un poil avant ?

La fin du 32-bit : ça ne devrait plus tarder chez AMD !

Un peu plus tard ...

Comptoiroscope • Forza Horizon 4 et son bench

Les 16 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !