Si l’IA est désormais bien connue dans les domaines de la reconnaissance vocale, du débruitage (audio comme vidéo) ou du détourage d’images, cela ne veut en aucun cas signifier que les applications sont limitées à ces domaines seuls. De manière générale, le machine learning est tenté — avec plus ou moins de succès — dans tous les domaines où une détection manuelle semble totalement incongrue. Par exemple, pour trouver dans un tableau de pixels représentant une image où se situe un chat de manière automatique sans réseau de neurones, bon courage !

 

Ainsi, nous trouvons parfois des problématiques de recherche plus lointaines des applications pratiques habituelles, en témoigne l’article du jour. Sortie par une équipe de NVIDIA en collaboration avec l’Université d’Heidelberg, en Allemagne, le travail consiste à détecter l’orientation d’un objet dans l’espace, et sera publié à l’occasion de la conférence IEEE Computer Vision and Pattern Recognition (CVPR), édition 2020.

 

nvidia logo

 

Pour poser les choses en terme simples, les verts trouvent ici votre orientation, c’est-à-dire où est le bas, la droite, et l’endroit vers lequel vous pointez votre nez par rapport à vous. Au rang des nouveautés, le réseau proposé est autonome : lors de son apprentissage, un ensemble de photos sans annotation concernant ladite position est utilisé, autre que l’image elle-même. Cela semble obscur ? Voyez plutôt : en opérant des symétries, le réseau peut détecter une nouvelle orientation sur l’image, orientation sur laquelle la transformation inverse est appliquée afin de se confronter à la première détection et ainsi s’autosuperviser. Étant donné la lourdeur et les erreurs liée aux annotations, l’intérêt d’une telle technique est direct ! De plus, un réseau de neurones à base de génération adversariale (les fameux GAN, en vogue ces derniers temps) permet par la suite de générer des positions artificielles de tête, après entraînement : un gain de taille.

 

 

Le bousin a été implémenté à base de Pytorch et CuDSS et est disponible sur GitHub si le cœur vous en dit. Difficile d’y voir une application à première vue, néanmoins, ce travail pourrait servir dans le cadre d’interface hommes-machines afin d’aider les systèmes de détection de visage, ou encore renforcer l’interactivité dans des environnements connectés en fonction d’estimation du champ de vision de la personne. En outre, ce même réseau, entraîné sur des voitures, peut prédire les directions possibles de déplacement du véhicule, un grand atout pour la conduite autonome. Reste à voir si le caméléon a des partenaires sous la manche pour ce genre d’intégration !

 

 Attention, l'expression est au sens propre, il s'agit bel et bien du placement d'un repère dans l'espace ! 

Sur le comptoir, au même sujet

 
 
 
 
 

afficher plus de prixAffichez donc moi tout, nom de nom

Plus d'infos avec le comptoir de l'info

Voir plus de news
Les 3 Ragots
   
Les ragots sont actuellement
ouverts à tous, c'est open bar !