Machine Learning et performance des accélérateurs : un terrain propice aux entourloupes

La réception • Actualités • Processeurs

Quand un fabriquant de puces cause performance, la mesure classique en informatique est le FLOPS, ou Floating-Point Operation Per Second. Cette unité correspond au nombre maximum de calculs sur des chiffres à virgule flottante (un système de représentation de nombres permettant à la fois d’atteindre des nombres très proches de zéros et d’autres très grands) effectués par seconde. Et ce maximum signifie « quand tout se passe bien », c’est-à-dire que les chargements et les rangements en mémoire des données concernées ne retardent rien. Sur les architectures x86, cette donnée est calculée simplement sur de la multiplication de matrice... ce qui est loin d’être l’application la plus pertinente. C’est d’ailleurs pour cette raison que nos tests sont effectués sur un panel étendu d’applications, afin de capturer toute la variance des performances selon les tâches demandées.

Pour les accélérateurs de machine learning, l’histoire est identique, à l’exception près que l’unité est l’OPS (Opération Par seconde) et non le FLOPS. Sans trop rentrer dans les détails, il est possible de gonfler artificiellement les OPS sur les architectures de CPU récentes en ajoutant des instructions inutiles, chose impossible sur les simplistes ASIC dédiés à l’IA. Si les réseaux les plus simples sont très proches des multiplications matricielles simples, les performances baissent rapidement dès lors que l’algorithme utilisé se complexifie.

nvidia neural temporal sampling denoising

Avec ce genre de réseau, inutile d’espérer autant de TOPS que ceux marqués sur la fiche

Bien sûr, les programmeurs peuvent calculer à la main les Tera-OPS (abrégées TOPS) en chronométrant le temps d’exécution et en divisant par les opérations effectuées, mais cela ne permet pas de choisir quelle plateforme acheter avant de poser la main sur le précieux composant. D’ailleurs, vous avez peut-être déjà remarqué que, dans nos colonnes, certains fabricants se mesurent en nombre d’inférence par seconde sur des benchmarks classiques tels ResNet.

Du coup, certains cherchent à établir un benchmark de référence permettant de classifier les accélérateurs, GPU compris, tels AI-Benchmark.com. Néanmoins, les choses évoluent lentement, d’autant plus que le marketing adore afficher des chiffres toujours plus élevés que la concurrence. Méfiance, donc ! (Source : SemiEngineering)

Un poil avant ?

L'Unreal Engine 4 prêt pour l'avenir !

Un peu plus tard ...

Comptotuto • Jouer sur Linux (plutôt que sur Windows)

Quantifier les performances d'une puce n'est jamais une choses facile, ce qui est encore plus vrai dans le cas de l'IA.

1 minute et demi

Sur le comptoir, au ~même sujet

	NVIDIA incrimine les CPU Raptor Lake d'Intel pour les instabilités dans les jeux
	Intel et NVIDIA unissent leurs forces pour développer des puces conjointes (MAJ)
	NVIDIA et Ubisoft souhaitent rendre les PNJ des jeux vidéo intelligents
	Ventes de GPU dédiés : NVIDIA rayonne, AMD se maintient, Intel sombre
	NVIDIA impliquerait Intel dans la production de sa génération Feynman
	La GH200 de NVIDIA se confronte aux processeurs AMD EPYC et Intel Xeon
	Test • Nvidia GeForce RTX 4070 Ti
	GeForce RTX 50 Series : NVIDIA dévoile ses quatre fantastiques (MAJ)
	GeForce RTX 50 : NVIDIA tente de noyer le poisson avec des carabistouilles
	NVApp : la nouvelle application NVIDIA pour gérer sa GeForce
	NVIDIA parachèverait ses GeForce RTX 5090 et RTX 5080, des cartes bien énergivores
	NVIDIA écrabouille la concurrence sur le marché des cartes graphiques desktop