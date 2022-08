Pour de la haute performance et des tâches de machine learning, les entreprises ont très souvent recours à du matériel de chez NVIDIA, principalement dû à son implication en recherche dans le secteur et la promotion de ses propres solutions maison. Pour autant, la concurrence existe, à la fois pour l’entraînement et l’inférence, avec du matériel spécialisé, par exemple chez Intel avec Habana’s Lab ; mais le nec plus ultra, c’est bel et bien de faire votre puce vous-même — la méthode Apple — afin de s’assurer que le cahier des charges colle pile-poil à ce que vous souhaitez. Cependant, cette solution n’est pas toute rose puisqu’il faut un sacré porte-monnaie pour cela ; mais ce n’est pas vraiment un problème pour Elon Musk, non ? Ainsi, nous ne sommes guère étonnés de voir Tesla aux Hot Chips 34 y aller de son accélérateur dédié à l’entraînement de DNN, nommé Dojo — une suite logique après ses premières puces, en 2019.

Le Tesla V1 Dojo Interface Processor, intégrant 2 Dojo Training Tile et 32 Gio de HBM au format PCIe



Prévu pour peupler des racks entiers et ainsi former un supercalculateur exascale, Dojo est une architecture massivement parallèle, chaque puce étant composé d’un mesh de CPU au jeu d’instruction personnalisé et optimisé pour le machine learning. Chaque cœur possède 1,25 Mio de SRAM et intègre un pipeline offrant 2 unités de génération d’adresse pour 2 ALU, pas de système de protection de la mémoire ni de virtualisation histoire d’aller toujours plus vite, et un SMT à 4 threads/cœurs. Côté précision de données, le bousin est assez versatile avec le support du FP32, BFP16, CFP8, et CFP16.

Pour couronner le tout, les dies, nommés D1 sont gravés en 7 nm de chez TSMC (sans plus de précision) pour rassembler 354 cœurs dans 645 mm², soit 440 Mio de cache au total — de quoi offrir pas moins de 9 PFLOPS en BF16/CPF8. Par la suite, ces D1 sont également assemble par packs de 5x5 pour créer une Dojo Training Tile, suivant également une organisation en mesh. Notez que l’intégration comprend également un système customisé d’alimentation et de refroidissement : à 600 W par die, cela vaut mieux !

Malheureusement, pour voir le beau en action, il faudra travailler chez la compagnie, car aucun plan de mise à disposition du matériel n’est prévu — pour des raisons évidentes de confidentialité, autant matérielle que logicielle. Avis aux amateurs ? (Source : Double ServerTheHome)