COMPTOIR
register

×

Oh, ça scale bien, hein !

Milan + 3D V-Cache = des EPYC Milan-X avec 768 Mo de L3 !
Oh, ça scale bien, hein !

Comme prévu, en plus d'avoir confirmé sa roadmap pour l'après-Milan(— X) avec Genoa et maintenant aussi Bergamo, et annoncé la Radeon Instinct MI200, son premier GPU MCM, AMD a aussi dévoilé Milan-X ! Qu'est-ce ? Tout simplement de nouveaux modèles mis à jour pour la gamme EPYC d'AMD, mais dont les cores Zen 3 avec 32 Mo de cache L3 ont été complétés par un supplément de 64 Mo « simplement posés » par-dessus le cache existant, pour un nouveau total de 96 Mo par core, façon 3D selon la fameuse technologie de cache stacking dévoilée par AMD en juin dernier au Computex. Il s'agit bien évidemment du fameux 3D V-Cache ! Une prouesse rendue possible grâce à une variante optimisée du procédé N7 de TSCM, la couche additionnelle de cache L3 affiche très exactement une surface de 36 mm² (à titre indicatif, le die du core fait 80,7 mm²).

 

amd epyc milan x annonce

 

La gamme EPYC Milan-X sera composée de 4 références de 16 à 64 coeurs, toutes posséderont un cache L3 totalisant 768 Mo — ce qui veut dire qu'une machine double socket pourra proposer une quantité inégalée d'un peu plus de 1,5 Go de cache L3. Il est aussi intéressant de noter qu'AMD a confirmé que ses puces peuvent déjà supporter une quantité plus importante de piles L3, potentiellement au moins jusqu'à 4 si l'on en croit les paramètres de BIOS d'une machine EPYC Milan dénichés par HardwareLuxx, ce qui augure des évolutions bien intéressantes pour la suite. Milan-X sera parfaitement compatible avec le socket SP3 du matériel existant compatible avec Milan, mais AMD ne s'est malheureusement pas étalé sur les spécifications des nouveaux processeurs, il faudra attendre Q1 2022 pour connaître le contenu de la gamme, et les caractéristiques de fréquence et de puissance de chaque puce. Il n'est pas à écarter que le surplus de L3 impliquera une hausse de la consommation et peut-être une baisse légère de la fréquence maximale s'il s'agit de rester dans une enveloppe de 280 W.

 

amd annonce epyc milan x

 

Quant à ce que les grosses entreprises peuvent espérer de ces nouvelles bêtes, AMD ne s'est pas fait prier pour mettre en avant des gains de performances à deux chiffres pour différentes charges de travail, avec une moyenne de +50 % ! Par contre, le constructeur s'est bien gardé d'effectuer une comparaison directe avec les Xeon d'Intel et s'est contenté d'opposer Milan-X à Milan. AMD a aussi précisé qu'aucune modification logicielle ne sera nécessaire pour profiter des avantages du 3D V-Cache, mais l'entreprise a tout de même affirmé travailler avec ses partenaires pour élaborer des solutions optimisées. Milan-X s'adressera avant tout aux très grandes entreprises et AMD a déjà décroché des contrats avec Meta et Microsoft. Ce dernier a dans la foulée communiqué sur ses nouvelles machines virtuelles Azure HBv3 qui seront à base de Milan-X, avec des EPYC 7V73x 64 coeurs. De ce côté-là aussi ont été mises en avant des hausses à deux chiffres — parfois trois — des performances par rapport à une VM Azure à base de Milan ou de Skylake. Bref, tout s'annonce bien rose avec Milan-X, du moins tel que présenté. La lutte devrait être intéressante avec les futurs Sapphire Rapids d'Intel, qui proposeront une autre approche, avec l'option d'un cache HBM. En attendant, vu le supplément de wafer nécessaire et l'aspect inédit de ces nouveaux EPYC, il est fort probable qu'AMD les fera payer beaucoup plus chèrement que les EPYC Milan.

 

Oh, ça scale bien, hein ! [cliquer pour agrandir]

 

En tout cas, même en omettant le fait que les chiffres avancés l'autre jour tiennent avant tout du marketing, le 3D V-Cache n'en semble pas moins très prometteur. On ne peut donc qu'être d'autant plus impatient de voir la technologie débarquer dans le mainstream avec des Ryzen — qu'AMD ne se gênera sûrement pas de nommer « Ryzen 6000 » si les gains de performances sont d'un niveau semblable. Rappelons que ceux-ci seront dévoilés pendant le premier trimestre de l'année prochaine. (Source : AMD, Anandtech, Tom's)

 

Un poil avant ?

Noctua envoie son ventirad low profile sur LGA1700

Un peu plus tard ...

ACER rejoint le club des 32/144/3840, kezako ?

Les 12 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par _m_, le Vendredi 12 Novembre 2021 à 23h32  
par Un ragoteur de transit en Île-de-France le Vendredi 12 Novembre 2021 à 21h35
Merci pour toutes tes recherches.
 
Le chipset au milieu est donné pour 8.34 M (pour Rome, pas trouvé les données pour Milan).

Sur les Ryzen, les 3000 et 5000 partagent strictement le même IODie. Donc ça doit être la même pour Epyc/Threadripper. Mais on peut l'oublier pour le reste des calculs, puisque c'est un chiplet à part.

En m'appuyant sur les rapports de surface d'un CCD Zen 2 (même quantité de cache), en considérant une homogénéité de la densité de transistors (ce qui n'est pas le cas, mais ça suffira pour l'approximation) et en considérant que Zen 3 a grossi de 9% par rapport à Zen 2, je confirme plus ou moins tes données:
- 16.8mm² / 74mm² x 3.8MTr / 16Mo = 0.0539 MTr par Mo de L3 (pour le rez-de-chaussé, parce que le V-Cache semble bien plus dense, je ne m'avancerais pas sans chiffres), soit 13.8 Milliards pour les 256Mo de L3, ou 15.5MTr en incluant tout le L2 (288Mo).
- (31.3mm² - 16.8mm² ) / 74mm² x 3.8MTr / 4 cœurs * 1.09 (%) = 0.2029 MTr par cœurs Zen 3, soit 1.62 MTr par pool de 8 (CCD), ou 12.99 Milliards pour les 64.

Donc en proportion par rapport au pentium (202.9/5.5), j'en arrive à 36.9Mo/c.

Par contre, désolé, mais sur Epyc Milan-X, c'est 96Mo par CCD, soit seulement 12Mo (partagé ) de L3 par cœurs.

Mais de toute façon, on parle ici de L3, hors le Pentium n'en avait pas. Donc la comparaison de Jemporte ne tient pas.
Parce que dans ce cas, on est quand même passé de 0 bit à 6 442 450 944 bits, soit une évolution stratosphériques
par Un ragoteur de transit en Île-de-France, le Vendredi 12 Novembre 2021 à 21h35  
par Jemporte le Jeudi 11 Novembre 2021 à 13h46
Quand je compare le cache du Pentium Pro, c'est pour dire ce qu'on serait capable de faire sans économie. Par ailleurs je signale qu'un serveur a tendance à séparer les tâches par coeur et partager la mémoire, notamment s'il fait tourner des VM, et donc le cache devrait bien être décompté davantage par core que pour l'ensemble du CPU.
J'ai fouiné un peu sur wikichip.

Intéressant d'utiliser en exemple le Pentium Pro : le cache était monté en MCM sur un ou deux die séparés ...

Mais Epyc est un SoC embarquant northbridge et compagnie. Le chipset au milieu est donné pour 8.34 Milliards (pour Rome, pas trouvé les données pour Milan).

La SRAM est gourmande en transistors. Pour comparaison, le Pentium II en contenait 7.5 millions et passait à 27.4 millions pour sa version intégrant 256 Ko.
Sur Epyc, le cache occupe 288 Mo * 1024^2 * 8 bits * 6 tr = 14.5 Milliards au minimum. (Il y a sûrement divers circuits à ajouter en plus pour contrôler tout çà )

Donc 38.74 Milliards - 8.34 - 14.5 = 15.9 Milliards pour les cœurs seuls

Maintenant en reprenant la comparaison :
1 Mo * (15.9 Milliards * 1000 / 64 cœurs) / 5.5 Millions = 45 Mo/Cœurs

Ici, AMD propose 96 Mo/Cœurs, la quantité de cache embarqué a quand même bien augmenté au fil des années. En plus, le cache est partagé sur les multicores.

Il y a des recherches pour développer le concept 'processor-in-memory'. Au vu du budget transistor alloué aux caches dans ces processeurs, les futurs CPU ressembleront peut-être juste à une grande mémoire avec des cores éparpillés dedans/dessous !
par Jemporte, le Jeudi 11 Novembre 2021 à 13h46  
par Lapinou le Mercredi 10 Novembre 2021 à 21h24

C'est 192 fois la RAM de mon premier PC (qui était très bien pourvu à l'époque). Et si je dis pas de conneries 1000 fois celle de mon Apple IIc....
Je trouve que ton Apple IIC avait beaucoup beaucoup de RAM (même si je sais qu'un IIe pouvait monter à plus de 1Mo pour des prix délirants à l'époque). Déjà 128Ko c'était exceptionnel et le double de son adressage CPU direct. Le premier PC dont je me suis servi à plein temps avait 512 ou 640Mo de RAM (je m'en rappelle plus exactement mais il me semble 256Ko d'origine étendu), autant que les Micral 9050 dont je m'étais servi auparavant en fac.
Le premier IBM PC sorti, pour rappel, avait 128Ko de RAM.
Quand je compare le cache du Pentium Pro, c'est pour dire ce qu'on serait capable de faire sans économie. Par ailleurs je signale qu'un serveur a tendance à séparer les tâches par coeur et partager la mémoire, notamment s'il fait tourner des VM, et donc le cache devrait bien être décompté davantage par core que pour l'ensemble du CPU.
par _m_, le Jeudi 11 Novembre 2021 à 08h58  
Ça doit bien dépoter, un RAM-L3-Disque là dessus
Ya de quoi faire tourner tout un OS (bon, tout petit, genre DamnSmallLinux ou Antix). Plus besoin de HDD, SSD ni RAM. Juste un port USB
par Lapinou, le Mercredi 10 Novembre 2021 à 21h34  
par Jemporte le Mercredi 10 Novembre 2021 à 16h38
N'exagérons rien. C'est plutôt la taille des caches qui suivent pas à proportion du reste depuis le Pentium Pro (pour rappel 1Mo de cache pour 5.5 millions de transistors contre 40 milliards de transistors pour Epyc Rome).
Si on avait gardé la proportion de cache, on serait probablement donc autour de 8Go.
Voilà, ça en bouche un coin aux extasiés.
Heu désolé, je suis pas du genre à chercher la petite bête, mais c'est quoi l'intérêt de cette remarque ? Les PPro étaient monocoeurs, si on arrive a avoir la même quantité relative de cache partagé sur un multicoeur que l'on avait sur un monocoeur (par coeur), on a clairement un problème architectural là...
par Lapinou, le Mercredi 10 Novembre 2021 à 21h24  
par dfd le Mercredi 10 Novembre 2021 à 20h39
Ouais ! On peut enfin faire tourner 3 VM rien que dans le cache...

C'est 192 fois la RAM de mon premier PC (qui était très bien pourvu à l'époque). Et si je dis pas de conneries 1000 fois celle de mon Apple IIc....
par dfd, le Mercredi 10 Novembre 2021 à 20h39  
par Un ragoteur des lumières embusqué le Mercredi 10 Novembre 2021 à 11h58
768Mo de cache sur le CPU, c'est impressionnant !
Ouais ! On peut enfin faire tourner 3 VM rien que dans le cache...
par Jemporte, le Mercredi 10 Novembre 2021 à 16h38  
par cabou83 le Mercredi 10 Novembre 2021 à 15h32
Bientôt plus besoin de DDR
N'exagérons rien. C'est plutôt la taille des caches qui suivent pas à proportion du reste depuis le Pentium Pro (pour rappel 1Mo de cache pour 5.5 millions de transistors contre 40 milliards de transistors pour Epyc Rome).
Si on avait gardé la proportion de cache, on serait probablement donc autour de 8Go.
Voilà, ça en bouche un coin aux extasiés.
par cabou83, le Mercredi 10 Novembre 2021 à 15h32  
par Un ragoteur des lumières embusqué le Mercredi 10 Novembre 2021 à 11h58
768Mo de cache sur le CPU, c'est impressionnant !
Bientôt plus besoin de DDR
par _m_, le Mercredi 10 Novembre 2021 à 12h33  
par _m_ le Mercredi 10 Novembre 2021 à 11h36
Je reste toujours dubitatif sur ce dernier, qui entasse 64Mo de SRAM sur strictement la même surface que les 32Mo du dessous
Oups, Nicolas m'avait déjà répondu: utilisation d'une nouvelle lib de design.
par Un ragoteur des lumières embusqué, le Mercredi 10 Novembre 2021 à 11h58  
768Mo de cache sur le CPU, c'est impressionnant !
par _m_, le Mercredi 10 Novembre 2021 à 11h36  
A voir si ce cache seule leur permettra de revenir face à AL. En tout cas on voit que ça ne sert pas que dans les jeux

Mais ils n'ont toujours pas donnée plus d'info officielles sur ce que sont réllement ces V-Cache ?
Je reste toujours dubitatif sur ce dernier, qui entasse 64Mo de SRAM sur strictement la même surface que les 32Mo du dessous (ils ne sont visiblement pas encore prêt à recouvrir les cœurs eux-mêmes, pour cause de dissipation sans aucun doute. D'ailleurs sur l'image ça ne recouvre même plus l'Infinity Fabric, alors que ça l'était il y a 6 mois) , tout en employant soi-disant la même techno
Est-ce réellement le cas ? Même techno ? même perfs ? Même latences ? Du L3 à part entière ? Ou bien qqch à mi-chemin entre du L3 et du L4, avec une préférence des cœurs pour le L3 juste en face d'eux, lorsque dispo, avant d'aller fouiller dans le grenier à l'étage du dessus ?

Et comment veulent-ils offrir 768Mo de L3 sur l'ensemble de la gamme, qui doit commencer à 24 ou 16 coeurs?
Ca veut dire que ceux-là vont se retrouver avec des CCD avec seulement 2 ou 3 cœurs activés, mais avec 96Mo à se partager à 2?