COMPTOIR
register

×

Un coeur efficient bien efficient tout seul

Intel Architecture Day 2021 • Alder Lake, une architecture doublement nouvelle
Un coeur efficient bien efficient tout seul
Un coeur efficient bien efficient, même à plusieurs
Un petit tour d'horizon des nouveautés du coeur efficace
Un étage de décodage qui envoie du pâté !
Pour être large, il est bien large ce back-end !
Un coeurs Performance qui envoie du lourd !
performance core recap t
performance core recap t
performance core recap t
Différent facteurs de forme pour Alder Lake...
... pour différents die d'Alder Lake
Tout dans le hard', et hop !

Tout comme à la fin de l’année 2018 en présentiel et en 2020 en format vidéo, voilà que les bleus réitèrent leur événement destiné à envoyer la poudre aux yeux des consommateurs : l’Intel Architecture Day. Entre l’arrivée de Xe sur le segment grand public (HPG) et professionnel (HPC), Alder Lake/Sapphire Rapids pour ce qui est des processeurs et quelques rajouts spécialement conçus par la firme, le fondeur de Santa Clara a pu concocter un pot-pourri qui ne manque pas de densité et qui, pour le coup, devrait préfigurer la gamme dans un futur proche.

 

intel arch day2021 logo

 

Commençons avec le cœur de métier de la maison : les processeurs. Avec Alder Lake, Intel poursuit la voie entamée avec Lakefield et proposera un CPU hétérogène, c’est-à-dire dont les cœurs intégrés au sein du processeur ne partagent pas tous le même design, ici soit l’Efficient Core, soit le Performance Core. Or, qui dit deux design dit deux microarchitectures différentes, et, sur ce coup, Intel a su mettre les bouchées doubles pour sortir, d’un côté, le successeur de Tremont, Gracemont ; et, de l’autre, Golden Cove descendant de Willow Cove. Désormais, ces deux familles « Mont » et « Cove », dont Intel préfère désormais les patronymes d’Efficient et Performance Core (ou E-core et P-core), évolueront ainsi en parallèle, tout du moins tant que le design hétérogène reste au goût du jour.

 

L’Efficient Core, un design... meilleur que Skylake ?

Lorsque l’annonce d’un design hétérogène a été officielle, nombreuses ont été les interrogations. En effet, proposer une configuration à 16 cœurs est alléchant sur papier, mais s’il s’agit de 8 faibles cœurs et 8 cœurs corrects, le résultat n’est pas forcément fameux (l’expérience Xeon Phi l’a très bien démontré : mettre 50 Atom ensemble ne fait pas un foudre de guerre). Cependant, Alder Lake ne devrait pas réitérer les mêmes erreurs, car Intel s’est montré plus que rassurant sur les performances des bouzins : grâce aux optimisations opérées, les cœurs se montreront plus efficients que Skylake, avec soit un gain estimé par Intel jusqu'à 40 % de performances pour la même consommation, soit une réduction de 40 % de l’énergie nécessaire, à performance égale. Une fois rassemblé en cluster, le résultat est encore plus éloquent : 4 cœurs efficients proposeraient 80 % de consommation en moins ou 80 % de performances en plus par rapport à un dual core/quad thread Skylake, l’hyperthreading n’étant par contre pas de partie sur cette microarchitecture là. Attention néanmoins à garder une certaine distance dans la lecture de ces chiffres, Intel ne précise ici ni la version de Skylake utilisée (les diverses moutures du 14 nm ayant des différences notables sur la consommation), et se contente de résultats basés sur SPEC en version int : il y a fort à parier que la FP soit davantage dans les choux.

 

Un coeur efficient bien efficient tout seul [cliquer pour agrandir]Un coeur efficient bien efficient, même à plusieurs [cliquer pour agrandir]

Un petit tour d'horizon des nouveautés du coeur efficace [cliquer pour agrandir]

 

En interne, les progrès sont nombreux : le front-end change relativement peu si ce n’est le cache des instructions, qui grandit pour passer à 64 kio, et le prédicteur de branchements qui prend également de l’embonpoint, sans plus de précision. Pour le reste, le double décodeur est toujours capable de fournir un maximum de 6 instructions par cycle, encore heureux d’ailleurs !

 

Un étage de décodage qui envoie du pâté ! [cliquer pour agrandir]

 

Par contre, le back-end, lui, est radicalement chamboulé : passage à une fenêtre de réordonnancement de 256 entrées, une allocation gérant 5 micro-instructions en parallèle et la terminaison de 8 micro-instructions, mais, surtout, pas moins de 17 ports de traitement, contre 8 précédemment.

 

Pour être large, il est bien large ce back-end ! [cliquer pour agrandir]

 

Le sous-système mémoire n’est pas en reste avec 4 Mio de L2 maximum supporté pour un débit de 64 octets par cycle et une latence de 17 cycles, le tout supportant un maximum de 64 requêtes en attente. Enfin, pour ce qui est des extensions supportées, pas de panique : l’AVX2 est bien présent (comprenant les VNNI et les FMA), tout comme l’Intel CET récemment introduit.

 

Le Performance Core, l’évolution logique de Tiger Lake !

Pour ce qui est de poutrer, le cœur Performance devrait bien répondre « présent ». Boostés aux hormones avec, principalement, deux ports de calculs supplémentaires et le support de l’extension Intel AMX, les gros cœurs sont donnés pour supplanter Rocket Lake et son Cypress Cove de 19 % en moyenne à isofréquence, soit l’écart déjà réalisé entre Skylake et Ice Lake. Si les fréquences suivent, les gains en situation réelle devraient être conséquents.

 

Un coeurs Performance qui envoie du lourd ! [cliquer pour agrandir]

Un graphique qui sent le déjà-vu !

 

Une fois encore, ces chiffres ne sortent pas du chapeau : le design a été passé en revu ici et là afin de grossir toujours plus les bus et fournir toujours davantage de puissance brute exploitable.

 

performance core recap t [cliquer pour agrandir]

 

Le front-end est bien testicouillu avec des augmentations au niveau de l’iTLB, qui passe à 256 entrées pour les pages de 4 kio, et 32 entrées pour des hugepages, mais aussi du chamboulement sur le muop cache qui double quasiment en passant à 4 kilo-entrées, et qui alimente désormais une queue de 72 muops et non plus 70. Pour finir, les décodeurs évoluent (enfin !), sont au nombre de 8 et déroulent le code par tranches de 32 octets, fournissant ainsi 8 muops maximum par cycles.

 

performance core recap t [cliquer pour agrandir]

 

Côté back-end, les changements sont du même ordre : rajout d’un port de chargement des donnés et un port généraliste d’ALU ; le tout nourri par un ROB à 512 entrées et un scheduleur gérant 6 muops à la fois. De plus, les ports 0 et 1 prennent une unité supplémentaire, le Fast Add, permettant de réaliser des additions flottantes en 1 cycles.

 

performance core recap t [cliquer pour agrandir]

 

La mémoire progresse en parallèle avec 1,25 Mio de L2 pour les processeurs grand public et 2 Mio pour les pro, et le sous-système gère maintenant 48 requêtes en attentes maximums afin de gloutonner les 3 chargements 256-bit désormais possibles, ou 2 chargements 512-bits.

 

Du côté des extensions supportées, l’AVX-512 est au rendez-vous pour les opérations vectorielles, et l’AMX pour les opérations matricielles (offrant, par exemple, un débit 8 fois supérieur à une implémentation VNNI-256 équivalente lors d’une utilisation sur des entiers 8-bit) ainsi que le cocktail déjà présent sur les E-cores.

 

La synthèse des deux : Alder Lake, une architecture hybride

Intel l’ayant crié sur tous les toits auparavant, la surprise n’est pas bien grande... mais tout de même : Alder Lake sera la réunion de ces E-cores et P-cores sous un même die, et ce, selon trois saveurs différentes. En effet, la gamme — s’étendant, au passage, des TDP de 9 W à 125 W — sera composée de 3 dies : un pour les ordinateurs de bureau, l’autre pour les PC portables et le troisième pour les ultraportables.

 

Différent facteurs de forme pour Alder Lake... [cliquer pour agrandir]

 

Qui dit différents facteurs de forme dit différentes configurations, dont voici les spécifications maximales :

 

kiki ?

Coeurs

(Efficient + performance)

ThreadsCache L3iGPUSupport mémoires
Le gros 8+8 24 30 Mio 32 EU Xe

DDR5-4800

DDR4-3200

LPDDR5-5200

LPDDR4x-4266

Le moyen 8+6 20 24 Mio 96 EU Xe
Le petit 8+2 12 12 Mio 96 EU Xe

 

Outre la grande nouveauté de la DDR5, le PCIe 5.0 est également présent, doublant la bande passante offerte... pour le GPU. Les quatre lignes supplémentaires offertes par le CPU, usuellement utilisées pour des SSD NMVe, demeurent en 4.0, tandit que la liaison avec le chipset est, quant à elle, inconnue. Pour ce qui est des fréquences, par contre, il va encore falloir attendre la sortie officielle des produits pour savoir de quoi il en retourne... patience !

 

... pour différents die d'Alder Lake [cliquer pour agrandir]

 

Détail de taille : sur Alder Lake, n’espérez pas voir ni AVX-512, ni AMX, réservé aux CPU pour datacenters. En effet, par souci d’intercompatibilité des jeux d’instructions, Intel va désactiver de manière permanente cette extension sur les CPU grand public, afin que les threads puissent être librement assignés à un P-core ou un E-core sans vérification de l’ISA. De ce fait, le VNNI, initialement lancé sur 512 bits, est ici présent dans une version 256-bit.

 

Intel Thread Director: une aide matérielle à l’ordonnancement

Petite surprise de la part des bleus, Alder Lake embarquera une aide hardware au scheduler : l’Intel Thread Director, un composant chargé de la migration des processus sur les threads disponibles. L’idée est simple : donner la priorité aux applications en cours d’exécution les plus gourmandes, là où les processus en attente où les daemons réalisant des tâches légères seront associés à des cœurs efficients. Pour autant, cette unité n’est pas capable de migrer les processus en tant que tels : cette décision demeure du ressort de l’OS... et heureusement, vu le travail que cela requiert !

 

Tout dans le hard', et hop ! [cliquer pour agrandir]

 

Pour cela, l’Intel Thread Director permet de compléter les informations possédées par le scheduler, en lui ajoutant une métrique sur le niveau de performance requis pour chaque processus basée sur une télémétrie matérielle (mesure de l’utilisation des différentes unité de calcul/extensions vectorielles), guidant ainsi la décision d’affectation d’un E-core ou d’un P-core. Notez que, dans le cas où une application serait détectée comme requérant un P-core alors que tous sont déjà pris, le CPU remontera directement au noyau un conseil sur le processus à déplacer afin de laisser une place libre pour le nouveau venu. De plus, un processus préalablement détecté comme gourmand pourra être requalifié par la suite en économe si jamais la nature de son travail venait à changer (et inversement). Une idée plutôt puissante dans la théorie, il faut tout de même espérer que l’algorithme utilisé soit suffisamment intelligent pour sélectionner la bonne application le moment venu.

 

Le mot de la fin

Comme à chaque présentation architecturale uniquement, il nous est bien difficile de conclure. En effet, l’absence de chiffres de performances en situation réelle et de prix de vente risque de casser tout jugement préliminaire sur le produit. Néanmoins, Alder Lake présente, sur le papier, bien des avantages : en situation standard, la structure hétérogène devrait fournir d’un côté la pêche nécessaire aux applications de premier plan et, de l’autre, les cœurs économes pourront se charger de threads moins gourmands, laissant ainsi les Watts sauvés aux premiers cités. Quant au Thread Director, son principe est inséparable de la notion même d’hétérogénéité, bien que nous redoutons que son usage se limite à Windows 11 et Linux, et soit alors utilisé comme un argument de mise à jour. Rajoutons également que les progrès en matière de consommation ne sont pas tous imputables aux modifications architecturales, mais également à la finesse de gravure utilisée, l’Intel 7, qui permet par ailleurs une baisse de la tension de fonctionnement sur les E-core. Une finesse sur laquelle nous avons peu de recul sur sa capacité à monter dans les tours ; mais, puisqu’il s’agit d’un dérivé du 10 nm (merci le renommage...), nous devrions avoir relativement peu de souci de ce côté-là. À vérifier lors du test du produit fini !

 

Un poil avant ?

Des Raptors dans un lac, une scène leakée à voir !

Un peu plus tard ...

NVIDIA admet que l'acquisition d'Arm n'est pas encore gagnée...

Les 30 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Un ragoteur RGB embusqué, le Jeudi 26 Août 2021 à 09h09  
En lisant d'autres titres, je n'avais pas vu le 80% d'amélioration était en 4C/4T contre un 2C/4T.

En monocœur, 40% d'amélioration en 6 ans, avec une nouvelle architecture orientée conso et un nouveau procédé, je trouve ça peu.

Et du coup hors (ultra)mobilité, le gain de conso entre 1 E-core par rapport à un P-core cadencé plus bas me semble inutile.
par Un ragoteur sans nom embusqué, le Lundi 23 Août 2021 à 08h23  
Pour Nicolas

La tu me parles d'apu pour PC portable bga soudé alors que je te parle de apu lga non soudé pour PC fixe ou transportable du type clevo...ce qui n'a rien avoir si j'ai bien compris ta réponse.Avoir un 6 cores puissant et 8 cores peu puissant et 96 xe va déjà sortir en lga en 125w, c'est d'ailleurs pour cela qu'a cause de la mauvaise gravure du 10 nm, Intel est incapable de proposer un vrai 8 cores puissant et 8 cores faible avec 96 xe, sinon il l'aurait fait c'est sur.Sur PC portable ce sera pareil, en soudé ce sera des fréquences plus basses pour respecter un fdp de 50-60 w maximum en 6+8 et 96 xe. Vivement les prochaines finesse de gravure pour avoir au moins 8+8 et 96 xe voir plus, etc. Il paraît que le lga 1700 intel va tenir au moins 3 génération donc ce serait pas pour faire evoluer son matériel.
AMD va passer à ce genre de processeur vers 2024, c'est dans 2 ans et demie environ. Faudra voir ou en sont les processeurs Arm de leurs cotés pour comparer...Comme on l'a vu déjà, cela ne servirait à rien de multiplier à l'infini les cores de faible puissance pour faire de thread en plus, à l'image de médiatek sur ses soc en 10 cores qui a fini par revenir à 8 cores dont 4 cores puissant et 4 cores faible et gpu pour ses soc les plus performant, c'est mieux.Intel ne doit pas s'égarer avec trop de thread faible surtout pour le grand public avec leur utilisation et Windows 11.Bon 2 mois à attendre pour les premiers test réel, on sera fixé.
par LidtZig, le Lundi 23 Août 2021 à 08h01  
par Nicolas D. le Dimanche 22 Août 2021 à 21h00
Faut demander à Intel, pas à moi ! C'est peut-être aussi un moyen de segmentation forcée, tout comme AMD a récemment fait en dévoilant le 5700G grand public aussi tard : en l'absence d'alternative, le consommateur va prendre plus cher (ou aller chez la concurrence, justement).

C'est clair qu'un APU peut faire largement le taf pour beaucoup d'usages (j'écris en ce moment même sur un 1065G7 qui fait très bien le café, et j'ai un 2700U en portable pro , et clairement, avec la DDR5 qui lève une partie du bottleneck mémoire des APU, Intel se coupe la jambe à ne pas faire concurrence sur ce segment-là. Après, rien n'exclut en théorie une version utilisant le die mobile - 6 coeurs et 96 EU, overclockée pour tenir un TDP de 95 W voire 105 W, même si cela demeure peu probable...
Après, Intel a de l'expérience là dedans. Prendre n'importe quelle die et en tirer des perfs de porc au prix d'un TDP explosé. Et je ne "trolle" intel qu'à moitié ...

Mais donc, si j'ai bien compris, plusieurs se posent effectivement la question, et la réponse n'est pas des plus évidentes ...
par LidtZig, le Lundi 23 Août 2021 à 07h58  
par Un ragoteur sans nom embusqué le Dimanche 22 Août 2021 à 20h30
Pour LidtZig,

Benchmark entre Intel xe 96, gt 1050 et gt1050 ti destock et Véga 8 apu.

un grand lien tout pourri
Je parlais en jeu. J'ai des résultats similaires sur une 1060 dans un portable et un apu ryzen en jeu, j'ai extrapolé.
Je pensais que c'était plus puissant quand même, my bad.

Ceci dit, vu les résultats en jeu, ça n'en reste pas moins une alternative crédible à une carte dédiée d'entrée/milieu de gamme actuel, en attendant mieux.
Ceci ne change pas le fond du débat

Merci pour le lien btw
par Nicolas D., le Dimanche 22 Août 2021 à 21h00  
par LidtZig le Dimanche 22 Août 2021 à 07h41
C'est quand même drôle comme raisonnement, quand on sait qu'AMD est maître incontesté dans ce game là. Les APU AMD ont quasiment toujours été au dessus.
[...]
EDIT : Pour que ça soit plus clair, je parle pas d'une config, mais bien d'un APU. La série 5000 d'AMD fait aussi bien le taf qu'un I5+1060.
Faut demander à Intel, pas à moi ! C'est peut-être aussi un moyen de segmentation forcée, tout comme AMD a récemment fait en dévoilant le 5700G grand public aussi tard : en l'absence d'alternative, le consommateur va prendre plus cher (ou aller chez la concurrence, justement).

C'est clair qu'un APU peut faire largement le taf pour beaucoup d'usages (j'écris en ce moment même sur un 1065G7 qui fait très bien le café, et j'ai un 2700U en portable pro , et clairement, avec la DDR5 qui lève une partie du bottleneck mémoire des APU, Intel se coupe la jambe à ne pas faire concurrence sur ce segment-là. Après, rien n'exclut en théorie une version utilisant le die mobile - 6 coeurs et 96 EU, overclockée pour tenir un TDP de 95 W voire 105 W, même si cela demeure peu probable...
par Un ragoteur sans nom embusqué, le Dimanche 22 Août 2021 à 20h30  
Pour LidtZig,

Benchmark entre Intel xe 96, gt 1050 et gt1050 ti destock et Véga 8 apu.

un grand lien tout pourri
par Un ragoteur sans nom embusqué, le Dimanche 22 Août 2021 à 20h13  
par Nicolas D. le Vendredi 20 Août 2021 à 19h50
Si tu retires les E-cores, tu dois bien pouvoir caser 96 EUs. La question est plus à mon avis dans le coût et la rentabilité de l'opération, qui n'a pas été jugée suffisante ici étant donné qu'il y a déjà 3 dies différents. Je pense qu'Intel n'imagine pas quelqu'un qui souhaite à la fois un CPU puissant et un GPU puissant sous le même die : soit c'est un laptop et on cherche qqc d'équilibré dans les performances CPU/GPU, soit c'est du PC de bureau et on mise principalement sur le CPU, le GPU étant dédié si besoin.
Alors pourquoi le 5700G se vend comme des petits pains, je pense bien au contraire que c'est beaucoup recherché par la clientèle.Le prix étant bien placé en plus de l'amd, ce qui a toujours fait défaut au version Intel quand il mettait des bons apu en haut de gamme. Ici les choses ont bien changé avec la pénurie.
La faute à la gravure Intel de son 10 nm qui doit prendre vite la retraite, j'aurais préféré à l'image du tmsc pour les gpu Intel en 6 nm s'imposer même pour aider lake, ce qui aurait permis de le faire, c'est quasiment certains.On voit aussi la faiblesse de la gravure du 10 nm aussi, dans les consommation annoncés par aider lake, on passe de 65 watt à 125 watt directement pas de 90w entre, donc dès qu'on passe un certains niveau de fréquence, la consommation explose.Moi d'ailleurs un apu 8 cores puissant et gpu apu aussi puissant qu'un 1660 ti me suffirait largement en socket lga.
Non l'APU 5700G n'est pas du tout au niveau d'une gtx1060, il en est assez loin pourtant.C'est même en dessous d'une gt1050, c'est dire, c'est pour cela que j'attends encore des progrès la dessus pour les prochaines itinérances Intel et AMD avec les gravures plus fines.
par Kannagi en Provence-Alpes-Côte d'Azur, le Dimanche 22 Août 2021 à 13h03  
D'ailleurs en relisant l'article , les STD ,c'est quoi exactement , des store pour le registre ou le cache ?
(je pense que c'est plus pour le registre , parce que avec 4 Store de cache en plus le STQ risque d'être bien vite rempli).

Mais je trouve cela étrange ,en général on a plus de Load que de Store , où alors le STD n'est qu'un "move reg,reg".
par LidtZig, le Dimanche 22 Août 2021 à 07h41  
par Nicolas D. le Vendredi 20 Août 2021 à 19h50
Si tu retires les E-cores, tu dois bien pouvoir caser 96 EUs. La question est plus à mon avis dans le coût et la rentabilité de l'opération, qui n'a pas été jugée suffisante ici étant donné qu'il y a déjà 3 dies différents. Je pense qu'Intel n'imagine pas quelqu'un qui souhaite à la fois un CPU puissant et un GPU puissant sous le même die : soit c'est un laptop et on cherche qqc d'équilibré dans les performances CPU/GPU, soit c'est du PC de bureau et on mise principalement sur le CPU, le GPU étant dédié si besoin.
C'est quand même drôle comme raisonnement, quand on sait qu'AMD est maître incontesté dans ce game là. Les APU AMD ont quasiment toujours été au dessus.

Là où je ne suis pas d'accord avec ce raisonnement d'Intel, c'est que pour 70% des joueurs, un équivalent Ryzen 5 / I5 en 6 coeurs/12 threads, avec une 1060 au cul c'est suffisant. Ca fait tourner la plupart des jeux de gestion, des jeux casu, plateformes et esport. Tu galères un peu sur du AC/The Witcher/... mais t'as une config à 400 balles clef en main quasiment. La carte discrete attendra.

AMD l'a probablement bien compris vu la gamme d'APU, même desktop, en série 5000.

Je suis curieux de voir qu'Intel ne propose pas un équivalent.

EDIT : Pour que ça soit plus clair, je parle pas d'une config, mais bien d'un APU. La série 5000 d'AMD fait aussi bien le taf qu'un I5+1060. Ça suffit pour la plupart des joueurs, la bureautique etc. Et vu les pénuries, ça peut être une solution de repli en attendant de meilleurs jours.
par Kannagi en Provence-Alpes-Côte d'Azur, le Samedi 21 Août 2021 à 13h46  
par Pascal M. le Vendredi 20 Août 2021 à 17h59
cela fait quelques années à présent que nous sommes le seul media fr à couvrir les trucs comme l'arch day
C'est vrai que je vois souvent des articles très technique ici , les seuls en media FR, d'habitude pour des information sur la micro architecture , je vais sur anandtech ou realworldtech (ou wikichip qui donne des info assez intéressant , certes avec peu d'analyse , mais quand on peut le faire sois même ).

Bref continuais comme cela , vu que certain (moi par exemple) ne s'intéresse pas vraiment aux derniers CPU/GPU pour les achats , mais plus par curiosité technique.
par Campi, le Samedi 21 Août 2021 à 01h34  
ça reste de la bouinne. Sur de l'appli multi core ça va se faire atomiser par le 5950X lol
par Nicolas D., le Vendredi 20 Août 2021 à 19h50  
par Un ragoteur des lumières embusqué le Vendredi 20 Août 2021 à 15h31
C'est la qu'on voit que le 10 nm d'Intel même son évolution n'est pas suffisante.
Impossible d'avoir un vrai 8 cores puissant avec les 96 xe, le AMD 5700G va rester tout seul encore au moins jusqu'à fin 2022, en espérant qu'intel y arrive au moins avec Raptor lake voir fais mieux car un apu de la sorte permet de pas mal soulager les tâches de GPU dédié voir s'en passer pour pas de choses.
Si tu retires les E-cores, tu dois bien pouvoir caser 96 EUs. La question est plus à mon avis dans le coût et la rentabilité de l'opération, qui n'a pas été jugée suffisante ici étant donné qu'il y a déjà 3 dies différents. Je pense qu'Intel n'imagine pas quelqu'un qui souhaite à la fois un CPU puissant et un GPU puissant sous le même die : soit c'est un laptop et on cherche qqc d'équilibré dans les performances CPU/GPU, soit c'est du PC de bureau et on mise principalement sur le CPU, le GPU étant dédié si besoin.