21

Intel stellt das "Alchemist" Grafikchip-Design der "Xe-HPG" Architektur vor

Intels "Architecture Day 2021" hat auch genauere Ausführungen zur kommenden Xe-HPG Grafikchip-Architektur (anhand dessen größten Grafikchip "DG2-512") mit sich gebracht – welche sich nicht unerheblich von den bisherigen Xe-basierten Grafikchips der iGPUs von "Tiger Lake" und "Rocket Lake" unterscheidet. Vielmehr nähert sich das Xe-HPG-Design inzwischen auffällig den üblichen Gaming-Grafikchips von AMD & nVidia an. Danach besteht ein DG-512 Grafikchip mit seinen insgesamt 4096 FP32-Einheiten erst einmal aus 8 "Render-Slice", welche jeweils 4 "Xe-Cores", 32 TMUs, 4 RayTracing-Einheiten, 16 ROPs sowie Geometrie- und Raster-Einheit enthalten. Im Sinne von AMD & nVidias üblichen Grafikchip-Designs könnte man diesen "Render-Slice" somit als Raster-Engine samt angehängten 4 Shader-Clustern bezeichnen.

    Intel "Alchemist" DG2-512

  • Xe-Architektur (Xe-HPG, Intel Grafik-Gen 12)
  • hergestellt unter TSMCs 6nm-Fertigung
  • monolithisches Design mit 8 Render-Slices
  • ein Render-Slice enthält Geometrie/Raster-Engine, 4 Xe-Cores, 32 TMUs, 4 RayTracing-Einheiten, 16 ROPs
  • ein Xe-Core enthält 16 Vector-Einheiten (sinngemäß 128 FP32-Einheiten) samt 16 XMX-Cores sowie Level1-Cache
  • RayTracing beschleunigt Ray-Traversal, Triangle-Intersection sowie Bounding Box Intersection
  • Level2-Cache und Speicherinterface liegen außerhalb der Render-Slices
  • insgesamt 8 Geometrie/Raster-Engines, 32 Xe-Cores, 512 Vector-Einheiten (sinngemäß 4096 FP32-Einheiten), 512 XMX-Cores, 256 TMUs, 32 RayTracing-Einheiten, 128 ROPs

Denn die genannten Xe-Cores enthalten jeweils 16 Vector-Einheiten mit sinngemäß jeweils 8 FP32-Units (pro Xe-Core sinngemäß 128 FP32-Einheiten), entsprechen somit im Größenmaßstab durchaus einem üblichen Shader-Cluster bei AMD & nVidia (zwischen 64 und 192 FP32-Einheiten, ja nach Architektur & Generation). Dies kommt dann auf insgesamt 8 Geometrie/Raster-Engines, 32 Xe-Cores, 512 Vector-Einheiten (=4096 FP32-Einheiten), 512 XMX-Cores, 256 TMUs, 32 RayTracing-Einheiten und 128 ROPs für den kompletten DG2-512 Grafikchip heraus. Kleinere Grafikchips derselben Architektur könnte Intel dann einfach über eine andere Anzahl an "Render-Slices" erzeugen: 4 hiervon würden DG2-256 ergeben, nur 2 Render-Slices ergeben DG2-128. Dass Xe-HPG aus mehreren Grafikchips besteht, wurde seitens Intel zwar bestätigt, dann allerdings nicht weiter ausgeführt – so dass man diesbezüglich nur von DG2-512 ausgehend interpolieren kann:

DG2-128 DG2-256 DG2-512
Render Slices 2 4 8
Geometrie/Raster-Engines 2 4 8
Xe-Cores 8 16 32
Vector-Einheiten 128 256 512
FP32-Einheiten (sinngemäß) 1024 2048 4096
XMX-Cores 128 256 512
TMUs 64 128 256
RayTracing-Einheiten 8 16 32
ROPs 32 64 128
Smart-Cache angeblich 4 MB angeblich 8 MB angeblich 16 MB
Speicherinterface angeblich 64 Bit GDDR6 angeblich 128 Bit GDDR6 angeblich 256 Bit GDDR6
Performance-Richtung geschätzt GeForce GTX 1650 geschätzt GeForce RTX 2060 angeblich GeForce RTX 3070 Ti
TDP-Klasse geschätzt 70W geschätzt 130W angeblich ≤235W
Anmerkung: Daten zu DG2-128 & DG2-256 nur interpoliert und damit eine reine Annahme!

Neben jenen 16 Vector-Einheiten und damit den üblichen FP32-Einheiten enthält ein Xe-Core zusätzlich noch 16 XMX-Cores oder auch "Matrix Engine" seitens Intel genannt. Dahinter verbergen sich schlicht Matrizen/Tensor-Einheiten, welche immerhin 64 FP16-Operationen oder 128 INT8-Operationen pro XMX-Core und Takt bearbeiten können. Im Endeffekt handelt es sich bei den XMX-Cores somit um ein Äquivalent zu nVidias Tensor-Einheiten in den Turing- und Ampere-Designs – mit augenscheinlich gegenüber dem Ampere-Design deutlich stärkerer Rechenkraft. Denn normiert auf die Anzahl der FP32-Einheiten, wird Xe-HPG letztlich genau doppelt soviel an FP16- und INT8-Berechnungen pro Takt auswerfen können wie nVidias Ampere-Architektur. Mittels bei den Intel-Grafikchips anzunehmenderweise etwas höheren Taktraten könnte DG2-512 somit passabel in der Nähe der Tensor-Power des viel größeren GA102-Chips (287 TOPs INT8) herauskommen.

Intel DG2-512 nVidia GA104 AMD Navi 22
Raster-Engines 8 6 2
Shader-Cluster 32 Xe-Cores 48 SM 40 CU
FP32-Einheiten (sinngemäß) 4096 6144 2560
FP32-Power ~16 TFlops 21,7 TFlops 12,4 TFlops
TMUs 256 192 160
RayTracing-Einheiten 32 RT-Einheiten 48 RT-Cores v2 40 RA-Einheiten
Tensor-Cores 512 XMX-Cores 192 Tensor-Cores v3 -
Tensor-Power ~131 TFlops FP16 bzw. ~262 TOPs INT8 87 TFlops FP16 bzw. 174 TOPs INT8 25 TFlops FP16 bzw. 50 TOPs INT8
ROPs 128 96 64
Level2-Cache ? 4 MB 3 MB
extra Cache angeblich 16 MB Smart-Cache - 96 MB Infinity Cache
Speicherinterface angeblich 256 Bit GDDR6 256 Bit GDDR6X 192 Bit GDDR6
Grafikkarten Arc ..... GeForce RTX 3060 Ti, 3070 & 3070 Ti Radeon RX 6700 XT
Anmerkungen: Rechenleistung von DG2-512 auf angenommen 2000 MHz Chiptakt – Tensor-Power bei Navi 22 über die normalen FP32-Einheiten

Diese hohe Tensor-Power wird dann der Beschleunigung von Intels FSR/DLSS-Kontrahenten "XeSS" dienen. Selbiges Upscaling-Feature ist technologisch ähnlich zu nVidias DLSS, arbeitet also mittels KI-basiertem Supersampling sowie temporaler Komponente. Auf der rechtliche Seite folgt Intel hingegen dem Ansatz von FSR und wird XeSS in Zukunft als OpenSource veröffentlichen und damit anderen Grafikchips zugänglich machen. Die technische Bedingung liegt in der Ausführung von INT8-Berechnungen – was durchaus einige ältere Grafikchips beherrschen, bei AMD alles ab Vega 20 und Navi 12 (nicht Navi 10), bei nVidia alles ab der Pascal-Generation. Dabei soll es laut Intel nur zu einer kleinen Performance-Differenz gegenüber dem Intel-Original kommen – was somit nach AMDs FSR ein weiteres interessantes, offenes Upscaling-Verfahren ergibt, welches den Spiele-Entwicklern zur Verfügung steht.

In der insgesamten Betrachtung von DG2-512 im Vergleich mit nVidias GA104 sowie AMDs Navi 22 erscheint die Zielsetzung, mittels DG2-512 die Performance einer GeForce RTX 3070 Ti zu erreichen, von der Technik-Seite her keineswegs aus der Luft gegriffen. DG2-512 bewegt sich grob im technischen Rahmen dieser Grafikchips, trotz aller Unterschiede und nicht vergleichbaren Punkte. Bedingung dafür sind allerdings zwei Punkte: Erstens muß die Intel-Hardware ihre Rohpower ähnlich gut auf die Straße bringen wie die Designs von AMD & nVidia – für Intel leichter gesagt als getan beim ersten Versuch von Desktop-Grafikkarten seit über 20 Jahren. Und zweitens dürfen am Ende nicht die Treiber alle Hardware-Erfolge zunichtemachen. Dies bedeutet, dass Intels Grafikkarten-Treiber sowohl robust als auch kompatibel zu allen Spielen sein müssen – und ihre Performance dann nicht nur unter den üblichen Benchmarks beweisen müssen, sondern auch in der Breite des Spiele-Angebots.

Intels "Architecture Day 2021" hat auch genauere Ausführungen zur kommenden Xe-HPG Grafikchip-Architektur (anhand dessen größten Grafikchip "DG2-512") mit sich gebracht - welche sich nicht unerheblich von den bisherigen Xe-basierten Grafikchips der iGPUs von "Tiger Lake" und "Rocket Lake" unterscheidet. Vielmehr nähert sich das Xe-HPG-Design inzwischen auffällig den üblichen Gaming-Grafikchips von AMD & nVidia an. Danach besteht ein DG-512 Grafikchip mit seinen insgesamt 4096 FP32-Einheiten erst einmal aus 8 "Render-Slice", welche jeweils 4 "Xe-Cores", 32 TMUs, 4 RayTracing-Einheiten, 16 ROPs sowie Geometrie- und Raster-Einheit enthalten. Im Sinne von AMD & nVidias üblichen Grafikchip-Designs könnte man diesen "Render-Slice" somit als Raster-Engine samt angehängten 4 Shader-Clustern bezeichnen.




Intel "Alchemist" DG2-512
Xe-Architektur (Xe-HPG, Intel Grafik-Gen 12)
hergestellt unter TSMCs 6nm-Fertigung
monolithisches Design mit 8 Render-Slices
ein Render-Slice enthält Geometrie/Raster-Engine, 4 Xe-Cores, 32 TMUs, 4 RayTracing-Einheiten, 16 ROPs
ein Xe-Core enthält 16 Vector-Einheiten (sinngemäß 128 FP32-Einheiten) samt 16 XMX-Cores sowie Level1-Cache
RayTracing beschleunigt Ray-Traversal, Triangle-Intersection sowie Bounding Box Intersection
Level2-Cache und Speicherinterface liegen außerhalb der Render-Slices
insgesamt 8 Geometrie/Raster-Engines, 32 Xe-Cores, 512 Vector-Einheiten (sinngemäß 4096 FP32-Einheiten), 512 XMX-Cores, 256 TMUs, 32 RayTracing-Einheiten, 128 ROPs