Intel stellt das "Alchemist" Grafikchip-Design der "Xe-HPG" Architektur vor

Intels "Architecture Day 2021" hat auch genauere Ausführungen zur kommenden Xe-HPG Grafikchip-Architektur (anhand dessen größten Grafikchip "DG2-512") mit sich gebracht – welche sich nicht unerheblich von den bisherigen Xe-basierten Grafikchips der iGPUs von "Tiger Lake" und "Rocket Lake" unterscheidet. Vielmehr nähert sich das Xe-HPG-Design inzwischen auffällig den üblichen Gaming-Grafikchips von AMD & nVidia an. Danach besteht ein DG-512 Grafikchip mit seinen insgesamt 4096 FP32-Einheiten erst einmal aus 8 "Render-Slice", welche jeweils 4 "Xe-Cores", 32 TMUs, 4 RayTracing-Einheiten, 16 ROPs sowie Geometrie- und Raster-Einheit enthalten. Im Sinne von AMD & nVidias üblichen Grafikchip-Designs könnte man diesen "Render-Slice" somit als Raster-Engine samt angehängten 4 Shader-Clustern bezeichnen.

Intel "Alchemist" DG2-512

Xe-Architektur (Xe-HPG, Intel Grafik-Gen 12)
hergestellt unter TSMCs 6nm-Fertigung
monolithisches Design mit 8 Render-Slices
ein Render-Slice enthält Geometrie/Raster-Engine, 4 Xe-Cores, 32 TMUs, 4 RayTracing-Einheiten, 16 ROPs
ein Xe-Core enthält 16 Vector-Einheiten (sinngemäß 128 FP32-Einheiten) samt 16 XMX-Cores sowie Level1-Cache
RayTracing beschleunigt Ray-Traversal, Triangle-Intersection sowie Bounding Box Intersection
Level2-Cache und Speicherinterface liegen außerhalb der Render-Slices
insgesamt 8 Geometrie/Raster-Engines, 32 Xe-Cores, 512 Vector-Einheiten (sinngemäß 4096 FP32-Einheiten), 512 XMX-Cores, 256 TMUs, 32 RayTracing-Einheiten, 128 ROPs

Denn die genannten Xe-Cores enthalten jeweils 16 Vector-Einheiten mit sinngemäß jeweils 8 FP32-Units (pro Xe-Core sinngemäß 128 FP32-Einheiten), entsprechen somit im Größenmaßstab durchaus einem üblichen Shader-Cluster bei AMD & nVidia (zwischen 64 und 192 FP32-Einheiten, ja nach Architektur & Generation). Dies kommt dann auf insgesamt 8 Geometrie/Raster-Engines, 32 Xe-Cores, 512 Vector-Einheiten (=4096 FP32-Einheiten), 512 XMX-Cores, 256 TMUs, 32 RayTracing-Einheiten und 128 ROPs für den kompletten DG2-512 Grafikchip heraus. Kleinere Grafikchips derselben Architektur könnte Intel dann einfach über eine andere Anzahl an "Render-Slices" erzeugen: 4 hiervon würden DG2-256 ergeben, nur 2 Render-Slices ergeben DG2-128. Dass Xe-HPG aus mehreren Grafikchips besteht, wurde seitens Intel zwar bestätigt, dann allerdings nicht weiter ausgeführt – so dass man diesbezüglich nur von DG2-512 ausgehend interpolieren kann:

	DG2-128	DG2-256	DG2-512
Render Slices	2	4	8
Geometrie/Raster-Engines	2	4	8
Xe-Cores	8	16	32
Vector-Einheiten	128	256	512
FP32-Einheiten (sinngemäß)	1024	2048	4096
XMX-Cores	128	256	512
TMUs	64	128	256
RayTracing-Einheiten	8	16	32
ROPs	32	64	128
Smart-Cache	angeblich 4 MB	angeblich 8 MB	angeblich 16 MB
Speicherinterface	angeblich 64 Bit GDDR6	angeblich 128 Bit GDDR6	angeblich 256 Bit GDDR6
Performance-Richtung	geschätzt GeForce GTX 1650	geschätzt GeForce RTX 2060	angeblich GeForce RTX 3070 Ti
TDP-Klasse	geschätzt 70W	geschätzt 130W	angeblich ≤235W
Anmerkung: Daten zu DG2-128 & DG2-256 nur interpoliert und damit eine reine Annahme!

Neben jenen 16 Vector-Einheiten und damit den üblichen FP32-Einheiten enthält ein Xe-Core zusätzlich noch 16 XMX-Cores oder auch "Matrix Engine" seitens Intel genannt. Dahinter verbergen sich schlicht Matrizen/Tensor-Einheiten, welche immerhin 64 FP16-Operationen oder 128 INT8-Operationen pro XMX-Core und Takt bearbeiten können. Im Endeffekt handelt es sich bei den XMX-Cores somit um ein Äquivalent zu nVidias Tensor-Einheiten in den Turing- und Ampere-Designs – mit augenscheinlich gegenüber dem Ampere-Design deutlich stärkerer Rechenkraft. Denn normiert auf die Anzahl der FP32-Einheiten, wird Xe-HPG letztlich genau doppelt soviel an FP16- und INT8-Berechnungen pro Takt auswerfen können wie nVidias Ampere-Architektur. Mittels bei den Intel-Grafikchips anzunehmenderweise etwas höheren Taktraten könnte DG2-512 somit passabel in der Nähe der Tensor-Power des viel größeren GA102-Chips (287 TOPs INT8) herauskommen.

	Intel DG2-512	nVidia GA104	AMD Navi 22
Raster-Engines	8	6	2
Shader-Cluster	32 Xe-Cores	48 SM	40 CU
FP32-Einheiten	(sinngemäß) 4096	6144	2560
FP32-Power	~16 TFlops	21,7 TFlops	12,4 TFlops
TMUs	256	192	160
RayTracing-Einheiten	32 RT-Einheiten	48 RT-Cores v2	40 RA-Einheiten
Tensor-Cores	512 XMX-Cores	192 Tensor-Cores v3	-
Tensor-Power	~131 TFlops FP16 bzw. ~262 TOPs INT8	87 TFlops FP16 bzw. 174 TOPs INT8	25 TFlops FP16 bzw. 50 TOPs INT8
ROPs	128	96	64
Level2-Cache	?	4 MB	3 MB
extra Cache	angeblich 16 MB Smart-Cache	-	96 MB Infinity Cache
Speicherinterface	angeblich 256 Bit GDDR6	256 Bit GDDR6X	192 Bit GDDR6
Grafikkarten	Arc .....	GeForce RTX 3060 Ti, 3070 & 3070 Ti	Radeon RX 6700 XT
Anmerkungen: Rechenleistung von DG2-512 auf angenommen 2000 MHz Chiptakt – Tensor-Power bei Navi 22 über die normalen FP32-Einheiten

Diese hohe Tensor-Power wird dann der Beschleunigung von Intels FSR/DLSS-Kontrahenten "XeSS" dienen. Selbiges Upscaling-Feature ist technologisch ähnlich zu nVidias DLSS, arbeitet also mittels KI-basiertem Supersampling sowie temporaler Komponente. Auf der rechtliche Seite folgt Intel hingegen dem Ansatz von FSR und wird XeSS in Zukunft als OpenSource veröffentlichen und damit anderen Grafikchips zugänglich machen. Die technische Bedingung liegt in der Ausführung von INT8-Berechnungen – was durchaus einige ältere Grafikchips beherrschen, bei AMD alles ab Vega 20 und Navi 12 (nicht Navi 10), bei nVidia alles ab der Pascal-Generation. Dabei soll es laut Intel nur zu einer kleinen Performance-Differenz gegenüber dem Intel-Original kommen – was somit nach AMDs FSR ein weiteres interessantes, offenes Upscaling-Verfahren ergibt, welches den Spiele-Entwicklern zur Verfügung steht.

In der insgesamten Betrachtung von DG2-512 im Vergleich mit nVidias GA104 sowie AMDs Navi 22 erscheint die Zielsetzung, mittels DG2-512 die Performance einer GeForce RTX 3070 Ti zu erreichen, von der Technik-Seite her keineswegs aus der Luft gegriffen. DG2-512 bewegt sich grob im technischen Rahmen dieser Grafikchips, trotz aller Unterschiede und nicht vergleichbaren Punkte. Bedingung dafür sind allerdings zwei Punkte: Erstens muß die Intel-Hardware ihre Rohpower ähnlich gut auf die Straße bringen wie die Designs von AMD & nVidia – für Intel leichter gesagt als getan beim ersten Versuch von Desktop-Grafikkarten seit über 20 Jahren. Und zweitens dürfen am Ende nicht die Treiber alle Hardware-Erfolge zunichtemachen. Dies bedeutet, dass Intels Grafikkarten-Treiber sowohl robust als auch kompatibel zu allen Spielen sein müssen – und ihre Performance dann nicht nur unter den üblichen Benchmarks beweisen müssen, sondern auch in der Breite des Spiele-Angebots.