Intels "Architecture Day 2021" hat auch genauere Ausführungen zur kommenden Xe-HPG Grafikchip-Architektur (anhand dessen größten Grafikchip "DG2-512") mit sich gebracht – welche sich nicht unerheblich von den bisherigen Xe-basierten Grafikchips der iGPUs von "Tiger Lake" und "Rocket Lake" unterscheidet. Vielmehr nähert sich das Xe-HPG-Design inzwischen auffällig den üblichen Gaming-Grafikchips von AMD & nVidia an. Danach besteht ein DG-512 Grafikchip mit seinen insgesamt 4096 FP32-Einheiten erst einmal aus 8 "Render-Slice", welche jeweils 4 "Xe-Cores", 32 TMUs, 4 RayTracing-Einheiten, 16 ROPs sowie Geometrie- und Raster-Einheit enthalten. Im Sinne von AMD & nVidias üblichen Grafikchip-Designs könnte man diesen "Render-Slice" somit als Raster-Engine samt angehängten 4 Shader-Clustern bezeichnen.
|
Denn die genannten Xe-Cores enthalten jeweils 16 Vector-Einheiten mit sinngemäß jeweils 8 FP32-Units (pro Xe-Core sinngemäß 128 FP32-Einheiten), entsprechen somit im Größenmaßstab durchaus einem üblichen Shader-Cluster bei AMD & nVidia (zwischen 64 und 192 FP32-Einheiten, ja nach Architektur & Generation). Dies kommt dann auf insgesamt 8 Geometrie/Raster-Engines, 32 Xe-Cores, 512 Vector-Einheiten (=4096 FP32-Einheiten), 512 XMX-Cores, 256 TMUs, 32 RayTracing-Einheiten und 128 ROPs für den kompletten DG2-512 Grafikchip heraus. Kleinere Grafikchips derselben Architektur könnte Intel dann einfach über eine andere Anzahl an "Render-Slices" erzeugen: 4 hiervon würden DG2-256 ergeben, nur 2 Render-Slices ergeben DG2-128. Dass Xe-HPG aus mehreren Grafikchips besteht, wurde seitens Intel zwar bestätigt, dann allerdings nicht weiter ausgeführt – so dass man diesbezüglich nur von DG2-512 ausgehend interpolieren kann:
DG2-128 | DG2-256 | DG2-512 | |
---|---|---|---|
Render Slices | 2 | 4 | 8 |
Geometrie/Raster-Engines | 2 | 4 | 8 |
Xe-Cores | 8 | 16 | 32 |
Vector-Einheiten | 128 | 256 | 512 |
FP32-Einheiten (sinngemäß) | 1024 | 2048 | 4096 |
XMX-Cores | 128 | 256 | 512 |
TMUs | 64 | 128 | 256 |
RayTracing-Einheiten | 8 | 16 | 32 |
ROPs | 32 | 64 | 128 |
Smart-Cache | angeblich 4 MB | angeblich 8 MB | angeblich 16 MB |
Speicherinterface | angeblich 64 Bit GDDR6 | angeblich 128 Bit GDDR6 | angeblich 256 Bit GDDR6 |
Performance-Richtung | geschätzt GeForce GTX 1650 | geschätzt GeForce RTX 2060 | angeblich GeForce RTX 3070 Ti |
TDP-Klasse | geschätzt 70W | geschätzt 130W | angeblich ≤235W |
Anmerkung: Daten zu DG2-128 & DG2-256 nur interpoliert und damit eine reine Annahme! |
Neben jenen 16 Vector-Einheiten und damit den üblichen FP32-Einheiten enthält ein Xe-Core zusätzlich noch 16 XMX-Cores oder auch "Matrix Engine" seitens Intel genannt. Dahinter verbergen sich schlicht Matrizen/Tensor-Einheiten, welche immerhin 64 FP16-Operationen oder 128 INT8-Operationen pro XMX-Core und Takt bearbeiten können. Im Endeffekt handelt es sich bei den XMX-Cores somit um ein Äquivalent zu nVidias Tensor-Einheiten in den Turing- und Ampere-Designs – mit augenscheinlich gegenüber dem Ampere-Design deutlich stärkerer Rechenkraft. Denn normiert auf die Anzahl der FP32-Einheiten, wird Xe-HPG letztlich genau doppelt soviel an FP16- und INT8-Berechnungen pro Takt auswerfen können wie nVidias Ampere-Architektur. Mittels bei den Intel-Grafikchips anzunehmenderweise etwas höheren Taktraten könnte DG2-512 somit passabel in der Nähe der Tensor-Power des viel größeren GA102-Chips (287 TOPs INT8) herauskommen.
Intel DG2-512 | nVidia GA104 | AMD Navi 22 | |
---|---|---|---|
Raster-Engines | 8 | 6 | 2 |
Shader-Cluster | 32 Xe-Cores | 48 SM | 40 CU |
FP32-Einheiten | (sinngemäß) 4096 | 6144 | 2560 |
FP32-Power | ~16 TFlops | 21,7 TFlops | 12,4 TFlops |
TMUs | 256 | 192 | 160 |
RayTracing-Einheiten | 32 RT-Einheiten | 48 RT-Cores v2 | 40 RA-Einheiten |
Tensor-Cores | 512 XMX-Cores | 192 Tensor-Cores v3 | - |
Tensor-Power | ~131 TFlops FP16 bzw. ~262 TOPs INT8 | 87 TFlops FP16 bzw. 174 TOPs INT8 | 25 TFlops FP16 bzw. 50 TOPs INT8 |
ROPs | 128 | 96 | 64 |
Level2-Cache | ? | 4 MB | 3 MB |
extra Cache | angeblich 16 MB Smart-Cache | - | 96 MB Infinity Cache |
Speicherinterface | angeblich 256 Bit GDDR6 | 256 Bit GDDR6X | 192 Bit GDDR6 |
Grafikkarten | Arc ..... | GeForce RTX 3060 Ti, 3070 & 3070 Ti | Radeon RX 6700 XT |
Anmerkungen: Rechenleistung von DG2-512 auf angenommen 2000 MHz Chiptakt – Tensor-Power bei Navi 22 über die normalen FP32-Einheiten |
Diese hohe Tensor-Power wird dann der Beschleunigung von Intels FSR/DLSS-Kontrahenten "XeSS" dienen. Selbiges Upscaling-Feature ist technologisch ähnlich zu nVidias DLSS, arbeitet also mittels KI-basiertem Supersampling sowie temporaler Komponente. Auf der rechtliche Seite folgt Intel hingegen dem Ansatz von FSR und wird XeSS in Zukunft als OpenSource veröffentlichen und damit anderen Grafikchips zugänglich machen. Die technische Bedingung liegt in der Ausführung von INT8-Berechnungen – was durchaus einige ältere Grafikchips beherrschen, bei AMD alles ab Vega 20 und Navi 12 (nicht Navi 10), bei nVidia alles ab der Pascal-Generation. Dabei soll es laut Intel nur zu einer kleinen Performance-Differenz gegenüber dem Intel-Original kommen – was somit nach AMDs FSR ein weiteres interessantes, offenes Upscaling-Verfahren ergibt, welches den Spiele-Entwicklern zur Verfügung steht.
In der insgesamten Betrachtung von DG2-512 im Vergleich mit nVidias GA104 sowie AMDs Navi 22 erscheint die Zielsetzung, mittels DG2-512 die Performance einer GeForce RTX 3070 Ti zu erreichen, von der Technik-Seite her keineswegs aus der Luft gegriffen. DG2-512 bewegt sich grob im technischen Rahmen dieser Grafikchips, trotz aller Unterschiede und nicht vergleichbaren Punkte. Bedingung dafür sind allerdings zwei Punkte: Erstens muß die Intel-Hardware ihre Rohpower ähnlich gut auf die Straße bringen wie die Designs von AMD & nVidia – für Intel leichter gesagt als getan beim ersten Versuch von Desktop-Grafikkarten seit über 20 Jahren. Und zweitens dürfen am Ende nicht die Treiber alle Hardware-Erfolge zunichtemachen. Dies bedeutet, dass Intels Grafikkarten-Treiber sowohl robust als auch kompatibel zu allen Spielen sein müssen – und ihre Performance dann nicht nur unter den üblichen Benchmarks beweisen müssen, sondern auch in der Breite des Spiele-Angebots.