nVidia gibt Details zum AD102-Chip und zur Ada-Lovelace-Architektur bekannt

nVidia hat auf einem "RTX 40 Editors Day" genauere Details zur Ada-Lovelace-Architektur, dem AD102-Chip sowie zum "Founders Edition" Design der GeForce RTX 4090 bekanntgegeben. Leider nichts gesagt wurde zu den weiteren Ada-Grafikchips, wobei wenigstens die Verwendung von "AD103" für die GeForce RTX 4080 16GB sowie von "AD104" für die GeForce RTX 4080 12GB bestätigt wurde. Allerdings gab es einige Klarstellungen zu den noch offenen Fragen rund um die neue Grafikchip-Architektur – bei welcher sich im Gegensatz zur offiziellen RTX40-Vorstellung auch deutliche Abweichungen zu den bisher in der Gerüchteküche gehandelten Architektur-Daten ergeben. In dieser wurde die Ada-Lovelace-Architektur seit einiger Zeit mit einer deutlichen Veränderung der Shader-Cluster hin zu zusätzlichen INT32-Einheiten gehandelt, woraus sich ein beachtbarer Performance-Boost ergeben sollte.

nVidia AD102

"Ada Lovelace" Architektur
76,3 Mrd. Transistoren auf 608,5mm² Chipfläche unter der "4N"-Fertigung von TSMC
12 Raster-Engines (GPC) mit jeweils 6 Texture Processing Cluster (TPC) und 12 "Streaming Multiprocessors" (SM) aka Shader-Clustern (= 144 Shader-Cluster insgesamt)
ein Shader-Cluster enthält jeweils 64 FP32-Einheiten, 64 FP32/INT32-Einheiten, 4 Textureneinheiten (TMUs), vier Tensor-Cores v4, einen RT-Core v3 und 128 kByte Level1-Cache
ergibt für den gesamten Grafikchip 12 Raster-Engines, 72 TPC, 144 Shader-Cluster, 9216 FP32-Einheiten, 9216 FP32/INT32-Einheiten (somit 18'432 FP32-Einheiten, wenn man keine INT32-Berechnungen laufen hat), 576 Textureneinheiten (TMUs), 576 Tensor-Cores v4 und 144 RT-Core v3
16 ROPs pro Raster-Engine (= 192 ROPs insgesamt)
96 MB Level2-Cache
384 Bit GDDR6X-Speicherinterface
PCI Express 4.0 x16 Interface
kein NVLink mehr
rBAR, DLSS3, HDMI 2.1a, DisplayPort 1.4a

Dies wurde allerdings falsch von der Gerüchteküche vorhergesagt, laut den nVidia-Unterlagen ist der grundsätzliche Aufbau der Shader-Cluster zwischen "Ampere" und "Ada Lovelace" identisch. Auch andere Details der Gerüchteküche waren (leider) nicht korrekt: So gibt es weder mehr Level1-Cache pro Shader-Cluster noch gleich 32 ROPs pro Raster-Engine – es sind vielmehr 16 ROPs pro Raster-Engine, wie schon bei der Ampere-Architektur. Die ROP-Menge steigt somit nur mit der Anzahl der Raster-Engines (GPC) – was beim AD102-Chip stattlich aussieht, aber bei den anderen Ada-Chips dann natürlich deutlich kleiner ausfällt. Nachdem es anfänglich nur die nebulöse Aussage von "deutlich mehr Level2-Cache" zu eben selbigen gab, konnte inzwischen nachträglich bestätigt werden, dass der AD102-Chip im Vollausbau 96 MB Level2-Cache trägt – von welchem bei der GeForce RTX 4090 dann 72 MB freigeschalten sind.

Der relevante Punkt der ganzen Ausführungen liegt darin, dass "Ada Lovelace" somit der durch die Gerüchteküche vermutete deutliche Performance-Schwung aus den Shader-Clustern heraus fehlt. Eine Architektur mit (weiteren) 64 INT32-Einheiten kann für eine Durchsatz-Steigerung um immerhin +36% stehen, selbst nach Abzug üblicher Skalierungs-Verluste wäre dies ein gewichtiger Faktor in der Performance-Rechnung gewesen. In diesem Punkt hat sich die Gerüchteküche (leider) maßgeblich geirrt – nachdem "Ada Lovelace" in vielen anderen Punkten hingegen nahezu perfekt vorhergesagt wurde. nVidia hat dafür andere Punkte zur Steigerung des Rechen-Durchsatzes angebracht, aber keiner davon ist derart griffig wie extra INT32-Einheiten (welche natürlich auch Transistoren kosten würden, nVidia hat dies sicherlich exakt durchkalkuliert).

Letztlich passt dieses "fehlende" Feature jedoch um einiges besser zu den sich nunmehr langsam aus dem Nebel von nVidias Marketing lichtenden Performance-Punkten. Jene sehen ohne den Einfluß von DLSS die GeForce RTX 4090 derzeit um ca. 50-70% vor einer GeForce RTX 3090 Ti. Gegenüber gleich drei Performance-Bringern in Form von höherer Anzahl an Shader-Clustern (+52%), höherem Takt (nominell +36%) und stärkeren Shader-Clustern (+36% mehr Durchsatz angenommen extra INT32-Einheiten) erscheint dies trotz großzügigem Abzugs von Skalierungs-Effekten als deutlich zu mager. Rechnet man hingegen ohne den stärkeren Shader-Clustern allein mit höherer Anzahl selbiger plus dem Mehrtakt, dann ist ein solches Performance-Ergebnis zumindest denkbar – wenngleich es gern auch etwas höher ausfallen kann, der Rohleistungs-Gewinn zwischen GeForce RTX 3090 Ti und 4090 liegt immerhin bei +106%.

nVidia AD102 Blockschalt-Diagramm

nVidia "Ada Lovelace" Shader-Cluster

Zumindest wird die Performance-Kalkulation zwischen den GeForce RTX 30 & RTX 40 Serien ohne große Veränderungen in den Shader-Clustern somit einfacher: Zu beachten sind Anzahl der Shader-Cluster sowie die Taktraten, bezüglich letzterer kann man auch einfach mit der Faustregel "+45%" rechnen (trifft auf Vergleiche zur GeForce RTX 3090 Ti wegen deren hochgesetztem Boost-Takt nicht ganz zu). Da der Gewinn an Shader-Clustern bei den kleineren Ada-Lovelace-Modellen immer mehr abnimmt, bleibt im breiten Portfolio mehr oder weniger alles am Mehrtakt der Ada-Lovelace-Generation hängen. Aus technologischer Sicht erweist sich "Ada Lovelace" damit eher denn als "Ampere auf Stereoiden": Rein Architektur-seitig wurde vergleichsweise wenig verändert, dafür gibt es an der Spitze ein klar breiteres Design samt den Feature-Erweiterungen. Als hauptsächlicher Performance-Bringer quer durchs Chip-Portfolio agiert somit "nur" der durch den Wechsel auf Chipfertiger TSMC gewonnene Mehrtakt.

	Hardware	FP32	Interface	L2-Cache	Speicher	PCI Express	Vorgänger
AD102	12 GPC, 144 SM, 192 ROPs	18'432	384 Bit	96 MB	24 GB	PCIe 4.0 x16	GA102: 7 GPC, 84 SM @ 384 Bit, 6 MB L2
AD103	7 GPC, 84 SM, 112 ROPs	10'752	256 Bit	64 MB	16 GB	PCIe 4.0 x16	GA103: 6 GPC, 60 SM @ 320 Bit, 4 MB L2
AD104	5 GPC, 60 SM, 80 ROPs	7680	192 Bit	48 MB	12 GB	PCIe 4.0 x16	GA104: 6 GPC, 48 SM @ 256 Bit, 4 MB L2
AD106	3 GPC, 36 SM, 48 ROPs,	4608	128 Bit	32 MB	8 GB	PCIe 4.0 x8	GA106: 3 GPC, 30 SM @ 192 Bit, 3 MB L2
AD107	3 GPC, 24 SM, 32 ROPs	3072	128 Bit	32 MB	8 GB	PCIe 4.0 x8	GA107: 2 GPC, 20 SM @ 128 Bit, 2 MB L2
Anmerkung: Angaben zu noch nicht vorgestellter Hardware basieren auf Gerüchten & Annahmen

Nachtrag vom 22. September 2022

Um es gegenüber der kürzlichen Meldung mit den Chip-Daten zum AD102-Chip nochmals plastischer zu machen: Die wichtigen Innereien der Shader-Cluster der Ada-Lovelace-Architektur sehen exakt so wie bei der Ampere-Architektur aus. Die vorherige Gerüchteküche war zu diesem Punkt schlicht falsch – wobei sich jenes Gerücht auch nicht all zu weit verbreitete, da für die meisten wohl zu technisch angelegt. Wichtig ist der Punkt, dass sich hieran auch die ganz hohen Performance-Prognosen ergeben haben – welche somit obsolet sind. Gerechnet von GeForce RTX 3090 auf 4090 wäre inklusive einer Shader-Cluster-Verbesserung durchaus die dreifache effektive Rohleistung möglich gewesen. Die Nichtexistenz jener Shader-Cluster-Verbesserung drückt die Rohleistungs-Verbesserung (in diesem konkreten Beispiel) auf +120%.

	Pascal	Turing	Ampere	ADA (Gerücht)	ADA (real)
reine FP32-Einheiten pro SM	128	64	64	angeblich 128	64
reine INT32-Einheiten pro SM	-	64	-	angeblich 64	-
Dual-Use FP32/INT32-Einheiten pro SM	-	-	64	angeblich keine	64
insgesamte FP32-Einheiten pro SM	128	64	128	angeblich 128	128
insgesamte INT32-Einheiten pro SM	-	64	64	angeblich 64	64
insgesamte FP32/INT32-Einheiten pro SM	128	128	128	angeblich 192	128
Level1-Cache pro SM	96 kB	96 kB	128 kB	angeblich 192	128 kB

Ähnlich hohe Werte sind jedoch generell nur zwischen GA102 und AD102 erreichbar, da es nur dort eine deutlich höhere Anzahl an Shader-Clustern gibt (+71%). Bei den kleineren Ada-Grafikchips geht es deutlich nach unten, jene sind zumeist weit entfernt von +120% mehr nomineller Rohleistung – einfach weil die Anzahl der Shader-Cluster nicht derart stark steigt wie beim AD102-Chip. Nachfolgende Tabelle soll dies wiedergeben, ist aber natürlich inperfekt, da nur auf dem Vollausbau der jeweiligen Grafikchips sowie mit einheitlicher Taktrate kalkuliert. In der Praxis können die realen Grafikkarten wegen unterschiedlich starker Beschneidungen sowie hier und da höherer/niedriger Taktrate durchaus beachtbar von diesen Werten abweichen. Das zugrundliegende Prinzip sollte allerdings erkennbar sein: Den vollen Ada-Schub kann es nur an der Leistungsspitze geben, da die Hardware-Differenz mit den kleineren Ada-Chips immer geringer ausfällt.

Ampere	Ada Lovelace	Rohleistungsgewinn (Vollausbau)
GA102 (84 SM)	AD102 (144 SM)	+71% SM, +47% Takt = +151%
GA103 (60 SM)	AD103 (84 SM)	+40% SM, +47% Takt = +106%
GA104 (48 SM)	AD104 (60 SM)	+25% SM, +47% Takt = +84%
GA106 (30 SM)	AD106 (36 SM)	+20% SM, +47% Takt = +76%
GA107 (20 SM)	AD107 (24 SM)	+20% SM, +47% Takt = +76%
benutzte Taktraten für diese Beispielrechnung: 1.7 (Ampere) & 2.5 GHz (Ada)

Bookmark/Search this post with:

Hauptlinks

Suchen

Navigation

nVidia gibt Details zum AD102-Chip und zur Ada-Lovelace-Architektur bekannt

Verwandte News

Translate

3DCenter unterstützen

Neueste Blogeinträge

Neue Forenbeiträge

Neue Beiträge im Forum Technologie

Uns folgen

Partner

Umfrage