Gerüchteküche: Korrigierte Hardware-Daten zu nVidias Ada-Lovelace-Generation, inkl. GPC, TPC und L2-Größen

Innerhalb von weniger als einem Tag haben sich neue, korrigierte und sogar deutlich umfangreicher Hardware-Spezifikationen zu den Grafikchips von nVidias Ada-Lovelace-Generation eingefunden. Augenscheinlich basierten die gestern offerierten Daten [1] auf einem früheren Design-Entwurf nVidias, wohingegen die neuen Hardware-Daten Teil des Leaks von nVidia-Dokumenten im Zuge des nVidia-Hacks [2] sind. Im Zuge dessen sprudelten die Informationen nur so: Zuerst hatte La Frite David @ Twitter [3] eine Gegenüberstellung der Shader-Cluster von Turing [4], Ampere [5] & Ada [6] gepostet, No one @ Twitter [7] ergänzte dies um Angaben zum Speicherinterface sowie Kopite7kimi @ Twitter [8] um Angaben zu GPCs und TPCs der Ada-Chips. Und während Harukaze5719 @ Twitter [9] ein User-erstelltes Block-Diagramm zum AD102-Chip basierend auf diesen Hardware-Daten zeigte, kam von Xino Assassin @ Twitter [10] der Hinweis auf deutlich größere Level2-Caches bei der Ada-Generation und letztlich von HXL @ Twitter [11] eine Aufstellung zu den Cache-Größen der einzelnen Ada-Chips.

	Hardware	FP32	Interface	L2-Cache	Speicher	Vorgänger
AD102	12 GPC, 72 TPC, 144 SM	18'432	384 Bit	96 MB	24 GB	GA102: 7 GPC, 84 SM @ 384 Bit, 6 MB L2
AD103	7 GPC, 42 TPC, 84 SM	10'752	256 Bit	64 MB	16 GB	GA103: 6 GPC, 60 SM @ 320 Bit, 4 MB L2
AD104	5 GPC, 30 TPC, 60 SM	7680	192 Bit	48 MB	12 GB	GA104: 6 GPC, 48 SM @ 256 Bit, 4 MB L2
AD106	3 GPC, 18 TPC, 36 SM	4608	128 Bit	32 MB	8 GB	GA106: 3 GPC, 30 SM @ 192 Bit, 3 MB L2
AD107	3 GPC, 12 TPC, 24 SM	3072	128 Bit	32 MB	8 GB	GA107: 2 GPC, 20 SM @ 128 Bit, 2 MB L2
Anmerkung: Angaben zu noch nicht vorgestellter Hardware basieren auf Gerüchten & Annahmen

Und damit ergibt sich ein schon recht detailliertes Bild zu den einzelnen Ada-Grafikchips, welches nunmehr auch feste Angaben zu den Raster-Engines (GPC, Graphics Processing Cluster), TPCs (Texture Processing Cluster), Speicherinterfaces und Level2-Caches beinhaltet. Gegenüber den gestern notierten Angaben gibt es dabei einige Verschiebungen bei der Anzahl der Shader-Cluster sowie bei den Speicherinterfaces – wobei letztere unterhalb des AD102-Chips sowieso nur eine Annahme darstellten. Die Veränderung bei der Anzahl der Shader-Cluster ist hingegen real – im doppelten Sinn, denn die gestern genannten Daten entstammen wohl einem frühen Entwurf zur Ada-Chipserie, sind also nicht direkt falsch (sondern "nur" unaktuell). Hiermit bekommt man allerdings einen seltenen Einblick in die Konzeptions-Phase beim Grafikchip-Entwickler, in welcher verschiedene Pläne zu einer neuen Chipserie aufgestellt, nachfolgend intern diskutiert, wieder verworfen oder verfeinert werden.

So hat nVidia mit dem augenscheinlich aktuellen Entwurf zur Ada-Chipserie durchaus an den Schwächen des früheren Entwurfs gearbeitet: Der übergroße Abstand zwischen AD104 und AD103 wurde geschlossen, gleichzeitig bekommt der AD104-Chip nunmehr eine deutlich bessere Hardware als der vorhergehende GA104-Chip (60 anstatt 48 Shader-Cluster). Die neue Ausgestaltung des "Ada" Chip-Portfolios erscheint deutlich runder – vielleicht mit Ausnahme des Hardware-Abstands zwischen AD103 und AD102, welcher doch einigermaßen groß geraten ist (immerhin +71% zwischen beiden Spitzen-Chips). An dieser Stelle könnten natürlich auch wirtschaftliche Überlegungen eine Rolle spielen, welche beim AD103 eher zählen als beim AD102-Chip – welcher nur für Spitzen-Grafikkarten zu dementsprechender Preislage verwendet wird und daher üblicherweise immer sein Geld einspielen wird. Kopite7kimi @ Twitter [8] nennt den AD102-Chip im übrigen mit einer Chipfläche von ~600mm², durchaus in der Größenklasse des GA102-Chips (628mm²).

	Ada: frühe Form		Ada: aktuelle Form
AD102	144 Shader-Cluster	➔	144 Shader-Cluster
AD103	96 Shader-Cluster	➔	84 Shader-Cluster
AD104	48 Shader-Cluster	➔	60 Shader-Cluster
AD106	32 Shader-Cluster	➔	36 Shader-Cluster
AD107	?	➔	24 Shader-Cluster
basierend auf den Angaben von Kopite7kimi [12] (frühe Form) und La Frite David [3] (aktuelle Form)

Wie den vorstehenden (neuen) Angaben zum Portfolio der Ada-Chips genauso zu entnehmen, geht nVidia bei der Ada-Generation neue Wege bezüglich Speicherinterface und Level2-Cache: Die Speicherinterfaces werden gegenüber der vorherigen Ampere-Generation fast durchgehend um eine Stufe kleiner, dafür legt nVidia den Level2-Cache hingegen überaus großzügig an. Faktisch kann man hier von nVidias Interpretation eines "Infinity Cache" sprechen, selbst die Cache-Größen sind ähnlich zu denjenigen der RDNA2-Chips [13]. Damit egalisiert nVidia die teilweise kleineren Speicherinterface bei gleichzeitig grob um den Faktor 2 wachsender Rohleistung (resultierend aus mehr Shader-Clustern sowie dem Taktratengewinn durch die 5nm-Fertigung). Wie gut nVidias größerer Level2-Cache wirkt, ist derzeit nicht wirklich zu ermessen, die nachfolgende Hochrechnung benutzt mangels besserer Maßgaben schlicht die von AMDs "Infinity Cache" bekannten Hitraten [14] zur Ermittlung der sich damit ergebenden effektiven Interface-Breiten.

L2-Hitraten	Interface & L2	FullHD/1080p	WQHD/1440p	4K/2160p
AD102	384 Bit & 96 MB	78% (=1745 Bit)	69% (=1238 Bit)	53% (=817 Bit)
AD103	256 Bit & 64 MB	72% (=914 Bit)	58% (=610 Bit)	41% (=434 Bit)
AD104	192 Bit & 48 MB	66% (=565 Bit)	49% (=376 Bit)	34% (=291 Bit)
AD106 & AD107	128 Bit & 32 MB	55% (=284 Bit)	38% (=206 Bit)	27% (=175 Bit)
L2-Hitraten kopiert von AMDs Infinity Cache [14], können bei nVidia abweichen!

Wie gesagt ist dies nur eine imperfekte Hochrechnung – welche letztlich nur demonstrieren soll, welchen gewaltigen Schritt nVidia bei der effektiven Speicherbandbreite seiner Ada-Grafikchips durch den hochgepumpten Level2-Cache machen kann. Denkbar, dass die realen Werte auf nVidia-Seite etwas niedriger ausfallen, denn bei AMD ist der "Infinity Cache" ein zusätzlicher Cache neben dem (kleinen) Level2-Cache, während bei nVidias Ada-Architektur diese Funktionalitäten komplett im (großen) Level2-Cache vereint werden. In jedem Fall kann man somit sagen, dass Speicherbandbreite kein Problem der Ada-Chips sein dürfte: Teilweise dürfte hier selbst Rohleistungs-normiert die gleiche (effektive) Speicherbandbreite pro TeraFlop FP32-Rechenleistung wie bei den Ampere-Chips anliegen – obwohl üblicherweise kein gleichförmiges Wachstum von Rechenleistung und Speicherbandbreite notwendig ist, letztere durchaus mit geringeren Zuwächsen auskommt.

Interessanterweise lassen sich anhand der Hardware-Ansetzung der Ada-Grafikchips dann sogar mehr (spekulative) Portfolio-Ausgestaltungen der GeForce RTX 40 Serie aufstellen, als mit den gestrigen (nunmehr unaktuellen) Hardware-Daten. Dies hängt an der stärkeren Gleichförmigkeit der Abstände zwischen den einzelnen Ada-Chips – welche nVidia mehr Möglichkeiten an die Hand geben, einzelne Grafikkarten der GeForce RTX 40 Serie an oben oder unten zu verschieben. Nachfolgend sind drei denkbare Portfolio-Ausgestaltungen notiert, welche natürlich keinen Anspruch auf Korrektheit haben oder irgendwie auf einem Leak basieren – es handelt sich rein nur um Gedankenspiele auf Basis der vorhandenen Hardware-Daten der Ada-Chips. Ausgangspunkt ist dabei generell der Gedanke, anfänglich nicht all zu viele Grafikkarten in den Markt zu schicken, möglichst viele denkbare "Ti"-Lösungen für einen eventuellen 2023er Grafikkarten-Refresh zurückzuhalten.

	Hardware	Portfolio-Idee #1	Portfolio-Idee #2	Portfolio-Idee #3
AD102	144 SM @ 384 Bit	RTX4090: ~142 SM @ 384 Bit, 24 GB RTX4080: ~116 SM @ 256/320 Bit, 16/20 GB	RTX4090: ~142 SM @ 384 Bit, 24 GB RTX4080Ti: ~116 SM @ 320 Bit, 20 GB	RTX4090: ~142 SM @ 384 Bit, 24 GB RTX4080Ti: ~116 SM @ 320 Bit, 20 GB
AD103	84 SM @ 256 Bit	RTX4070: ~82 SM @ 256 Bit, 16 GB RTX4060Ti: ~68 SM @ 192 Bit, 12 GB	RTX4080: ~82 SM @ 256 Bit, 16 GB RTX4070: ~68 SM @ 192/256 Bit, 12/16 GB	RTX4080: ~82 SM @ 256 Bit, 16 GB RTX4070Ti: ~68 SM @ 192/256 Bit, 12/16 GB
AD104	60 SM @ 192 Bit	RTX4060: ~58 SM @ 192 Bit, 12 GB RTX4050Ti: ~46 SM @ 128 Bit, 8 GB	RTX4060Ti: ~58 SM @ 192 Bit, 12 GB RTX4060: ~46 SM @ 192 Bit, 12 GB	RTX4070: ~58 SM @ 192 Bit, 12 GB RTX4060: ~46 SM @ 192 Bit, 12 GB
AD106	36 SM @ 128 Bit	RTX4050: ~34 SM @ 128 Bit, 8 GB	RTX4050Ti: ~34 SM @ 128 Bit, 8 GB RTX4050: ~24 SM @ 128 Bit, 8 GB	RTX4050Ti: ~34 SM @ 128 Bit, 8 GB RTX4050: ~24 SM @ 128 Bit, 8 GB
AD107	24 SM @ 128 Bit	möglicherweise nur für Mobile-Zwecke eingesetzt
Anmerkung: Rein spekulative Ausgestaltungen des GeForce RTX 40 Portfolios!

Dem kommt die Portfolio-Idee #1 durch den (vorläufigen) Verzicht auf 4070Ti & 4080Ti am nächsten. Daneben liegen deren Vorteile darin, dass alle Ada-Lösungen gleich oder mehr Speicher als ihre Ampere-Vorgänger haben und dass es zu jedem von den größeren Grafikchips zwei Grafikkarten gibt (eine nahezu Vollausbau, eine Salvage). Der Nachteil der Portfolio-Idee #1 besteht dann jedoch darin, dass hierfür GeForce RTX 4060 & 4070 zum jeweils größeren Grafikchip (gegenüber früheren nVidia-Generationen) rutschen müssen, insbesondere die GeForce RTX 4070 würde hiermit ungewöhnlich stark ausfallen. Die Portfolio-Ideen #2 und #3 gehen dieses "Problem" an: Bei Idee #2 wird die GeForce RTX 4080 auf den AD103-Chip verschoben, wofür eine GeForce RTX 4080 Ti als Salvage-Ausführung zum AD102-Chip notwendig wird. Bei Idee #3 wird zusätzlich noch eine GeForce RTX 4070 Ti ins Spiel gebracht, womit die GeForce RTX 4070 dann wieder beim AD104-Chip landet. Dies ist aus Sicht der reinen Grafikkarten der kleinste denkbar Ansatz für die Ada-Generation.

Allerdings spielt die Zuordnung der Grafikkarten-Namen zu den einzelnen Chip-Ausführungen so lange keine besondere Rolle, wie nicht auch deren jeweilige Preispunkte bekannt sind. Sprich: Eine GeForce RTX 4070 auf AD103-Basis (wie in Idee #1) mag sich herausragend anhören – verliert aber sehr viel, wenn dann letztlich ein Preispunkt aufgerufen wird, welcher eher zur GeForce RTX 4080 passt. Letztlich kann sich die Rolle der einzelnen Grafikkarten innerhalb der Ada-Generation nicht nur anhand deren Hardware-Ansetzung bewegen – sondern auch am aufgestellten Preispunkt bzw. der Stellung im Preisgefüge. Etwaige Schlüsse, irgendeine der hiermit prognostizierten Ada-Grafikkarten würde besonders stark gegenüber der jeweiligen Vorgänger-Lösung zulegen, sind ohne Wissen zum jeweiligen Preis-Unterschied dann doch voreilig. Die drei vorgestellten Portfolio-Ideen legen somit auch nahe, dass trotz der vorhandenen Chip-Daten noch gar nichts festes zu den Ada-Grafikkarten gesagt werden kann: Eine GeForce RTX 4070 könnte mit 58 Shader-Clustern an einem 192-Bit-Interface antreten – oder auch mit 82 Shader-Clustern an einem 256-Bit-Interface.

Letztlich handelt es sich hierbei um Festlegungen, welche nVidia selber sicherlich noch lange nicht final festgemacht hat. Bei nVidia dürfte man sich derzeit grob in der Tape-Out-Phase befinden, wo also das Chipdesign abgeschlossen ist und die Entwürfe der ersten Ada-Chips zu Chipfertiger TSMC für eine erste Silizium-Belichtung gehen. Kommen die ersten Chargen an Testchips von TSMC zurück, gehen selbige durch eine mehrmonatige Validierungs-Phase, in welcher der Grafikchip auf Funktionalität, Zuverlässigkeit und natürlich auch Taktbarkeit geprüft wird. Erst mittels letzterer Information wird man sich bei nVidia an die finale Festsetzung der einzelnen Ada-Grafikkarten sowie deren jeweiliger Hardware-Konfiguration machen. Dies dürfte grob zur Jahresmitte 2022 passieren – und bis dahin kann man auch bei nVidia noch mit solcherart oder anderen Portfolio-Ideen spielen. Belastbare Leaks zur finalen Hardware-Konfigurationen der einzelnen GeForce RTX 40 Grafikkarten sind somit kaum vor dem Hochsommer zu erwarten.

nVidia "Ada" Architektur

benannt nach "Ada Lovelace [15]"
Zielsetzung: Gaming-Grafikkarten
Grafikchips: AD102, AD103, AD104, AD106, AD107 & AD10B (letzterer wohl nur für Tegra)
5nm-Fertigung von TSMC
keine grundsätzlich gegenüber "Ampere" abweichende Grafikchip-Architektur
deutlich größere Level2-Caches (im Größenrahmen des "Infinity Cache" von RDNA2)
deutlich höhere Taktraten durch den Wechsel zu Chipfertiger TSMC
Verkaufsname: GeForce RTX 40 Serie
Release: Ada-Start zu erwarten im September 2022, die komplette Grafikkarten-Serie dürfte dann bis Anfang 2023 ausgebreitet werden