2

Gerüchteküche: Korrigierte Hardware-Daten zu nVidias Ada-Lovelace-Generation, inkl. GPC, TPC und L2-Größen

Innerhalb von weniger als einem Tag haben sich neue, korrigierte und sogar deutlich umfangreicher Hardware-Spezifikationen zu den Grafikchips von nVidias Ada-Lovelace-Generation eingefunden. Augenscheinlich basierten die gestern offerierten Daten auf einem früheren Design-Entwurf nVidias, wohingegen die neuen Hardware-Daten Teil des Leaks von nVidia-Dokumenten im Zuge des nVidia-Hacks sind. Im Zuge dessen sprudelten die Informationen nur so: Zuerst hatte La Frite David @ Twitter eine Gegenüberstellung der Shader-Cluster von Turing, Ampere & Ada gepostet, No one @ Twitter ergänzte dies um Angaben zum Speicherinterface sowie Kopite7kimi @ Twitter um Angaben zu GPCs und TPCs der Ada-Chips. Und während Harukaze5719 @ Twitter ein User-erstelltes Block-Diagramm zum AD102-Chip basierend auf diesen Hardware-Daten zeigte, kam von Xino Assassin @ Twitter der Hinweis auf deutlich größere Level2-Caches bei der Ada-Generation und letztlich von HXL @ Twitter eine Aufstellung zu den Cache-Größen der einzelnen Ada-Chips.

Hardware FP32 Interface L2-Cache Speicher Vorgänger
AD102 12 GPC, 72 TPC, 144 SM 18'432 384 Bit 96 MB 24 GB GA102: 7 GPC, 84 SM @ 384 Bit, 6 MB L2
AD103 7 GPC, 42 TPC, 84 SM 10'752 256 Bit 64 MB 16 GB GA103: 6 GPC, 60 SM @ 320 Bit, 4 MB L2
AD104 5 GPC, 30 TPC, 60 SM 7680 192 Bit 48 MB 12 GB GA104: 6 GPC, 48 SM @ 256 Bit, 4 MB L2
AD106 3 GPC, 18 TPC, 36 SM 4608 128 Bit 32 MB 8 GB GA106: 3 GPC, 30 SM @ 192 Bit, 3 MB L2
AD107 3 GPC, 12 TPC, 24 SM 3072 128 Bit 32 MB 8 GB GA107: 2 GPC, 20 SM @ 128 Bit, 2 MB L2
Anmerkung: Angaben zu noch nicht vorgestellter Hardware basieren auf Gerüchten & Annahmen

Und damit ergibt sich ein schon recht detailliertes Bild zu den einzelnen Ada-Grafikchips, welches nunmehr auch feste Angaben zu den Raster-Engines (GPC, Graphics Processing Cluster), TPCs (Texture Processing Cluster), Speicherinterfaces und Level2-Caches beinhaltet. Gegenüber den gestern notierten Angaben gibt es dabei einige Verschiebungen bei der Anzahl der Shader-Cluster sowie bei den Speicherinterfaces – wobei letztere unterhalb des AD102-Chips sowieso nur eine Annahme darstellten. Die Veränderung bei der Anzahl der Shader-Cluster ist hingegen real – im doppelten Sinn, denn die gestern genannten Daten entstammen wohl einem frühen Entwurf zur Ada-Chipserie, sind also nicht direkt falsch (sondern "nur" unaktuell). Hiermit bekommt man allerdings einen seltenen Einblick in die Konzeptions-Phase beim Grafikchip-Entwickler, in welcher verschiedene Pläne zu einer neuen Chipserie aufgestellt, nachfolgend intern diskutiert, wieder verworfen oder verfeinert werden.

So hat nVidia mit dem augenscheinlich aktuellen Entwurf zur Ada-Chipserie durchaus an den Schwächen des früheren Entwurfs gearbeitet: Der übergroße Abstand zwischen AD104 und AD103 wurde geschlossen, gleichzeitig bekommt der AD104-Chip nunmehr eine deutlich bessere Hardware als der vorhergehende GA104-Chip (60 anstatt 48 Shader-Cluster). Die neue Ausgestaltung des "Ada" Chip-Portfolios erscheint deutlich runder – vielleicht mit Ausnahme des Hardware-Abstands zwischen AD103 und AD102, welcher doch einigermaßen groß geraten ist (immerhin +71% zwischen beiden Spitzen-Chips). An dieser Stelle könnten natürlich auch wirtschaftliche Überlegungen eine Rolle spielen, welche beim AD103 eher zählen als beim AD102-Chip – welcher nur für Spitzen-Grafikkarten zu dementsprechender Preislage verwendet wird und daher üblicherweise immer sein Geld einspielen wird. Kopite7kimi @ Twitter nennt den AD102-Chip im übrigen mit einer Chipfläche von ~600mm², durchaus in der Größenklasse des GA102-Chips (628mm²).

Ada: frühe Form Ada: aktuelle Form
AD102 144 Shader-Cluster 144 Shader-Cluster
AD103 96 Shader-Cluster 84 Shader-Cluster
AD104 48 Shader-Cluster 60 Shader-Cluster
AD106 32 Shader-Cluster 36 Shader-Cluster
AD107 ? 24 Shader-Cluster
basierend auf den Angaben von Kopite7kimi (frühe Form) und La Frite David (aktuelle Form)

Wie den vorstehenden (neuen) Angaben zum Portfolio der Ada-Chips genauso zu entnehmen, geht nVidia bei der Ada-Generation neue Wege bezüglich Speicherinterface und Level2-Cache: Die Speicherinterfaces werden gegenüber der vorherigen Ampere-Generation fast durchgehend um eine Stufe kleiner, dafür legt nVidia den Level2-Cache hingegen überaus großzügig an. Faktisch kann man hier von nVidias Interpretation eines "Infinity Cache" sprechen, selbst die Cache-Größen sind ähnlich zu denjenigen der RDNA2-Chips. Damit egalisiert nVidia die teilweise kleineren Speicherinterface bei gleichzeitig grob um den Faktor 2 wachsender Rohleistung (resultierend aus mehr Shader-Clustern sowie dem Taktratengewinn durch die 5nm-Fertigung). Wie gut nVidias größerer Level2-Cache wirkt, ist derzeit nicht wirklich zu ermessen, die nachfolgende Hochrechnung benutzt mangels besserer Maßgaben schlicht die von AMDs "Infinity Cache" bekannten Hitraten zur Ermittlung der sich damit ergebenden effektiven Interface-Breiten.

L2-Hitraten Interface & L2 FullHD/1080p WQHD/1440p 4K/2160p
AD102 384 Bit & 96 MB 78%  (=1745 Bit) 69%  (=1238 Bit) 53%  (=817 Bit)
AD103 256 Bit & 64 MB 72%  (=914 Bit) 58%  (=610 Bit) 41%  (=434 Bit)
AD104 192 Bit & 48 MB 66%  (=565 Bit) 49%  (=376 Bit) 34%  (=291 Bit)
AD106 & AD107 128 Bit & 32 MB 55%  (=284 Bit) 38%  (=206 Bit) 27%  (=175 Bit)
L2-Hitraten kopiert von AMDs Infinity Cache, können bei nVidia abweichen!

Wie gesagt ist dies nur eine imperfekte Hochrechnung – welche letztlich nur demonstrieren soll, welchen gewaltigen Schritt nVidia bei der effektiven Speicherbandbreite seiner Ada-Grafikchips durch den hochgepumpten Level2-Cache machen kann. Denkbar, dass die realen Werte auf nVidia-Seite etwas niedriger ausfallen, denn bei AMD ist der "Infinity Cache" ein zusätzlicher Cache neben dem (kleinen) Level2-Cache, während bei nVidias Ada-Architektur diese Funktionalitäten komplett im (großen) Level2-Cache vereint werden. In jedem Fall kann man somit sagen, dass Speicherbandbreite kein Problem der Ada-Chips sein dürfte: Teilweise dürfte hier selbst Rohleistungs-normiert die gleiche (effektive) Speicherbandbreite pro TeraFlop FP32-Rechenleistung wie bei den Ampere-Chips anliegen – obwohl üblicherweise kein gleichförmiges Wachstum von Rechenleistung und Speicherbandbreite notwendig ist, letztere durchaus mit geringeren Zuwächsen auskommt.

Interessanterweise lassen sich anhand der Hardware-Ansetzung der Ada-Grafikchips dann sogar mehr (spekulative) Portfolio-Ausgestaltungen der GeForce RTX 40 Serie aufstellen, als mit den gestrigen (nunmehr unaktuellen) Hardware-Daten. Dies hängt an der stärkeren Gleichförmigkeit der Abstände zwischen den einzelnen Ada-Chips – welche nVidia mehr Möglichkeiten an die Hand geben, einzelne Grafikkarten der GeForce RTX 40 Serie an oben oder unten zu verschieben. Nachfolgend sind drei denkbare Portfolio-Ausgestaltungen notiert, welche natürlich keinen Anspruch auf Korrektheit haben oder irgendwie auf einem Leak basieren – es handelt sich rein nur um Gedankenspiele auf Basis der vorhandenen Hardware-Daten der Ada-Chips. Ausgangspunkt ist dabei generell der Gedanke, anfänglich nicht all zu viele Grafikkarten in den Markt zu schicken, möglichst viele denkbare "Ti"-Lösungen für einen eventuellen 2023er Grafikkarten-Refresh zurückzuhalten.

Hardware Portfolio-Idee #1 Portfolio-Idee #2 Portfolio-Idee #3
AD102 144 SM @ 384 Bit RTX4090:  ~142 SM @ 384 Bit, 24 GB
RTX4080:  ~116 SM @ 256/320 Bit, 16/20 GB
RTX4090:  ~142 SM @ 384 Bit, 24 GB
RTX4080Ti:  ~116 SM @ 320 Bit, 20 GB
RTX4090:  ~142 SM @ 384 Bit, 24 GB
RTX4080Ti:  ~116 SM @ 320 Bit, 20 GB
AD103 84 SM @ 256 Bit RTX4070:  ~82 SM @ 256 Bit, 16 GB
RTX4060Ti:  ~68 SM @ 192 Bit, 12 GB
RTX4080:  ~82 SM @ 256 Bit, 16 GB
RTX4070:  ~68 SM @ 192/256 Bit, 12/16 GB
RTX4080:  ~82 SM @ 256 Bit, 16 GB
RTX4070Ti:  ~68 SM @ 192/256 Bit, 12/16 GB
AD104 60 SM @ 192 Bit RTX4060:  ~58 SM @ 192 Bit, 12 GB
RTX4050Ti:  ~46 SM @ 128 Bit, 8 GB
RTX4060Ti:  ~58 SM @ 192 Bit, 12 GB
RTX4060:  ~46 SM @ 192 Bit, 12 GB
RTX4070:  ~58 SM @ 192 Bit, 12 GB
RTX4060:  ~46 SM @ 192 Bit, 12 GB
AD106 36 SM @ 128 Bit RTX4050:  ~34 SM @ 128 Bit, 8 GB RTX4050Ti:  ~34 SM @ 128 Bit, 8 GB
RTX4050:  ~24 SM @ 128 Bit, 8 GB
RTX4050Ti:  ~34 SM @ 128 Bit, 8 GB
RTX4050:  ~24 SM @ 128 Bit, 8 GB
AD107 24 SM @ 128 Bit möglicherweise nur für Mobile-Zwecke eingesetzt
Anmerkung: Rein spekulative Ausgestaltungen des GeForce RTX 40 Portfolios!

Dem kommt die Portfolio-Idee #1 durch den (vorläufigen) Verzicht auf 4070Ti & 4080Ti am nächsten. Daneben liegen deren Vorteile darin, dass alle Ada-Lösungen gleich oder mehr Speicher als ihre Ampere-Vorgänger haben und dass es zu jedem von den größeren Grafikchips zwei Grafikkarten gibt (eine nahezu Vollausbau, eine Salvage). Der Nachteil der Portfolio-Idee #1 besteht dann jedoch darin, dass hierfür GeForce RTX 4060 & 4070 zum jeweils größeren Grafikchip (gegenüber früheren nVidia-Generationen) rutschen müssen, insbesondere die GeForce RTX 4070 würde hiermit ungewöhnlich stark ausfallen. Die Portfolio-Ideen #2 und #3 gehen dieses "Problem" an: Bei Idee #2 wird die GeForce RTX 4080 auf den AD103-Chip verschoben, wofür eine GeForce RTX 4080 Ti als Salvage-Ausführung zum AD102-Chip notwendig wird. Bei Idee #3 wird zusätzlich noch eine GeForce RTX 4070 Ti ins Spiel gebracht, womit die GeForce RTX 4070 dann wieder beim AD104-Chip landet. Dies ist aus Sicht der reinen Grafikkarten der kleinste denkbar Ansatz für die Ada-Generation.

Allerdings spielt die Zuordnung der Grafikkarten-Namen zu den einzelnen Chip-Ausführungen so lange keine besondere Rolle, wie nicht auch deren jeweilige Preispunkte bekannt sind. Sprich: Eine GeForce RTX 4070 auf AD103-Basis (wie in Idee #1) mag sich herausragend anhören – verliert aber sehr viel, wenn dann letztlich ein Preispunkt aufgerufen wird, welcher eher zur GeForce RTX 4080 passt. Letztlich kann sich die Rolle der einzelnen Grafikkarten innerhalb der Ada-Generation nicht nur anhand deren Hardware-Ansetzung bewegen – sondern auch am aufgestellten Preispunkt bzw. der Stellung im Preisgefüge. Etwaige Schlüsse, irgendeine der hiermit prognostizierten Ada-Grafikkarten würde besonders stark gegenüber der jeweiligen Vorgänger-Lösung zulegen, sind ohne Wissen zum jeweiligen Preis-Unterschied dann doch voreilig. Die drei vorgestellten Portfolio-Ideen legen somit auch nahe, dass trotz der vorhandenen Chip-Daten noch gar nichts festes zu den Ada-Grafikkarten gesagt werden kann: Eine GeForce RTX 4070 könnte mit 58 Shader-Clustern an einem 192-Bit-Interface antreten – oder auch mit 82 Shader-Clustern an einem 256-Bit-Interface.

Letztlich handelt es sich hierbei um Festlegungen, welche nVidia selber sicherlich noch lange nicht final festgemacht hat. Bei nVidia dürfte man sich derzeit grob in der Tape-Out-Phase befinden, wo also das Chipdesign abgeschlossen ist und die Entwürfe der ersten Ada-Chips zu Chipfertiger TSMC für eine erste Silizium-Belichtung gehen. Kommen die ersten Chargen an Testchips von TSMC zurück, gehen selbige durch eine mehrmonatige Validierungs-Phase, in welcher der Grafikchip auf Funktionalität, Zuverlässigkeit und natürlich auch Taktbarkeit geprüft wird. Erst mittels letzterer Information wird man sich bei nVidia an die finale Festsetzung der einzelnen Ada-Grafikkarten sowie deren jeweiliger Hardware-Konfiguration machen. Dies dürfte grob zur Jahresmitte 2022 passieren – und bis dahin kann man auch bei nVidia noch mit solcherart oder anderen Portfolio-Ideen spielen. Belastbare Leaks zur finalen Hardware-Konfigurationen der einzelnen GeForce RTX 40 Grafikkarten sind somit kaum vor dem Hochsommer zu erwarten.

    nVidia "Ada" Architektur

  • benannt nach "Ada Lovelace"
  • Zielsetzung: Gaming-Grafikkarten
  • Grafikchips: AD102, AD103, AD104, AD106, AD107 & AD10B (letzterer wohl nur für Tegra)
  • 5nm-Fertigung von TSMC
  • keine grundsätzlich gegenüber "Ampere" abweichende Grafikchip-Architektur
  • deutlich größere Level2-Caches (im Größenrahmen des "Infinity Cache" von RDNA2)
  • deutlich höhere Taktraten durch den Wechsel zu Chipfertiger TSMC
  • Verkaufsname: GeForce RTX 40 Serie
  • Release: Ada-Start zu erwarten im September 2022, die komplette Grafikkarten-Serie dürfte dann bis Anfang 2023 ausgebreitet werden