Innerhalb von weniger als einem Tag haben sich neue, korrigierte und sogar deutlich umfangreicher Hardware-Spezifikationen zu den Grafikchips von nVidias Ada-Lovelace-Generation eingefunden. Augenscheinlich basierten die gestern offerierten Daten [1] auf einem früheren Design-Entwurf nVidias, wohingegen die neuen Hardware-Daten Teil des Leaks von nVidia-Dokumenten im Zuge des nVidia-Hacks [2] sind. Im Zuge dessen sprudelten die Informationen nur so: Zuerst hatte La Frite David @ Twitter [3] eine Gegenüberstellung der Shader-Cluster von Turing [4], Ampere [5] & Ada [6] gepostet, No one @ Twitter [7] ergänzte dies um Angaben zum Speicherinterface sowie Kopite7kimi @ Twitter [8] um Angaben zu GPCs und TPCs der Ada-Chips. Und während Harukaze5719 @ Twitter [9] ein User-erstelltes Block-Diagramm zum AD102-Chip basierend auf diesen Hardware-Daten zeigte, kam von Xino Assassin @ Twitter [10] der Hinweis auf deutlich größere Level2-Caches bei der Ada-Generation und letztlich von HXL @ Twitter [11] eine Aufstellung zu den Cache-Größen der einzelnen Ada-Chips.
Hardware | FP32 | Interface | L2-Cache | Speicher | Vorgänger | |
---|---|---|---|---|---|---|
AD102 | 12 GPC, 72 TPC, 144 SM | 18'432 | 384 Bit | 96 MB | 24 GB | GA102: 7 GPC, 84 SM @ 384 Bit, 6 MB L2 |
AD103 | 7 GPC, 42 TPC, 84 SM | 10'752 | 256 Bit | 64 MB | 16 GB | GA103: 6 GPC, 60 SM @ 320 Bit, 4 MB L2 |
AD104 | 5 GPC, 30 TPC, 60 SM | 7680 | 192 Bit | 48 MB | 12 GB | GA104: 6 GPC, 48 SM @ 256 Bit, 4 MB L2 |
AD106 | 3 GPC, 18 TPC, 36 SM | 4608 | 128 Bit | 32 MB | 8 GB | GA106: 3 GPC, 30 SM @ 192 Bit, 3 MB L2 |
AD107 | 3 GPC, 12 TPC, 24 SM | 3072 | 128 Bit | 32 MB | 8 GB | GA107: 2 GPC, 20 SM @ 128 Bit, 2 MB L2 |
Anmerkung: Angaben zu noch nicht vorgestellter Hardware basieren auf Gerüchten & Annahmen |
Und damit ergibt sich ein schon recht detailliertes Bild zu den einzelnen Ada-Grafikchips, welches nunmehr auch feste Angaben zu den Raster-Engines (GPC, Graphics Processing Cluster), TPCs (Texture Processing Cluster), Speicherinterfaces und Level2-Caches beinhaltet. Gegenüber den gestern notierten Angaben gibt es dabei einige Verschiebungen bei der Anzahl der Shader-Cluster sowie bei den Speicherinterfaces – wobei letztere unterhalb des AD102-Chips sowieso nur eine Annahme darstellten. Die Veränderung bei der Anzahl der Shader-Cluster ist hingegen real – im doppelten Sinn, denn die gestern genannten Daten entstammen wohl einem frühen Entwurf zur Ada-Chipserie, sind also nicht direkt falsch (sondern "nur" unaktuell). Hiermit bekommt man allerdings einen seltenen Einblick in die Konzeptions-Phase beim Grafikchip-Entwickler, in welcher verschiedene Pläne zu einer neuen Chipserie aufgestellt, nachfolgend intern diskutiert, wieder verworfen oder verfeinert werden.
So hat nVidia mit dem augenscheinlich aktuellen Entwurf zur Ada-Chipserie durchaus an den Schwächen des früheren Entwurfs gearbeitet: Der übergroße Abstand zwischen AD104 und AD103 wurde geschlossen, gleichzeitig bekommt der AD104-Chip nunmehr eine deutlich bessere Hardware als der vorhergehende GA104-Chip (60 anstatt 48 Shader-Cluster). Die neue Ausgestaltung des "Ada" Chip-Portfolios erscheint deutlich runder – vielleicht mit Ausnahme des Hardware-Abstands zwischen AD103 und AD102, welcher doch einigermaßen groß geraten ist (immerhin +71% zwischen beiden Spitzen-Chips). An dieser Stelle könnten natürlich auch wirtschaftliche Überlegungen eine Rolle spielen, welche beim AD103 eher zählen als beim AD102-Chip – welcher nur für Spitzen-Grafikkarten zu dementsprechender Preislage verwendet wird und daher üblicherweise immer sein Geld einspielen wird. Kopite7kimi @ Twitter [8] nennt den AD102-Chip im übrigen mit einer Chipfläche von ~600mm², durchaus in der Größenklasse des GA102-Chips (628mm²).
Ada: frühe Form | Ada: aktuelle Form | ||
---|---|---|---|
AD102 | 144 Shader-Cluster | ➔ | 144 Shader-Cluster |
AD103 | 96 Shader-Cluster | ➔ | 84 Shader-Cluster |
AD104 | 48 Shader-Cluster | ➔ | 60 Shader-Cluster |
AD106 | 32 Shader-Cluster | ➔ | 36 Shader-Cluster |
AD107 | ? | ➔ | 24 Shader-Cluster |
basierend auf den Angaben von Kopite7kimi [12] (frühe Form) und La Frite David [3] (aktuelle Form) |
Wie den vorstehenden (neuen) Angaben zum Portfolio der Ada-Chips genauso zu entnehmen, geht nVidia bei der Ada-Generation neue Wege bezüglich Speicherinterface und Level2-Cache: Die Speicherinterfaces werden gegenüber der vorherigen Ampere-Generation fast durchgehend um eine Stufe kleiner, dafür legt nVidia den Level2-Cache hingegen überaus großzügig an. Faktisch kann man hier von nVidias Interpretation eines "Infinity Cache" sprechen, selbst die Cache-Größen sind ähnlich zu denjenigen der RDNA2-Chips [13]. Damit egalisiert nVidia die teilweise kleineren Speicherinterface bei gleichzeitig grob um den Faktor 2 wachsender Rohleistung (resultierend aus mehr Shader-Clustern sowie dem Taktratengewinn durch die 5nm-Fertigung). Wie gut nVidias größerer Level2-Cache wirkt, ist derzeit nicht wirklich zu ermessen, die nachfolgende Hochrechnung benutzt mangels besserer Maßgaben schlicht die von AMDs "Infinity Cache" bekannten Hitraten [14] zur Ermittlung der sich damit ergebenden effektiven Interface-Breiten.
L2-Hitraten | Interface & L2 | FullHD/1080p | WQHD/1440p | 4K/2160p |
---|---|---|---|---|
AD102 | 384 Bit & 96 MB | 78% (=1745 Bit) | 69% (=1238 Bit) | 53% (=817 Bit) |
AD103 | 256 Bit & 64 MB | 72% (=914 Bit) | 58% (=610 Bit) | 41% (=434 Bit) |
AD104 | 192 Bit & 48 MB | 66% (=565 Bit) | 49% (=376 Bit) | 34% (=291 Bit) |
AD106 & AD107 | 128 Bit & 32 MB | 55% (=284 Bit) | 38% (=206 Bit) | 27% (=175 Bit) |
L2-Hitraten kopiert von AMDs Infinity Cache [14], können bei nVidia abweichen! |
Wie gesagt ist dies nur eine imperfekte Hochrechnung – welche letztlich nur demonstrieren soll, welchen gewaltigen Schritt nVidia bei der effektiven Speicherbandbreite seiner Ada-Grafikchips durch den hochgepumpten Level2-Cache machen kann. Denkbar, dass die realen Werte auf nVidia-Seite etwas niedriger ausfallen, denn bei AMD ist der "Infinity Cache" ein zusätzlicher Cache neben dem (kleinen) Level2-Cache, während bei nVidias Ada-Architektur diese Funktionalitäten komplett im (großen) Level2-Cache vereint werden. In jedem Fall kann man somit sagen, dass Speicherbandbreite kein Problem der Ada-Chips sein dürfte: Teilweise dürfte hier selbst Rohleistungs-normiert die gleiche (effektive) Speicherbandbreite pro TeraFlop FP32-Rechenleistung wie bei den Ampere-Chips anliegen – obwohl üblicherweise kein gleichförmiges Wachstum von Rechenleistung und Speicherbandbreite notwendig ist, letztere durchaus mit geringeren Zuwächsen auskommt.
Interessanterweise lassen sich anhand der Hardware-Ansetzung der Ada-Grafikchips dann sogar mehr (spekulative) Portfolio-Ausgestaltungen der GeForce RTX 40 Serie aufstellen, als mit den gestrigen (nunmehr unaktuellen) Hardware-Daten. Dies hängt an der stärkeren Gleichförmigkeit der Abstände zwischen den einzelnen Ada-Chips – welche nVidia mehr Möglichkeiten an die Hand geben, einzelne Grafikkarten der GeForce RTX 40 Serie an oben oder unten zu verschieben. Nachfolgend sind drei denkbare Portfolio-Ausgestaltungen notiert, welche natürlich keinen Anspruch auf Korrektheit haben oder irgendwie auf einem Leak basieren – es handelt sich rein nur um Gedankenspiele auf Basis der vorhandenen Hardware-Daten der Ada-Chips. Ausgangspunkt ist dabei generell der Gedanke, anfänglich nicht all zu viele Grafikkarten in den Markt zu schicken, möglichst viele denkbare "Ti"-Lösungen für einen eventuellen 2023er Grafikkarten-Refresh zurückzuhalten.
Hardware | Portfolio-Idee #1 | Portfolio-Idee #2 | Portfolio-Idee #3 | |
---|---|---|---|---|
AD102 | 144 SM @ 384 Bit | RTX4090: ~142 SM @ 384 Bit, 24 GB RTX4080: ~116 SM @ 256/320 Bit, 16/20 GB |
RTX4090: ~142 SM @ 384 Bit, 24 GB RTX4080Ti: ~116 SM @ 320 Bit, 20 GB |
RTX4090: ~142 SM @ 384 Bit, 24 GB RTX4080Ti: ~116 SM @ 320 Bit, 20 GB |
AD103 | 84 SM @ 256 Bit | RTX4070: ~82 SM @ 256 Bit, 16 GB RTX4060Ti: ~68 SM @ 192 Bit, 12 GB |
RTX4080: ~82 SM @ 256 Bit, 16 GB RTX4070: ~68 SM @ 192/256 Bit, 12/16 GB |
RTX4080: ~82 SM @ 256 Bit, 16 GB RTX4070Ti: ~68 SM @ 192/256 Bit, 12/16 GB |
AD104 | 60 SM @ 192 Bit | RTX4060: ~58 SM @ 192 Bit, 12 GB RTX4050Ti: ~46 SM @ 128 Bit, 8 GB |
RTX4060Ti: ~58 SM @ 192 Bit, 12 GB RTX4060: ~46 SM @ 192 Bit, 12 GB |
RTX4070: ~58 SM @ 192 Bit, 12 GB RTX4060: ~46 SM @ 192 Bit, 12 GB |
AD106 | 36 SM @ 128 Bit | RTX4050: ~34 SM @ 128 Bit, 8 GB | RTX4050Ti: ~34 SM @ 128 Bit, 8 GB RTX4050: ~24 SM @ 128 Bit, 8 GB |
RTX4050Ti: ~34 SM @ 128 Bit, 8 GB RTX4050: ~24 SM @ 128 Bit, 8 GB |
AD107 | 24 SM @ 128 Bit | möglicherweise nur für Mobile-Zwecke eingesetzt | ||
Anmerkung: Rein spekulative Ausgestaltungen des GeForce RTX 40 Portfolios! |
Dem kommt die Portfolio-Idee #1 durch den (vorläufigen) Verzicht auf 4070Ti & 4080Ti am nächsten. Daneben liegen deren Vorteile darin, dass alle Ada-Lösungen gleich oder mehr Speicher als ihre Ampere-Vorgänger haben und dass es zu jedem von den größeren Grafikchips zwei Grafikkarten gibt (eine nahezu Vollausbau, eine Salvage). Der Nachteil der Portfolio-Idee #1 besteht dann jedoch darin, dass hierfür GeForce RTX 4060 & 4070 zum jeweils größeren Grafikchip (gegenüber früheren nVidia-Generationen) rutschen müssen, insbesondere die GeForce RTX 4070 würde hiermit ungewöhnlich stark ausfallen. Die Portfolio-Ideen #2 und #3 gehen dieses "Problem" an: Bei Idee #2 wird die GeForce RTX 4080 auf den AD103-Chip verschoben, wofür eine GeForce RTX 4080 Ti als Salvage-Ausführung zum AD102-Chip notwendig wird. Bei Idee #3 wird zusätzlich noch eine GeForce RTX 4070 Ti ins Spiel gebracht, womit die GeForce RTX 4070 dann wieder beim AD104-Chip landet. Dies ist aus Sicht der reinen Grafikkarten der kleinste denkbar Ansatz für die Ada-Generation.
Allerdings spielt die Zuordnung der Grafikkarten-Namen zu den einzelnen Chip-Ausführungen so lange keine besondere Rolle, wie nicht auch deren jeweilige Preispunkte bekannt sind. Sprich: Eine GeForce RTX 4070 auf AD103-Basis (wie in Idee #1) mag sich herausragend anhören – verliert aber sehr viel, wenn dann letztlich ein Preispunkt aufgerufen wird, welcher eher zur GeForce RTX 4080 passt. Letztlich kann sich die Rolle der einzelnen Grafikkarten innerhalb der Ada-Generation nicht nur anhand deren Hardware-Ansetzung bewegen – sondern auch am aufgestellten Preispunkt bzw. der Stellung im Preisgefüge. Etwaige Schlüsse, irgendeine der hiermit prognostizierten Ada-Grafikkarten würde besonders stark gegenüber der jeweiligen Vorgänger-Lösung zulegen, sind ohne Wissen zum jeweiligen Preis-Unterschied dann doch voreilig. Die drei vorgestellten Portfolio-Ideen legen somit auch nahe, dass trotz der vorhandenen Chip-Daten noch gar nichts festes zu den Ada-Grafikkarten gesagt werden kann: Eine GeForce RTX 4070 könnte mit 58 Shader-Clustern an einem 192-Bit-Interface antreten – oder auch mit 82 Shader-Clustern an einem 256-Bit-Interface.
Letztlich handelt es sich hierbei um Festlegungen, welche nVidia selber sicherlich noch lange nicht final festgemacht hat. Bei nVidia dürfte man sich derzeit grob in der Tape-Out-Phase befinden, wo also das Chipdesign abgeschlossen ist und die Entwürfe der ersten Ada-Chips zu Chipfertiger TSMC für eine erste Silizium-Belichtung gehen. Kommen die ersten Chargen an Testchips von TSMC zurück, gehen selbige durch eine mehrmonatige Validierungs-Phase, in welcher der Grafikchip auf Funktionalität, Zuverlässigkeit und natürlich auch Taktbarkeit geprüft wird. Erst mittels letzterer Information wird man sich bei nVidia an die finale Festsetzung der einzelnen Ada-Grafikkarten sowie deren jeweiliger Hardware-Konfiguration machen. Dies dürfte grob zur Jahresmitte 2022 passieren – und bis dahin kann man auch bei nVidia noch mit solcherart oder anderen Portfolio-Ideen spielen. Belastbare Leaks zur finalen Hardware-Konfigurationen der einzelnen GeForce RTX 40 Grafikkarten sind somit kaum vor dem Hochsommer zu erwarten.
|
Verweise:
[1] http://www.3dcenter.org/news/geruechtekueche-moegliche-hardware-daten-zu-nvidias-ada-lovelace-grafikchips-aufgetaucht
[2] https://www.heise.de/news/Nvidia-Cyber-Attacke-mit-unbekannten-Folgen-aber-Hersteller-schlaegt-zurueck-6527471.html
[3] https://twitter.com/davideneco25320/status/1498735616346972164
[4] http://www.3dcenter.org/news/nvidia-turing
[5] http://www.3dcenter.org/news/nvidia-ampere
[6] http://www.3dcenter.org/news/nvidia-ada
[7] https://twitter.com/no_one180/status/1498823056696950786
[8] https://twitter.com/kopite7kimi/status/1498860027754729477
[9] https://twitter.com/harukaze5719/status/1498923650950778880
[10] https://twitter.com/xinoassassin1/status/1498850983052341249
[11] https://twitter.com/9550pro/status/1498873569614315522
[12] https://twitter.com/kopite7kimi/status/1498642578052612096
[13] http://www.3dcenter.org/news/amd-rdna2
[14] http://www.3dcenter.org/news/hardware-und-nachrichten-links-des-31-mai-2021
[15] https://de.wikipedia.org/wiki/Ada_Lovelace