19

Gerüchteküche: nVidias "Blackwell" NextGen Gaming-Spitzenchip mit nur maßvoll mehr Shader-Clustern

Vom bekannten Nutzer "Panzerlied" im chinesischen Chiphell-Forum kommen erste Informationen zur Hardware-Gestaltung von nVidias NextGen-Lösung im Bereich von Gaming-Grafikkarten. Danach sollen jene um +50% mehr "Skalierung" tragen, was wohl die Anzahl der Shader-Cluster meint, +52% mehr Speicherbandbreite, +78% mehr Level2-Cache, +15% mehr Chiptakt sowie die doppelte ROP-Anzahl (letzteres in einem der nachfolgenden Postings geäußert). All dies ist bezogen auf die GeForce RTX 4090, nicht auf den AD102-Chip im Vollausbau. Leider fehlt der exakte Bezug auf der Gegenseite, sprich ob mit diesen Daten eine konkrete GeForce RTX 5090 oder der wahrscheinlich zugrundeliegende GB202-Chip in dessen Vollausbau gemeint ist.

50% Steigerung der Skalierung
52% Steigerung der Speicherbandbreite
78% Steigerung des Cachespeichers
15% Steigerung der Taktfrequenz
ROPs verdoppeln sich erneut
(insgesamt) 1,7-fache Steigerung, richtig?
Dies ist ein Vergleich zur 4090, nicht zum AD102.

Quelle:  Panzerlied @ Chiphell-Forum am 18. September 2023 (maschinell unterstützte Übersetzung ins Deutsche)

Regulär dürfte nVidia allerdings derzeit erst einmal bei der Konzeption des reinen Grafikchips sein, etwaige Grafikkarten-Varianten werden sicherlich erst angedacht, wenn das Grafikchip-Design bereits steht. Sicher ist diese Auslegung natürlich nicht, nVidia könnte intern durchaus auch schon hochrechnen, wie eine hypothetische GeForce RTX 5090 auf GB202-Basis aussieht. Demzufolge kann man diese genannten Daten derzeit nur mit gewisser Spannbreite betrachten: Beziehen sich die Daten auf den Vergleich von GeForce RTX 4090 zum vollen GB202-Chip, so sind es Chip-seitig mitnichten +50% Shader-Cluster, sondern sogar nur noch +33% mehr Shader-Cluster. Bezieht sich der Vergleich hingegen auf GeForce RTX 4090 zu GeForce RTX 5090, könnten es Chip-seitig ebenfalls +50% sein, jener Wert wäre dann aber noch nicht sicher.

GeForce RTX 4090 AD102 Vollausbau nVidia NextGen
Shader-Cluster 128 SM 144 SM +50% = 192 SM
Chip-Takt nominell 2520 MHz, real ~2.7 GHz denkbarerweise bis zu 2.85 GHz +15% = nominell ~2.9 GHz
Rechenpower nominell 83 TFlops, real 88 TFlops nominell ≤93 TFlops, real 100-105 TFlops nominell ~143 TFlops
ROPs 176 192 +100% = 352
Level2-Cache 72 MB 96 MB +78% = 128 MB
Speicherbandbreite 1008 GB/sec (21 Gbps GDDR6X @ 384 Bit) - +52% = 1532 GB/sec (möglw. 32 Gbps GDDR7 @ 384 Bit)
Hinweis: Angaben zu noch nicht offiziell vorgestellter Hardware basierend auf Gerüchten & Annahmen

Damit ergeben sich allerdings sowieso nur eher mittelprächtige Steigerungen der reinen Hardware zwischen den Spitzen-Lösungen von "Ada Lovelace" und "Blackwell". In der Vorgänger-Generation gab es an dieser Stelle zwischen den Spitzen-Chips immerhin +71% mehr Shader-Cluster (GA102 → AD102), hinzukommend auch eine erhebliche Taktraten-Verbesserung (grob +50%). Bei der nachfolgenden Blackwell-Generation scheint beides eine ganze Nummer kleiner auszufallen: Das Hardware-Plus liegt eher bei +33-50%, das Taktraten-Plus bei noch geringeren +15%. Rechnet man die angebenen +50% mehr Shader-Cluster samt 15% Mehrtakt zusammen, kommt im übrigen die von "Panzerlied" notierte (insgesamte) "1,7-fache Steigerung" heraus, welche somit augenscheinlich den reinen Rohleistungs-Gewinn (und nicht den real Performance-Gewinn) beziffert.

Wie bekannt und üblich, muß man an dieser Stelle gerade bei Spitzen-Grafikkarten mit erheblichen Abschlägen von Rohleistungsgewinn zu Mehrperformance rechnen: Zwischen GeForce RTX 3090 und 4090 steht ca. die 2,3fache Rohleistung (zu Real-Taktraten), während die reale Performance unter der 4K-Auflösung eher "nur" das 1,7fache erreicht. Selbiges Schema auf die hier offierten Hardware-Daten zu nVidias NextGen-Lösung appliziert, würden sich aus 1,7facher Rohleistung schnell nur +40% Mehrperformance ergeben. Natürlich besteht hierbei Spielraum, mit viel Bandbreite und mehr Caches kann man dieses Resultat positiv beeinflussen. Zudem soll nVidia auch an einer Umarbeitung der Shader-Cluster bei der "Blackwell"-Architektur arbeiten, dies könnte jenes Ergebnis verbessern und wieder näher an den Idealwert von +70% heranschieben.

Dass nVidia an diesen Architektur-Änderungen arbeitet sowie dass die Anzahl der Hardware-Einheiten nicht besonders steigt, wurde zudem von Twitterer Kopite7kimi bestätigt. Jener Tweet wurde wohl ca. eine Stunde vor dem Posting im Chiphell-Forum abgesetzt, schließt sich also nicht einfach an diese Chiphell-Meldung an, sondern bietet eher sogar eine unabhängige Bestätigung von deren Grund-Annahme – dass es (zumindest beim Spitzen-Chip) bei Blackwell nicht deutlich mehr Hardware-Einheiten gibt. Insofern muß man vorerst wohl mit dieser Information leben, auch wenn Grafikkarten-Enthusiasten sicherlich gern einen größeren Sprung an der Leistungsspitze und (endlich wieder) viel größere Sprünge bei den kleineren Grafikchips der Blackwell-Generation sehen würden. Letzteres kann natürlich durchaus noch kommen, denn wenn "Ada Lovelace" eines gelehrt hat, dann dass man nicht vom Hardware-Sprung des Spitzen-Chips auf das restliche Portfolio schließen sollte.

Although the number of units (like GPCs or TPCs) in Blackwell will not increase significantly, there are significant changes in its unit structure.
Quelle:  Kopite7kimi @ Twitter am 18. September 2023

Im generellen Maßstab könnte sich nVidia einen mittelprächtigen Hardware- und Performance-Sprung bei jener kommenden Blackwell-Generation bzw. der daraus wohl entstehenden GeForce RTX 50 Serie sicherlich leisten: So hat AMD wohl seine eigenen Spitzen-Chips der nächsten Chip-Generation gestrichen, von daher hat nVidia vollkommen freie Bahn. Doch selbst wenn nVidia nicht mit diesem Umstand kalkuliert, hat man mit der aktuellen Grafikkarten-Generation bereits einen erheblichen Performance-Vorsprung mit einem noch nicht voll ausgereiztem AD102-Chip aufgebaut, womit AMDs mit der nächsten Generation schon erheblich mehr aufbieten müsste als nVidia, um überhaupt einen Gleichstand zu erreichen. Dies läßt nVidia automatisch die Möglichkeit offen, den eigenen Hardware-Sprung etwas behutsamer anzusetzen, denn über den einmal erreichten Vorsprung ist die Konkurrenzfähigkeit trotzdem gesichert.

Und sicherlich kommen hier für nVidia auch Kosten/Gewinn-Überlegungen ins Spiel. 3nm-Wafer werden nochmals teurer, zudem ist (aus Sicht nVidias) jedes Stück Chip-Fläche derzeit besser bei den Gewinn-trächtigeren HPC/AI-Beschleunigern aufgehoben. Ein kleinerer Hardware-Sprung bedeutet potentiell geringere Chipflächen (als mit der aktuellen Ada-Lovelace-Generation) und somit einen nicht so stark ansteigenden Kostenfaktor. Spätestens dann, wenn nVidia sieht, dass man sowieso nicht mehr (an Performance-Steigerung) bieten muß, dürfte dieses Kostenargument schlagend sein. Und da nunmehr von AMD gar keine Gegenwehr mehr im HighEnd-Segment zu erwarten ist, dürfte der Anreiz für nVidia, etwas besonders gutes zu bieten, nochmehr südwärts gehen. Insofern wäre es wenig verwunderlich, wenn diese Gerüchte im groben am Ende zutreffen und die nachfolgende GeForce RTX 50 Serie keine großen Performance-Gewinne (an der Leistungsspitze) mit sich bringt.

Wie dies bei den kleineren und mittleren Grafikkarten-Varianten aussieht, ist damit natürlich nicht gesagt. Hier hat nVidia einiges wieder gut zu machen nach der bei den kleineren und mittleren Grafikkarten schwachen GeForce RTX 40 Serie, ergo könnte man bei der GeForce RTX 50 Serie da eventuell besser goutierte Produkte aus den vorhandenen Grafikchips schnitzen. Diese Messe läßt sich allerdings bei weitem noch nicht lesen, das nVidia derzeit erst einmal die einzelnen Blackwell-Grafikchips spezifiziert – und diese Arbeit vermutlich erst Anfang 2024 in einem Design-Ende mit anschließendem Tape-Out resultieren wird. Zudem läßt sich derzeit genauso noch nicht sagen, welche internen Verbesserungen die Blackwell-Architektur im Gaming-Bereich mit sich bringt bzw. ob hierbei etwas dabei ist, was eventuell über den nominell geringen Hardware-Sprung zwischen AD102 und GB202 hinwegsehen läßt. Mit der Zeit wird sich dieser Nebel sicherlich lüften lassen, dieser Leak ist gerade erst einmal der Anfang der Reise zur im Jahr 2025 zu erwartenden Blackwell-Generation im Gaming-Bereich.

Nachtrag vom 19. September 2023

Da zum Fall von nVidias "Blackwell"-Architektur schon wieder Informationen zu HPC- und Gaming-Chips miteinander vermischt bzw. durcheinander gebracht werden, hiermit zur Klarstellung: Wie seit Jahren üblich, wird nVidia zwei getrennte GPU-Architekturen pflegen, auch wenn in diesem Fall der Codename wieder einmal derselbe ist: "HPC-Blackwell" setzt also die aktuelle "Hopper" HPC-Architektur fort, während "Gaming-Blackwell" die aktuelle "Ada Lovelace" Gaming-Architektur fortsetzt. Bis auf den gleichen Codenamen ist da allerdings wenig gleich: Viele interne Bauteile werden gemeinsam designt, aber schon bei der Zusammenfügung zu Bauteil-Gruppen ergeben sich beträchtliche Unterschiede: So sehen die Shader-Cluster von Ada Lovelace und Hopper zuerst nicht unähnlich aus. Der genauere Blick zeigt allerdings, dass Hopper jegliche RayTracing-Kerne fehlt, dafür aber FP64-Fähigkeiten und eine deutlich höhere Tensor-Power mit an Bord sind.

Design Chips Fertigung
"HPC-Blackwell" Multi-Chip (MCM) GB102, GB100 (vermtl. 2x GB102) 3nm TSMC
"Gaming-Blackwell" monolithisch GB207, GB206, GB205, GB203, GB202 vermtl. 3nm TSMC
Hinweis: Angaben zu noch nicht offiziell vorgestellter Hardware basierend auf Gerüchten & Annahmen

Anders formuliert nutzt nVidia hier bei den Grund-Einheiten durchaus Synergie-Effekte, um nicht alles doppelt machen zu müssen. Aber wenn es zur konkreten Ausführung kommt, dann unterscheidet sich die verbaute Hardware doch schon erheblich – bis hin zum Punkt, dass beim GH100-Chip wegen weiterer Einsparungen in der Rendering-Pipeline nur 2 der 144 Shader-Cluster wirklich fähig sind, reguläre Spiele-Grafik zu erzeugen. Bei Blackwell wird dies wiederum schwerer auseinanderzuhalten sein, der gemeinsame Codename lädt zu Mißverständnissen ein. Hier kann es gut und gerne passieren, dass demnächst Wunder-Daten zu "Blackwell" gemeldet werden, welche sich aber real auf HPC-Blackwell beziehen und damit eben nicht auf Gaming-Blackwell applizierbar sind. Wenigstens bei den Chip-Codenamen gibt es eine klare Trennung: GB10x is HPC-Blackwell, während GB20x dann Gaming-Blackwell ist.

Daneben soll noch einmal explizit darauf hingewiesen werden, dass der 1,7fache Sprung bei Gaming-Blackwell> (von der GeForce RTX 4090 ausgehend), welchen Chiphell-Nutzer "Panzerlied" derart angegeben hatte, wirklich nur den Rohleistungs-Sprung angibt. Hierzu kann man sich selber überzeugen, indem man die angegebenen Shader-Cluster (1,5fach) mit dem Mehrtakt (1,15fach) multipliziert – dies ergibt genau jenen 1,7fachen Sprung. Und ein Rohleistungssprung muß eben keineswegs in einem gleichartigen Performancesprung enden, gerade bei heutigen Spitzen-Grafikchips ist da eigentlich immer mit deutlichen Abschlägen zu kalkulieren. Im Fall der GeForce RTX 4090 gibt es beispielsweise eine Rohleistung vom 2,3fachen zur GeForce RTX 3090, die Performance zwischen diesen beiden Karten steigt aber gewöhnlich nur auf das 1,7fache. Dies auf Gaming-Blackwell interpoliert, würde sich eine reale Mehrperformance von nur ca. +40% ergeben.

Rohleistungs-Sprung reale Mehrperformance
GeForce RTX 3090GeForce RTX 4090 +131% +72%
GeForce RTX 4090Gaming-Blackwell angeblich ca. +70% ?
Hinweis: Angaben zu noch nicht offiziell vorgestellter Hardware basierend auf Gerüchten & Annahmen