29

Gerüchteküche: nVidia "Blackwell" GB202-Chip mit 192 Shader-Cluster an einem 512-Bit-Speicherinterface geplant

Twitterer & Leaker Kopite7kimi hat die kürzlichen fernöstlichen Andeutungen zur Hardware von "Gaming-Blackwell" bestätigt sowie präzisiert: So soll der Consumer-Spitzenchip "GB202" derzeit mit einer Hardware-Konfiguration von 12x8 geplant sein, damit meinend die Anzahl der "Graphics Processing Cluster" (GPC) und 8 "Texture Processing Cluster" (TPC). Dies ergäbe für den gesamten GB202-Chip somit 96 TPCs – und insofern nVidia nichts am langjährigen Schema von "1 TPC = 2 SM" ändert, somit 192 Shader-Cluster insgesamt. Letzteres ist allerdings natürlich noch nicht ganz sicher, wegen des größeren internen Umbaus kann eine Änderung auch an dieser Stelle derzeit noch nicht gänzlich ausgeschlossen werden (ist also unwahrscheinlich, benötigt aber eine klare Bestätigung).

As I mentioned before, GA100 is 8*8, and GH100 is 8*9. GB100 will have a basic structure like 8*10. GB202 looks like 12*8.
Quelle:  Kopite7kimi @ Twitter am 28. September 2023
 
GB100 8192-bit, GB202 512-bit.
Quelle:  Kopite7kimi @ Twitter am 28. September 2023

Zumindest scheint der Twitterer nicht im Nebel zu stochern, denn derart klare Angaben zum eigentlichen Chip-Aufbau lassen auf Insider-Wissen aus sehr nVidia-nahen Quellen schließen. Davon abgesehen hat 'Kopite7kimi' schließlich auch eine bekannt gute Trefferquote, gerade was die Grundzüge von nVidias NextGen-Chips angeht (Ampere und Ada Lovelace wurden jeweils weitgehend korrekt vorhergesagt). Trotzdem sind alle diese Angaben unter Vorbehalt zu sehen: Das Design-Ende des GB202-Chips ist voraussichtlich noch nicht erreicht, ergo wird hier über einen Design-Entwurf seitens nVidia geredet – welchen nVidia natürlich jederzeit noch wieder ändern könnte. Sicherlich wird man die Architektur-Details nicht mehr umkippen, darin steckt zu viel Arbeit. Aber die reine Anzahl der jeweiligen Hardware-Einheiten ist eine vergleichsweise beliebige Größe, hier wären jederzeit Änderungen auf dem Weg zum Design-Ende und nachfolgenden Tape-Out zumindest möglich.

Daneben wurde nochmals das vorher schon von gleicher Quelle genannte 512bittige Speicherinterface für den GB202-Chip bestätigt. Nach wie vor erscheint dies als etwas zu breit, gerade angesichts der geringen Steigerung bei der Anzahl der Shader-Cluster und gleichzeitig der kommenden Verfügbarkeit von GDDR7-Speicher. Eine denkbare Auflösung hierzu wäre, dass nVidia dieses sehr breite Speicherinterface vielleicht nur im Profi-Bereich benötigt, denn dort wird Speicherbandbreite wegen der Nutzung als KI-Beschleuniger immer wichtiger (deswegen auch das Riesen-Speicherinterface des HPC-Chip GB100). Gar nicht unmöglich also, dass bei den reinen Gaming-Grafikkarten nVidia dieses 512-Bit-Interface nicht ausfährt, sondern bei 384 Bit bleibt oder halt 448 Bit benutzt. Zugleich wird in einem weiteren Tweet die erhebliche Arbeit innerhalb der Grafikchip-Einzelteile thematisiert:

If GB202 is developed from GH202, obviously GB202 will double the Raster Engines in a GPC, then double the ROPs in the GPC at least.
If Jensen uses RB+, we will see 4xROPs in a GPC.

Quelle:  Kopite7kimi @ Twitter am 28. September 2023

Somit sollen die GPCs eine verdoppelte Raster-Engine bekommen und gleichzeitig die Anzahl der "Raster Operation Units" (ROPs) geradezu explodieren. Eine ROP-Verdopplung gegenüber dem Stand des AD102-Chips ist damit faktisch schon klar, es könnte aber auch zu einer Vervierfachung kommen. Dies sind sicherlich nur Bruchstückchen von nVidias Arbeit am GB202-Chip bzw. der "Blackwell" Gaming-Architektur, aber es deutet stark auf eine Konzentration auf Verbesserungen der Chip-Einzelteile hin, anstatt einfach nur eine viel größere Anzahl an Shader-Clustern dranzustülpen. Weitere bedeutsame Arbeiten an der Architektur sollen gemäß früheren Gerüchten innerhalb der Shader-Cluster selber stattfinden, noch gibt es hierzu allerdings keine genauen Informationen.

Dennoch bleibt festzuhalten, dass der reine Hardware-Sprung mit nunmehr bestätigt +33% Shader-Clustern zwischen AD102 und GB202 nicht besonders prall aussieht. Bezogen auf die nominelle Rechenpower sind es dann wenigstens +53% (Hardware-Sprung x Taktraten-Sprung) – aber genau dies deutet schon das Problem an: Damit wird es schwer, den großen Performance-Sprung von Ada Lovelace erneut hinzulegen. Für die dort erreichten +72% Mehrperformance hatte nVidia immerhin +131% mehr Rohleistung zur Verfügung gestellt. Sicherlich werden alle Maßnahmen nVidias zur IPC-Steigerung ein besseres Verhältnis zwischen mehr Rohleistung und Mehrperformance bei Blackwell ermöglichen. Aber kann GB202 damit eine stärkere Mehrperformance als seinen Rohleistungssprung (wie gesagt +53%) erzwingen?

GeForce RTX 4090 AD102 (Vollausbau) GB202 (Vollausbau) Chip-Differenz
GPCs 11 12 angeblich 12 ±0
Shader-Cluster 128 144 angeblich 192 +33%
Chip-Takt nominell 2520 MHz, real ~2.7 GHz - angeblich ca. ~2.9 GHz +15%
Rechenpower nominell 83 TFlops, real 88 TFlops auf RTX4090-Takrate: nominell 93 TFlops, real 100 TFlops nominell ~143 TFlops +53%
ROPs 176 192 angeblich 384 oder 768 +100% oder +300%
Level2-Cache 72 MB 96 MB angeblich 128 MB +33%
Speicherinterface 384 Bit GDDR6X 384 Bit GDDR6X angeblich 512 Bit +33%
Speicherbandbreite 1008 GB/sec (21 Gbps GDDR6X @ 384 Bit) - angeblich 1536 GB/sec (mglw. 24 Gbps GDDR6(X) @ 512 Bit) +52%
Hinweis: Angaben zu noch nicht offiziell vorgestellter Hardware basierend auf Gerüchten & Annahmen

Dies ist auf dem einmal erreichten Niveau nicht gerade wahrscheinlich. Heutzutage wäre es bei Spitzen-Grafikchip schon ein gutklassiges Ergebnis, wenn die Mehrperformance überhaupt nur in der Nähe des Rohleistungs-Zuschlags kommt. Aber natürlich bleibt das Potential offen, dass nVidia hier alle überrascht und dass die internen Änderungen dafür sorgen, einen gewissen Knoten zu lösen und und somit dennoch eine stärkere Mehrperformance als von der Rohleistung scheinbar vorgegeben erreicht werden kann. Insofern ist nVidias GB202-Chip derzeit von der Performance-Prognose her eine gewisse Wundertüte: Konservativ von "Ada Lovelace" hochgerechnet, darf man (Chip-seitig) von ca. +30% Mehrperformance ausgehen. Ein erstklassiges Ergebnis würde hingegen jedes Stückchen mehr Rohleistung direkt in Mehrperformance umwandeln, dies ergäbe somit ca. +50%. Über noch mehr kann man träumen wie spekulieren, eine solide Grundlage hierfür gibt es allerdings (noch) nicht.

Als weitere Prognose-Erschwernis kommt noch hinzu, dass alle vorstehenden Betrachtungen rein auf Grafikchip-Seite vorgenommen wurden, sprich von AD102 zu GB202, jeweils im Vollausbau. Die konkreten Grafikkarten können andere Differenzen aufweisen und somit das Endergebnis noch im Rahmen von 5-10 Prozentpunkten beeinflussen. Dies könnte insbesondere dann passieren, wenn nVidia keine "GeForce RTX 4090 Ti" oder "Ada Titan" mehr auflegt, bei GB202-Grafikkarten dann aber näher an den Vollausbau herangeht. Eine "GeForce RTX 5090" mit rein angenommen 190 Shader-Clustern würde den Hardware-Abstand auf +48% anheben, zusammen mit der Taktraten-Differenz könnte der Rohleistungs-Unterschied in diesem hypothetischen Beispiel auf +70% steigen. Auf reiner Produkt-Ebene ist es also durchaus noch möglich, den nominell mittelprächtigen Hardware-Sprung in gewissen Teilen zu kaschieren.

    nVidia "GB202"

  • "Blackwell"-Architektur für Consumer
  • TSMC 3nm (wahrscheinlicher) oder 4nm
  • 12 Graphics Processing Cluster (GPC) mit jeweils 8 Texture Processing Cluster (TPC) und 16 "Streaming Multiprocessors" (SM) aka Shader-Clustern (= 192 Shader-Cluster insgesamt)
  • verdoppelte Raster-Engines pro GPC
  • möglicherweise verdoppelte ROPs pro Raster-Engines (= 384 oder 768 ROPs insgesamt)
  • 128 MB Level2-Cache
  • resultierende Grafikkarte: möglicherweise GeForce RTX 5090
  • Release: erstes Halbjahr 2025
  • Informationsstand: September 2023, somit noch vor Design-Ende und damit möglicherweise nicht die finale Hardware beschreibend

Stichwort Produkt-Ebene: Zu den weiteren Grafikchips der Blackwell-Familie (GB203, GB205, GB206 & GB207) läßt sich hieraus kaum etwas mitnehmen – bis auf dass jene alle internen Verbesserungen genauso erhalten werden. Deren konkrete Hardware-Konfigurationen sind aber vielleicht auch nicht mehr so wichtig wie früher noch, denn nVidia legt seine Produkt-Klassen inzwischen recht frei fest, sprich bindet nicht mehr eine bestimmte Produktklasse an einen bestimmten Grafikchip (wie früher die 60er GeForce an den xx6er Grafikchip). Wie die weiteren Grafikkarten der GeForce RTX 50 Serie aussehen werden, würde sich also selbst bei vorliegenden Daten aller Blackwell-Grafikchips nicht voraussehen lassen, dies bleibt die konkrete Produkt-Gestaltung bei nVidia abzuwarten.

Dafür muß die Blackwell-Architektur für Consumer erst einmal ihr Design-Ende erreichen, was derzeit aller Vermutung nach noch für einige Zeit nicht der Fall ist. Schließlich steht der Ada-Lovelace-Nachfolger erst für 2025 in nVidias Roadmap, damit muß der GB202-Chip erst Mitte 2024 zum Tape-Out gehen, die anderen GB20x-Chips dann nachfolgend. Mit dem Design-Ende könnte nVidia anfangen über die konkrete Produkt-Gestaltung nachzudenken, aber diese Arbeit dürfte erst dann an Fahrt aufnehmen, wenn das erste Silizium gebacken ist und man sich sicher ist, was das Chip-Design in der Praxis wirklich kann. Dies könnte im Herbst 2024 so weit sein, vorher gibt es eher nur wohlfeile Überlegungen. Und natürlich gilt selbst zu den vorgenannten Hardware-Daten: Vor dem tatsächlichen Design-Ende (voraussichtlich Frühling 2024) wäre an der Anzahl der Hardware-Einheiten alles noch änderbar.