28

nVidias GA100-Chip zeigt sich mit 6912 und 7552 Shader-Einheiten

Twitterer Rogame hat Eintragungen in der Benchmark-Datenbank von Geekbench 5 entdeckt, welche klar auf eine neue, sehr kraftvolle nVidia-Grafiklösung hindeuten. Mit einmal 6912 und einmal 7552 Shader-Einheiten (gemessen an der internen Angabe von 108 bzw. 118 Shader-Clustern) dürfte es sich um Grafiklösungen auf Basis von nVidias GA100-Chip aus der anstehenden Ampere-Generation handeln. Beide Werte deuten stark darauf hin, das die Gerüchte von letztem Jahr über einen GA100-Chip mit gleich 8192 Shader-Einheiten samt 6144 HBM-Speicherinterface wohl doch korrekt wären. Schließlich ergeben die zu den zwei Geekbench-Werten angegebenen Speicherbestückungen von 24 und 48 GB auch nur mit diesem Speicherinterface einen Sinn, mittels des 4096bittigen Speicherinterface des Vorgänger-Chips GV100 aus der Volta-Generation sind diese Speicherbestückungen schwerlich (mit auch wirklich hergestellten HBM2-Chips) erreichbar.

Technik GB4 OpenCL
nVidia GA100
Vorserien-Modell @ 7552 SE & 1.11 GHz
Ampere GA100, 7552 SE @ 6144 Bit SI, 24 GB HBM2 184'096
nVidia GA100
Vorserien-Modell @ 6912 SE @ 1.01 GHz
Ampere GA100, 6912 SE @ 6144 Bit SI, 48 GB HBM2 141'654
nVidia Tesla V100 Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2 154'606
nVidia Titan RTX Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6 132'804
gemäß den Ausführungen von Rogame @ Twitter

Dass keine GA100-Ausführung mit den vollen 8192 Shader-Einheiten getestet wurde, ist hingegen vollkommen normal, denn bei diesen supergroßen HPC-Chips wird inzwischen kein Vollausbau mehr in real verfügbare Produkte überführt – auch die Tesla V100 trat "nur" mit 5120 Shader-Einheiten an, obwohl der zugrundeliegende GV100-Chip eigentlich 5376 Shader-Einheiten trägt. Die gezeigten OpenCL-Benchmarks sind derzeit genauso wenig gut zu werten, da beide GA100-Grafiklösngen wohl noch im Vorserien-Status und mit augenscheinlich sehr niedrigen Taktraten unterwegs waren. So schlägt derzeit auch eine Tesla V100 (mit 5120 Shader-Einheiten) die GA100-Vorserienlösung mit gleich 6912 Shader-Einheiten, wahrscheinlich eben wegen der Taktraten-Differenz. Sobald die Serien-Reife erreicht ist, dürften die GA100-basierten Lösungen dann gemäß ihrer Anzahl der Shader-Einheiten (sowie einem eventuellen Mehrtakt) skalieren, mehr ist unter OpenCL dann auch kaum erreichbar.

    nVidia Ampere "GA100"

  • HPC/Profi-Lösung der Ampere-Generation
  • angeblich um die 800mm² Chipfläche (letztes Gerücht: 826mm²)
  • 7nm+ (EUV) Fertigung von TSMC
  • 8 Raster-Engines (GPC) mit jeweils 16 Shader-Cluster (SM) samt jeweils 8 Texturen-Cluster (TPC)
  • jeder Shader-Cluster enthält höchstwahrscheinlich (wie bisher) 64 Shader-Einheiten (SP) samt 4 Texturen-Einheiten (TMU), aber gleich 16 Tensor-Cores (verdoppelt gegenüber Volta/Turing)
  • damit hohe Wahrscheinlichkeit auf ebenso verdoppelte RayTracing-Einheiten (pro Shader-Cluster) gegenüber Volta/Turing (möglicherweise nur bei den Gaming-Varianten von Ampere verbaut)
  • ergibt somit 128 Shader-Cluster, welche insgesamt 8192 Shader-Einheiten, 512 Texturen-Einheiten und 2048 Tensor-Cores enthalten
  • Verkaufsversionen dürften selbst in der Spitze nicht die maximalen 8192 Shader-Einheiten aufbieten, sondern eine gewisse Abspeckung hiervon (beispielsweise 7552 Shader-Einheiten)
  • 6144 Bit HBM2-Speicherinterface mit 24 oder 48 GB HBM2-Speicher
  • Hardware-Zugewinn gegenüber Voltas GV100 (jeweils im Vollausbau): +52% Shader-Cluster, +52% Shader-Einheiten, +52% Texturen-Einheiten, +205% Tensor-Cores, +50% Speicherinterface
  • PCI Express 4.0 (eigene Annahme, aber wahrscheinlich)
  • Release irgendwann im Jahr 2020, Vorstellung möglicherweise auf der GTC im März 2020
  • Grundlage der Technik-Angaben: (primär) Gerüchte vom November 2019

Damit wird es immer wahrscheinlicher, das der zuletzt vermutete Releaseplan zur Ampere-Generation tatsächlich real wird: Zuerst Vorstellung des HPC-Chips "GA100" auf nVidias Hausmesse GTC (26. bis 28. März in San Jose), dies allerdings für eine Auslieferung erst später im Jahr (wahrscheinlich ab Sommer). Und dann kommen die eigentlichen Ampere-Chips ab dem Spätsommer/Herbst, wahrscheinlich mit dem HighEnd-Chip "GA104" der GeForce RTX 3070 & 3080 zuerst. Zur Ampere-Generation darf dabei gemäß des Wechsels von der 12nm- auf die 7nm-Fertigung sowie der vergleichsweise lauen Vorstellung der Turing-Generation wieder ein etwas kräftigerer Performance-Sprung erwartet werden, wahrscheinlich im Rahmen von +50% bis +70%. Über die genaue Hardware der weiteren Ampere-Chips ist noch nichts bekannt, die nachfolgende Tabelle stellt daher eine reine Projektion dar, wie es sein könnte.

Segment Chipfläche mögliche Grafikkarten Technik Vorgänger-Chip(s)
GA100  (altern. "AM100") HPC ~800mm² Tesla & Titan 8192 SE @ 6144 Bit HBM2 GV100: 5376 SE @ 4096 Bit HBM2
GA101  (altern. "AM101") HPC ~450mm² Tesla & Titan 4096 SE @ 3072 Bit HBM2 -
GA102  (altern. "AM102") Enthusiast 600-700mm² GeForce RTX 3080 Ti ca. 6000-7000 Shader-Einheiten TU102: 4608 SE @ 384 Bit GDDR6
GA104  (altern. "AM104") HighEnd 450-500mm² GeForce RTX 3070 & 3080 ca. 4000-5000 Shader-Einheiten TU104: 3072 SE @ 256 Bit GDDR6
GA106  (altern. "AM106") Midrange 300-350mm² GeForce RTX 3060 ca. 2500-3000 Shader-Einheiten TU106: 2304 SE @ 256 Bit GDDR6
TU116: 1536 SE @ 192 Bit GDDR6
GA107  (altern. "AM107") Mainstream 200-250mm² GeForce RTX/GTX 3050 ca. 1500-1800 Shader-Einheiten TU117: 1024 SE @ 128 Bit GDDR5
GA108  (altern. "AM108") LowCost 140-170mm² GeForce GT 3030 ca. 1000 Shader-Einheiten -
Die Angaben dieser Tabelle zu Ampere-Chips sind voll spekulativ.

Nachtrag vom 1. März 2020

Zur Meldung zu den GA100-basierten HPC-Grafiklösungen mit 6912 und 7552 Shader-Einheiten (108 & 118 Shader-Cluster) wäre noch die Anmerkung hinzuzufügen, das sich gemäß der dort zu sehenden OpenCL-Benchmarks die bisherigen Mutmaßungen über einen nVidia GA100-Chip mit mehr/weniger Shader-Einheiten pro Shader-Cluster oder auch einer verdoppelten Shader-Power pro Shader-Einheit zunehmend schwerer halten lassen. Schließlich treten beide GA100-Lösungen mit sehr niedrigen Taktraten von 1.01 und 1.11 GHz an, die bei Geekbench gemessenen Taktraten für Tesla V100 HPC-Beschleuniger lauten dagegen üblicherweise auf 1.53 GHz (einzelne Messungen wurden aber auch schon mit bis zu 1.91 GHz durchgefürt). Da ist ganz klar ein Taktraten-Potential von +40-50% für den GA100-Chip zu sehen, welcher aufgrund der 7nm+ Fertigung wahrscheinlich auch etwas weniger streng an seiner TDP hängen dürfte wie die bisherigen 12nm-Grafikchips von nVidia. Rechnet man diese +40-50% auf die gezeigten OpenCL-Werte der GA100-Beschleuniger oben drauf und setzt dies dann in Relation zu deren Shader-Clustern, dann liegt die Shader-Effizienz (Rechenleistung pro Shader-Cluster) leicht besser als bei den GV100-basierten HPC-Beschleunigern – genau so, wie es unter einer neuen Architektur sein sollte.

Technik off. Takt GB-Taktangabe GB OpenCL
nVidia GA100 (7552SE) Ampere GA100, 7552 SE @ 6144 Bit SI, 24 GB HBM2 ? 1.11 GHz 184'096  (GB4)
nVidia GA100 (6912SE) Ampere GA100, 6912 SE @ 6144 Bit SI, 48 GB HBM2 ? 1.01 GHz 141'654  (GB4)
nVidia Tesla V100 (PCIe) Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2 1370 MHz ? 153'741  (GB5)
nVidia Tesla V100 (SXM2) Volta GV100, 5120 SE @ 4096 Bit SI, 16 GB HBM2 1455 MHz 1.53 GHz 139'921  (GB5)
nVidia Titan V Volta GV100, 5120 SE @ 3072 Bit SI, 12 GB HBM2 1455 MHz ? 132'601  (GB5)
nVidia Titan RTX Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6 1770 MHz 1.77 GHz 131'974  (GB5)
gemäß den Ausführungen von Rogame @ Twitter; Vergleichswerte gemäß den offiziellen Geekbench-Angaben

Viel Platz für mehr Shader-Einheiten als eben exakt 64 pro Shader-Cluster ist da nicht – schließlich müsste dies dann das Rechenergebnis geradezu explodieren lassen, was hierbei nun eindeutig nicht zu sehen. Die gezeigten Performance-Werte entsprechen somit ziemlich gut einer ganz konventionellen Auflösung von 64 Shader-Einheiten (mit zwei FP32-Ergebnissen pro Takt) pro Shader-Cluster bei der Ampere-Architektur – zumindest im HPC-Bereich. Eine absolute Maßgabe, das dies im Gaming-Bereich genauso abläuft, läßt sich aus diesen Benchmark-Werten des GA100-Chip natürlich nicht ableiten – allerdings gibt es im Gaming-Bereich noch viel weniger Anlaß, etwas an dieser Grundstruktur der Shader-Cluster zu verändern. Schließlich sind die Shader-Cluster bei nVidia über die Jahr mit immer weniger Shader-Einheiten bestückt worden (Kepler: 192, Maxwell: 128, Pascal: 64), relativ gesehen ist also der Anteil der Kontroll-Logik immer größer geworden. Zudem sind die exakt 64 Shader-Einheiten pro Shader-Cluster augenscheinlich auch ein ziemlich idealer Wert, wenn es darum geht, Daten durch den Grafikchip zu schleussen. In der Summe sind damit die Chancen auf eine derartige Änderung der Shader-Cluster bei der Ampere-Architektur als inzwischen deutlich kleiner anzusehen.

Nachtrag vom 3. März 2020

Seitens Twitter-User 'Wat ArU' wurde nunmehr noch eine weitere Ausführung des (augenscheinlichen) nVidia GA100-Chips mit diesesmal gleich 124 Shader-Clustern (höchstwahrscheinlich 7936 Shader-Einheiten) auf einer Taktrate von 1.11 GHz und mit 32 GB HBM2-Speicher in der Geekbench-Datenbank entdeckt. Wie die bisherigen Messungen stammt auch jene neu entdeckte schon vom letzten Herbst – was um so besser zu einer Frühlings-Vorstellung des GA100-Chips passen würde. Der neue Meßwert ist nochmals substantiell höher, allerdings aufgrund derselben Basis zu den Vergleichswerten (nunmehr allesamt Geekbench 5) auch besser vergleichbar. Dabei wird fast schon eine perfekte Skalierung gegenüber dem gebotenen Mehr an Shader-Clustern erreicht, trotz der augenscheinlich niedrigeren Taktrate des GA100-Beschleunigers. Taktnormiert würde speziell dieser neue Benchmark-Wert somit auf eine um ca. 25-30% höhere OpenCL-Leistung pro Shader-Cluster für den GA100-Chip hinauslaufen. Und dies ist sogar nur auf den besten GV100-Vergleichswert gerechnet – gegenüber den anderen, niedrigeren GV100-Werten wäre diese Steigerung nochmals höher. nVidia scheint hier also entscheidende Architektur-Fortschritte erzielt zu haben – ob dann doch durch mehr Recheneinheiten pro Shader-Cluster oder andere Methoden, wäre noch herauszufinden.

Technik off. Takt GB-Taktangabe GB5 OpenCL
nVidia GA100 (7936SE) Ampere GA100, 7936 SE @ 4096 Bit SI, 32 GB HBM2 ? 1.11 GHz 222'377
nVidia Tesla V100 (PCIe) Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2 1370 MHz ? 153'741
nVidia Tesla V100 (SXM2) Volta GV100, 5120 SE @ 4096 Bit SI, 16 GB HBM2 1455 MHz 1.53 GHz 139'921
nVidia Titan V Volta GV100, 5120 SE @ 3072 Bit SI, 12 GB HBM2 1455 MHz ? 132'601
nVidia Titan RTX Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6 1770 MHz 1.77 GHz 131'974
gemäß der von Wat ArU @ Twitter gefundenen GA100-Messung; Vergleichswerte gemäß den offiziellen Geekbench-Angaben; alles für Geekbench 5