nVidias GA100-Chip zeigt sich mit 6912 und 7552 Shader-Einheiten

Twitterer Rogame hat Eintragungen in der Benchmark-Datenbank von Geekbench 5 entdeckt, welche klar auf eine neue, sehr kraftvolle nVidia-Grafiklösung hindeuten. Mit einmal 6912 und einmal 7552 Shader-Einheiten (gemessen an der internen Angabe von 108 bzw. 118 Shader-Clustern) dürfte es sich um Grafiklösungen auf Basis von nVidias GA100-Chip aus der anstehenden Ampere-Generation handeln. Beide Werte deuten stark darauf hin, das die Gerüchte von letztem Jahr über einen GA100-Chip mit gleich 8192 Shader-Einheiten samt 6144 HBM-Speicherinterface wohl doch korrekt wären. Schließlich ergeben die zu den zwei Geekbench-Werten angegebenen Speicherbestückungen von 24 und 48 GB auch nur mit diesem Speicherinterface einen Sinn, mittels des 4096bittigen Speicherinterface des Vorgänger-Chips GV100 aus der Volta-Generation sind diese Speicherbestückungen schwerlich (mit auch wirklich hergestellten HBM2-Chips) erreichbar.

	Technik	GB4 OpenCL
nVidia GA100 Vorserien-Modell @ 7552 SE & 1.11 GHz	Ampere GA100, 7552 SE @ 6144 Bit SI, 24 GB HBM2	184'096
nVidia GA100 Vorserien-Modell @ 6912 SE @ 1.01 GHz	Ampere GA100, 6912 SE @ 6144 Bit SI, 48 GB HBM2	141'654
nVidia Tesla V100	Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2	154'606
nVidia Titan RTX	Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6	132'804
gemäß den Ausführungen von Rogame @ Twitter

Dass keine GA100-Ausführung mit den vollen 8192 Shader-Einheiten getestet wurde, ist hingegen vollkommen normal, denn bei diesen supergroßen HPC-Chips wird inzwischen kein Vollausbau mehr in real verfügbare Produkte überführt – auch die Tesla V100 trat "nur" mit 5120 Shader-Einheiten an, obwohl der zugrundeliegende GV100-Chip eigentlich 5376 Shader-Einheiten trägt. Die gezeigten OpenCL-Benchmarks sind derzeit genauso wenig gut zu werten, da beide GA100-Grafiklösngen wohl noch im Vorserien-Status und mit augenscheinlich sehr niedrigen Taktraten unterwegs waren. So schlägt derzeit auch eine Tesla V100 (mit 5120 Shader-Einheiten) die GA100-Vorserienlösung mit gleich 6912 Shader-Einheiten, wahrscheinlich eben wegen der Taktraten-Differenz. Sobald die Serien-Reife erreicht ist, dürften die GA100-basierten Lösungen dann gemäß ihrer Anzahl der Shader-Einheiten (sowie einem eventuellen Mehrtakt) skalieren, mehr ist unter OpenCL dann auch kaum erreichbar.

nVidia Ampere "GA100"

HPC/Profi-Lösung der Ampere-Generation
angeblich um die 800mm² Chipfläche (letztes Gerücht: 826mm²)
7nm+ (EUV) Fertigung von TSMC
8 Raster-Engines (GPC) mit jeweils 16 Shader-Cluster (SM) samt jeweils 8 Texturen-Cluster (TPC)
jeder Shader-Cluster enthält höchstwahrscheinlich (wie bisher) 64 Shader-Einheiten (SP) samt 4 Texturen-Einheiten (TMU), aber gleich 16 Tensor-Cores (verdoppelt gegenüber Volta/Turing)
damit hohe Wahrscheinlichkeit auf ebenso verdoppelte RayTracing-Einheiten (pro Shader-Cluster) gegenüber Volta/Turing (möglicherweise nur bei den Gaming-Varianten von Ampere verbaut)
ergibt somit 128 Shader-Cluster, welche insgesamt 8192 Shader-Einheiten, 512 Texturen-Einheiten und 2048 Tensor-Cores enthalten
Verkaufsversionen dürften selbst in der Spitze nicht die maximalen 8192 Shader-Einheiten aufbieten, sondern eine gewisse Abspeckung hiervon (beispielsweise 7552 Shader-Einheiten)
6144 Bit HBM2-Speicherinterface mit 24 oder 48 GB HBM2-Speicher
Hardware-Zugewinn gegenüber Voltas GV100 (jeweils im Vollausbau): +52% Shader-Cluster, +52% Shader-Einheiten, +52% Texturen-Einheiten, +205% Tensor-Cores, +50% Speicherinterface
PCI Express 4.0 (eigene Annahme, aber wahrscheinlich)
Release irgendwann im Jahr 2020, Vorstellung möglicherweise auf der GTC im März 2020
Grundlage der Technik-Angaben: (primär) Gerüchte vom November 2019

Damit wird es immer wahrscheinlicher, das der zuletzt vermutete Releaseplan zur Ampere-Generation tatsächlich real wird: Zuerst Vorstellung des HPC-Chips "GA100" auf nVidias Hausmesse GTC (26. bis 28. März in San Jose), dies allerdings für eine Auslieferung erst später im Jahr (wahrscheinlich ab Sommer). Und dann kommen die eigentlichen Ampere-Chips ab dem Spätsommer/Herbst, wahrscheinlich mit dem HighEnd-Chip "GA104" der GeForce RTX 3070 & 3080 zuerst. Zur Ampere-Generation darf dabei gemäß des Wechsels von der 12nm- auf die 7nm-Fertigung sowie der vergleichsweise lauen Vorstellung der Turing-Generation wieder ein etwas kräftigerer Performance-Sprung erwartet werden, wahrscheinlich im Rahmen von +50% bis +70%. Über die genaue Hardware der weiteren Ampere-Chips ist noch nichts bekannt, die nachfolgende Tabelle stellt daher eine reine Projektion dar, wie es sein könnte.

	Segment	Chipfläche	mögliche Grafikkarten	Technik	Vorgänger-Chip(s)
GA100 (altern. "AM100")	HPC	~800mm²	Tesla & Titan	8192 SE @ 6144 Bit HBM2	GV100: 5376 SE @ 4096 Bit HBM2
GA101 (altern. "AM101")	HPC	~450mm²	Tesla & Titan	4096 SE @ 3072 Bit HBM2	-
GA102 (altern. "AM102")	Enthusiast	600-700mm²	GeForce RTX 3080 Ti	ca. 6000-7000 Shader-Einheiten	TU102: 4608 SE @ 384 Bit GDDR6
GA104 (altern. "AM104")	HighEnd	450-500mm²	GeForce RTX 3070 & 3080	ca. 4000-5000 Shader-Einheiten	TU104: 3072 SE @ 256 Bit GDDR6
GA106 (altern. "AM106")	Midrange	300-350mm²	GeForce RTX 3060	ca. 2500-3000 Shader-Einheiten	TU106: 2304 SE @ 256 Bit GDDR6 TU116: 1536 SE @ 192 Bit GDDR6
GA107 (altern. "AM107")	Mainstream	200-250mm²	GeForce RTX/GTX 3050	ca. 1500-1800 Shader-Einheiten	TU117: 1024 SE @ 128 Bit GDDR5
GA108 (altern. "AM108")	LowCost	140-170mm²	GeForce GT 3030	ca. 1000 Shader-Einheiten	-
Die Angaben dieser Tabelle zu Ampere-Chips sind voll spekulativ.

Nachtrag vom 1. März 2020

Zur Meldung zu den GA100-basierten HPC-Grafiklösungen mit 6912 und 7552 Shader-Einheiten (108 & 118 Shader-Cluster) wäre noch die Anmerkung hinzuzufügen, das sich gemäß der dort zu sehenden OpenCL-Benchmarks die bisherigen Mutmaßungen über einen nVidia GA100-Chip mit mehr/weniger Shader-Einheiten pro Shader-Cluster oder auch einer verdoppelten Shader-Power pro Shader-Einheit zunehmend schwerer halten lassen. Schließlich treten beide GA100-Lösungen mit sehr niedrigen Taktraten von 1.01 und 1.11 GHz an, die bei Geekbench gemessenen Taktraten für Tesla V100 HPC-Beschleuniger lauten dagegen üblicherweise auf 1.53 GHz (einzelne Messungen wurden aber auch schon mit bis zu 1.91 GHz durchgefürt). Da ist ganz klar ein Taktraten-Potential von +40-50% für den GA100-Chip zu sehen, welcher aufgrund der 7nm+ Fertigung wahrscheinlich auch etwas weniger streng an seiner TDP hängen dürfte wie die bisherigen 12nm-Grafikchips von nVidia. Rechnet man diese +40-50% auf die gezeigten OpenCL-Werte der GA100-Beschleuniger oben drauf und setzt dies dann in Relation zu deren Shader-Clustern, dann liegt die Shader-Effizienz (Rechenleistung pro Shader-Cluster) leicht besser als bei den GV100-basierten HPC-Beschleunigern – genau so, wie es unter einer neuen Architektur sein sollte.

	Technik	off. Takt	GB-Taktangabe	GB OpenCL
nVidia GA100 (7552SE)	Ampere GA100, 7552 SE @ 6144 Bit SI, 24 GB HBM2	?	1.11 GHz	184'096 (GB4)
nVidia GA100 (6912SE)	Ampere GA100, 6912 SE @ 6144 Bit SI, 48 GB HBM2	?	1.01 GHz	141'654 (GB4)
nVidia Tesla V100 (PCIe)	Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2	1370 MHz	?	153'741 (GB5)
nVidia Tesla V100 (SXM2)	Volta GV100, 5120 SE @ 4096 Bit SI, 16 GB HBM2	1455 MHz	1.53 GHz	139'921 (GB5)
nVidia Titan V	Volta GV100, 5120 SE @ 3072 Bit SI, 12 GB HBM2	1455 MHz	?	132'601 (GB5)
nVidia Titan RTX	Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6	1770 MHz	1.77 GHz	131'974 (GB5)
gemäß den Ausführungen von Rogame @ Twitter; Vergleichswerte gemäß den offiziellen Geekbench-Angaben

Viel Platz für mehr Shader-Einheiten als eben exakt 64 pro Shader-Cluster ist da nicht – schließlich müsste dies dann das Rechenergebnis geradezu explodieren lassen, was hierbei nun eindeutig nicht zu sehen. Die gezeigten Performance-Werte entsprechen somit ziemlich gut einer ganz konventionellen Auflösung von 64 Shader-Einheiten (mit zwei FP32-Ergebnissen pro Takt) pro Shader-Cluster bei der Ampere-Architektur – zumindest im HPC-Bereich. Eine absolute Maßgabe, das dies im Gaming-Bereich genauso abläuft, läßt sich aus diesen Benchmark-Werten des GA100-Chip natürlich nicht ableiten – allerdings gibt es im Gaming-Bereich noch viel weniger Anlaß, etwas an dieser Grundstruktur der Shader-Cluster zu verändern. Schließlich sind die Shader-Cluster bei nVidia über die Jahr mit immer weniger Shader-Einheiten bestückt worden (Kepler: 192, Maxwell: 128, Pascal: 64), relativ gesehen ist also der Anteil der Kontroll-Logik immer größer geworden. Zudem sind die exakt 64 Shader-Einheiten pro Shader-Cluster augenscheinlich auch ein ziemlich idealer Wert, wenn es darum geht, Daten durch den Grafikchip zu schleussen. In der Summe sind damit die Chancen auf eine derartige Änderung der Shader-Cluster bei der Ampere-Architektur als inzwischen deutlich kleiner anzusehen.

Nachtrag vom 3. März 2020

Seitens Twitter-User 'Wat ArU' wurde nunmehr noch eine weitere Ausführung des (augenscheinlichen) nVidia GA100-Chips mit diesesmal gleich 124 Shader-Clustern (höchstwahrscheinlich 7936 Shader-Einheiten) auf einer Taktrate von 1.11 GHz und mit 32 GB HBM2-Speicher in der Geekbench-Datenbank entdeckt. Wie die bisherigen Messungen stammt auch jene neu entdeckte schon vom letzten Herbst – was um so besser zu einer Frühlings-Vorstellung des GA100-Chips passen würde. Der neue Meßwert ist nochmals substantiell höher, allerdings aufgrund derselben Basis zu den Vergleichswerten (nunmehr allesamt Geekbench 5) auch besser vergleichbar. Dabei wird fast schon eine perfekte Skalierung gegenüber dem gebotenen Mehr an Shader-Clustern erreicht, trotz der augenscheinlich niedrigeren Taktrate des GA100-Beschleunigers. Taktnormiert würde speziell dieser neue Benchmark-Wert somit auf eine um ca. 25-30% höhere OpenCL-Leistung pro Shader-Cluster für den GA100-Chip hinauslaufen. Und dies ist sogar nur auf den besten GV100-Vergleichswert gerechnet – gegenüber den anderen, niedrigeren GV100-Werten wäre diese Steigerung nochmals höher. nVidia scheint hier also entscheidende Architektur-Fortschritte erzielt zu haben – ob dann doch durch mehr Recheneinheiten pro Shader-Cluster oder andere Methoden, wäre noch herauszufinden.

	Technik	off. Takt	GB-Taktangabe	GB5 OpenCL
nVidia GA100 (7936SE)	Ampere GA100, 7936 SE @ 4096 Bit SI, 32 GB HBM2	?	1.11 GHz	222'377
nVidia Tesla V100 (PCIe)	Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2	1370 MHz	?	153'741
nVidia Tesla V100 (SXM2)	Volta GV100, 5120 SE @ 4096 Bit SI, 16 GB HBM2	1455 MHz	1.53 GHz	139'921
nVidia Titan V	Volta GV100, 5120 SE @ 3072 Bit SI, 12 GB HBM2	1455 MHz	?	132'601
nVidia Titan RTX	Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6	1770 MHz	1.77 GHz	131'974
gemäß der von Wat ArU @ Twitter gefundenen GA100-Messung; Vergleichswerte gemäß den offiziellen Geekbench-Angaben; alles für Geekbench 5

Bookmark/Search this post with:

Hauptlinks

Suche

Navigation

nVidias GA100-Chip zeigt sich mit 6912 und 7552 Shader-Einheiten

Verwandte News

Translate

3DCenter unterstützen

Neueste Blogeinträge

Neue Forenbeiträge

Neue Beiträge im Forum Technologie

Uns folgen

Partner

Umfrage