Twitterer Rogame hat Eintragungen in der Benchmark-Datenbank von Geekbench 5 entdeckt, welche klar auf eine neue, sehr kraftvolle nVidia-Grafiklösung hindeuten. Mit einmal 6912 und einmal 7552 Shader-Einheiten (gemessen an der internen Angabe von 108 bzw. 118 Shader-Clustern) dürfte es sich um Grafiklösungen auf Basis von nVidias GA100-Chip aus der anstehenden Ampere-Generation handeln. Beide Werte deuten stark darauf hin, das die Gerüchte von letztem Jahr über einen GA100-Chip mit gleich 8192 Shader-Einheiten samt 6144 HBM-Speicherinterface wohl doch korrekt wären. Schließlich ergeben die zu den zwei Geekbench-Werten angegebenen Speicherbestückungen von 24 und 48 GB auch nur mit diesem Speicherinterface einen Sinn, mittels des 4096bittigen Speicherinterface des Vorgänger-Chips GV100 aus der Volta-Generation sind diese Speicherbestückungen schwerlich (mit auch wirklich hergestellten HBM2-Chips) erreichbar.
Technik | GB4 OpenCL | |
---|---|---|
nVidia GA100 Vorserien-Modell @ 7552 SE & 1.11 GHz |
Ampere GA100, 7552 SE @ 6144 Bit SI, 24 GB HBM2 | 184'096 |
nVidia GA100 Vorserien-Modell @ 6912 SE @ 1.01 GHz |
Ampere GA100, 6912 SE @ 6144 Bit SI, 48 GB HBM2 | 141'654 |
nVidia Tesla V100 | Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2 | 154'606 |
nVidia Titan RTX | Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6 | 132'804 |
gemäß den Ausführungen von Rogame @ Twitter |
Dass keine GA100-Ausführung mit den vollen 8192 Shader-Einheiten getestet wurde, ist hingegen vollkommen normal, denn bei diesen supergroßen HPC-Chips wird inzwischen kein Vollausbau mehr in real verfügbare Produkte überführt – auch die Tesla V100 trat "nur" mit 5120 Shader-Einheiten an, obwohl der zugrundeliegende GV100-Chip eigentlich 5376 Shader-Einheiten trägt. Die gezeigten OpenCL-Benchmarks sind derzeit genauso wenig gut zu werten, da beide GA100-Grafiklösngen wohl noch im Vorserien-Status und mit augenscheinlich sehr niedrigen Taktraten unterwegs waren. So schlägt derzeit auch eine Tesla V100 (mit 5120 Shader-Einheiten) die GA100-Vorserienlösung mit gleich 6912 Shader-Einheiten, wahrscheinlich eben wegen der Taktraten-Differenz. Sobald die Serien-Reife erreicht ist, dürften die GA100-basierten Lösungen dann gemäß ihrer Anzahl der Shader-Einheiten (sowie einem eventuellen Mehrtakt) skalieren, mehr ist unter OpenCL dann auch kaum erreichbar.
|
Damit wird es immer wahrscheinlicher, das der zuletzt vermutete Releaseplan zur Ampere-Generation tatsächlich real wird: Zuerst Vorstellung des HPC-Chips "GA100" auf nVidias Hausmesse GTC (26. bis 28. März in San Jose), dies allerdings für eine Auslieferung erst später im Jahr (wahrscheinlich ab Sommer). Und dann kommen die eigentlichen Ampere-Chips ab dem Spätsommer/Herbst, wahrscheinlich mit dem HighEnd-Chip "GA104" der GeForce RTX 3070 & 3080 zuerst. Zur Ampere-Generation darf dabei gemäß des Wechsels von der 12nm- auf die 7nm-Fertigung sowie der vergleichsweise lauen Vorstellung der Turing-Generation wieder ein etwas kräftigerer Performance-Sprung erwartet werden, wahrscheinlich im Rahmen von +50% bis +70%. Über die genaue Hardware der weiteren Ampere-Chips ist noch nichts bekannt, die nachfolgende Tabelle stellt daher eine reine Projektion dar, wie es sein könnte.
Segment | Chipfläche | mögliche Grafikkarten | Technik | Vorgänger-Chip(s) | |
---|---|---|---|---|---|
GA100 (altern. "AM100") | HPC | ~800mm² | Tesla & Titan | 8192 SE @ 6144 Bit HBM2 | GV100: 5376 SE @ 4096 Bit HBM2 |
GA101 (altern. "AM101") | HPC | ~450mm² | Tesla & Titan | 4096 SE @ 3072 Bit HBM2 | - |
GA102 (altern. "AM102") | Enthusiast | 600-700mm² | GeForce RTX 3080 Ti | ca. 6000-7000 Shader-Einheiten | TU102: 4608 SE @ 384 Bit GDDR6 |
GA104 (altern. "AM104") | HighEnd | 450-500mm² | GeForce RTX 3070 & 3080 | ca. 4000-5000 Shader-Einheiten | TU104: 3072 SE @ 256 Bit GDDR6 |
GA106 (altern. "AM106") | Midrange | 300-350mm² | GeForce RTX 3060 | ca. 2500-3000 Shader-Einheiten | TU106: 2304 SE @ 256 Bit GDDR6 TU116: 1536 SE @ 192 Bit GDDR6 |
GA107 (altern. "AM107") | Mainstream | 200-250mm² | GeForce RTX/GTX 3050 | ca. 1500-1800 Shader-Einheiten | TU117: 1024 SE @ 128 Bit GDDR5 |
GA108 (altern. "AM108") | LowCost | 140-170mm² | GeForce GT 3030 | ca. 1000 Shader-Einheiten | - |
Die Angaben dieser Tabelle zu Ampere-Chips sind voll spekulativ. |
Nachtrag vom 1. März 2020
Zur Meldung zu den GA100-basierten HPC-Grafiklösungen mit 6912 und 7552 Shader-Einheiten (108 & 118 Shader-Cluster) wäre noch die Anmerkung hinzuzufügen, das sich gemäß der dort zu sehenden OpenCL-Benchmarks die bisherigen Mutmaßungen über einen nVidia GA100-Chip mit mehr/weniger Shader-Einheiten pro Shader-Cluster oder auch einer verdoppelten Shader-Power pro Shader-Einheit zunehmend schwerer halten lassen. Schließlich treten beide GA100-Lösungen mit sehr niedrigen Taktraten von 1.01 und 1.11 GHz an, die bei Geekbench gemessenen Taktraten für Tesla V100 HPC-Beschleuniger lauten dagegen üblicherweise auf 1.53 GHz (einzelne Messungen wurden aber auch schon mit bis zu 1.91 GHz durchgefürt). Da ist ganz klar ein Taktraten-Potential von +40-50% für den GA100-Chip zu sehen, welcher aufgrund der 7nm+ Fertigung wahrscheinlich auch etwas weniger streng an seiner TDP hängen dürfte wie die bisherigen 12nm-Grafikchips von nVidia. Rechnet man diese +40-50% auf die gezeigten OpenCL-Werte der GA100-Beschleuniger oben drauf und setzt dies dann in Relation zu deren Shader-Clustern, dann liegt die Shader-Effizienz (Rechenleistung pro Shader-Cluster) leicht besser als bei den GV100-basierten HPC-Beschleunigern – genau so, wie es unter einer neuen Architektur sein sollte.
Technik | off. Takt | GB-Taktangabe | GB OpenCL | |
---|---|---|---|---|
nVidia GA100 (7552SE) | Ampere GA100, 7552 SE @ 6144 Bit SI, 24 GB HBM2 | ? | 1.11 GHz | 184'096 (GB4) |
nVidia GA100 (6912SE) | Ampere GA100, 6912 SE @ 6144 Bit SI, 48 GB HBM2 | ? | 1.01 GHz | 141'654 (GB4) |
nVidia Tesla V100 (PCIe) | Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2 | 1370 MHz | ? | 153'741 (GB5) |
nVidia Tesla V100 (SXM2) | Volta GV100, 5120 SE @ 4096 Bit SI, 16 GB HBM2 | 1455 MHz | 1.53 GHz | 139'921 (GB5) |
nVidia Titan V | Volta GV100, 5120 SE @ 3072 Bit SI, 12 GB HBM2 | 1455 MHz | ? | 132'601 (GB5) |
nVidia Titan RTX | Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6 | 1770 MHz | 1.77 GHz | 131'974 (GB5) |
gemäß den Ausführungen von Rogame @ Twitter; Vergleichswerte gemäß den offiziellen Geekbench-Angaben |
Viel Platz für mehr Shader-Einheiten als eben exakt 64 pro Shader-Cluster ist da nicht – schließlich müsste dies dann das Rechenergebnis geradezu explodieren lassen, was hierbei nun eindeutig nicht zu sehen. Die gezeigten Performance-Werte entsprechen somit ziemlich gut einer ganz konventionellen Auflösung von 64 Shader-Einheiten (mit zwei FP32-Ergebnissen pro Takt) pro Shader-Cluster bei der Ampere-Architektur – zumindest im HPC-Bereich. Eine absolute Maßgabe, das dies im Gaming-Bereich genauso abläuft, läßt sich aus diesen Benchmark-Werten des GA100-Chip natürlich nicht ableiten – allerdings gibt es im Gaming-Bereich noch viel weniger Anlaß, etwas an dieser Grundstruktur der Shader-Cluster zu verändern. Schließlich sind die Shader-Cluster bei nVidia über die Jahr mit immer weniger Shader-Einheiten bestückt worden (Kepler: 192, Maxwell: 128, Pascal: 64), relativ gesehen ist also der Anteil der Kontroll-Logik immer größer geworden. Zudem sind die exakt 64 Shader-Einheiten pro Shader-Cluster augenscheinlich auch ein ziemlich idealer Wert, wenn es darum geht, Daten durch den Grafikchip zu schleussen. In der Summe sind damit die Chancen auf eine derartige Änderung der Shader-Cluster bei der Ampere-Architektur als inzwischen deutlich kleiner anzusehen.
Nachtrag vom 3. März 2020
Seitens Twitter-User 'Wat ArU' wurde nunmehr noch eine weitere Ausführung des (augenscheinlichen) nVidia GA100-Chips mit diesesmal gleich 124 Shader-Clustern (höchstwahrscheinlich 7936 Shader-Einheiten) auf einer Taktrate von 1.11 GHz und mit 32 GB HBM2-Speicher in der Geekbench-Datenbank entdeckt. Wie die bisherigen Messungen stammt auch jene neu entdeckte schon vom letzten Herbst – was um so besser zu einer Frühlings-Vorstellung des GA100-Chips passen würde. Der neue Meßwert ist nochmals substantiell höher, allerdings aufgrund derselben Basis zu den Vergleichswerten (nunmehr allesamt Geekbench 5) auch besser vergleichbar. Dabei wird fast schon eine perfekte Skalierung gegenüber dem gebotenen Mehr an Shader-Clustern erreicht, trotz der augenscheinlich niedrigeren Taktrate des GA100-Beschleunigers. Taktnormiert würde speziell dieser neue Benchmark-Wert somit auf eine um ca. 25-30% höhere OpenCL-Leistung pro Shader-Cluster für den GA100-Chip hinauslaufen. Und dies ist sogar nur auf den besten GV100-Vergleichswert gerechnet – gegenüber den anderen, niedrigeren GV100-Werten wäre diese Steigerung nochmals höher. nVidia scheint hier also entscheidende Architektur-Fortschritte erzielt zu haben – ob dann doch durch mehr Recheneinheiten pro Shader-Cluster oder andere Methoden, wäre noch herauszufinden.
Technik | off. Takt | GB-Taktangabe | GB5 OpenCL | |
---|---|---|---|---|
nVidia GA100 (7936SE) | Ampere GA100, 7936 SE @ 4096 Bit SI, 32 GB HBM2 | ? | 1.11 GHz | 222'377 |
nVidia Tesla V100 (PCIe) | Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2 | 1370 MHz | ? | 153'741 |
nVidia Tesla V100 (SXM2) | Volta GV100, 5120 SE @ 4096 Bit SI, 16 GB HBM2 | 1455 MHz | 1.53 GHz | 139'921 |
nVidia Titan V | Volta GV100, 5120 SE @ 3072 Bit SI, 12 GB HBM2 | 1455 MHz | ? | 132'601 |
nVidia Titan RTX | Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6 | 1770 MHz | 1.77 GHz | 131'974 |
gemäß der von Wat ArU @ Twitter gefundenen GA100-Messung; Vergleichswerte gemäß den offiziellen Geekbench-Angaben; alles für Geekbench 5 |