1

Hardware- und Nachrichten-Links des 1. März 2020

Zur Meldung zu den GA100-basierten HPC-Grafiklösungen mit 6912 und 7552 Shader-Einheiten (108 & 118 Shader-Cluster) wäre noch die Anmerkung hinzuzufügen, das sich gemäß der dort zu sehenden OpenCL-Benchmarks die bisherigen Mutmaßungen über einen nVidia GA100-Chip mit mehr/weniger Shader-Einheiten pro Shader-Cluster oder auch einer verdoppelten Shader-Power pro Shader-Einheit zunehmend schwerer halten lassen. Schließlich treten beide GA100-Lösungen mit sehr niedrigen Taktraten von 1.01 und 1.11 GHz an, die bei Geekbench gemessenen Taktraten für Tesla V100 HPC-Beschleuniger lauten dagegen üblicherweise auf 1.53 GHz (einzelne Messungen wurden aber auch schon mit bis zu 1.91 GHz durchgefürt). Da ist ganz klar ein Taktraten-Potential von +40-50% für den GA100-Chip zu sehen, welcher aufgrund der 7nm+ Fertigung wahrscheinlich auch etwas weniger streng an seiner TDP hängen dürfte wie die bisherigen 12nm-Grafikchips von nVidia. Rechnet man diese +40-50% auf die gezeigten OpenCL-Werte der GA100-Beschleuniger oben drauf und setzt dies dann in Relation zu deren Shader-Clustern, dann liegt die Shader-Effizienz (Rechenleistung pro Shader-Cluster) leicht besser als bei den GV100-basierten HPC-Beschleunigern – genau so, wie es unter einer neuen Architektur sein sollte.

Technik off. Takt GB-Taktangabe GB OpenCL
nVidia GA100 (7552SE) Ampere GA100, 7552 SE @ 6144 Bit SI, 24 GB HBM2 ? 1.11 GHz 184'096  (GB4)
nVidia GA100 (6912SE) Ampere GA100, 6912 SE @ 6144 Bit SI, 48 GB HBM2 ? 1.01 GHz 141'654  (GB4)
nVidia Tesla V100 (PCIe) Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2 1370 MHz ? 153'741  (GB5)
nVidia Tesla V100 (SXM2) Volta GV100, 5120 SE @ 4096 Bit SI, 16 GB HBM2 1455 MHz 1.53 GHz 139'921  (GB5)
nVidia Titan V Volta GV100, 5120 SE @ 3072 Bit SI, 12 GB HBM2 1455 MHz ? 132'601  (GB5)
nVidia Titan RTX Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6 1770 MHz 1.77 GHz 131'974  (GB5)
gemäß den Ausführungen von Rogame @ Twitter; Vergleichswerte gemäß den offiziellen Geekbench-Angaben

Viel Platz für mehr Shader-Einheiten als eben exakt 64 pro Shader-Cluster ist da nicht – schließlich müsste dies dann das Rechenergebnis geradezu explodieren lassen, was hierbei nun eindeutig nicht zu sehen. Die gezeigten Performance-Werte entsprechen somit ziemlich gut einer ganz konventionellen Auflösung von 64 Shader-Einheiten (mit zwei FP32-Ergebnissen pro Takt) pro Shader-Cluster bei der Ampere-Architektur – zumindest im HPC-Bereich. Eine absolute Maßgabe, das dies im Gaming-Bereich genauso abläuft, läßt sich aus diesen Benchmark-Werten des GA100-Chip natürlich nicht ableiten – allerdings gibt es im Gaming-Bereich noch viel weniger Anlaß, etwas an dieser Grundstruktur der Shader-Cluster zu verändern. Schließlich sind die Shader-Cluster bei nVidia über die Jahr mit immer weniger Shader-Einheiten bestückt worden (Kepler: 192, Maxwell: 128, Pascal: 64), relativ gesehen ist also der Anteil der Kontroll-Logik immer größer geworden. Zudem sind die exakt 64 Shader-Einheiten pro Shader-Cluster augenscheinlich auch ein ziemlich idealer Wert, wenn es darum geht, Daten durch den Grafikchip zu schleussen. In der Summe sind damit die Chancen auf eine derartige Änderung der Shader-Cluster bei der Ampere-Architektur als inzwischen deutlich kleiner anzusehen.

Während man zu nVidias Ampere-Generation auf nVidias anstehender Hausmesse GTC (23. bis 26. März in San Jose) sicherlich einiges erfahren dürfte (selbst wenn jene vielleicht nur virtuell stattfindet), weist unser Forum auf den interessanten Punkt hin, das AMDs Financial Analyst Day am 5. März mit einer Dauer von 5 Stunden erstaunlich lange angesetzt ist. Dies hatte der Planet 3DNow! schon zum Jahresanfang thematisiert, denn gegenüber früheren FADs mit bestenfalls 3½ Stunden Länge ist dies noch einmal deutlich mehr Zeit, um alle möglichen Themen unterzubringen – neben Finanzdaten und andere rein die Investoren interessierende Zahlen eben auch aktualisierten Roadmaps sowie eventuelle Produkt-Ankündigungen oder zumindest Vorankündigungen. Gerade da es auf der CES im Januar keinerlei offizielle Teaser zu AMDs Zen 3 sowie zu Navi 2X gegeben hatte, welche aber beide noch dieses Jahr anstehen, darf vom kommenden FAD in dieser Richtung durchaus einiges erwartet werden. Laut AMD wird ein Videostream zur Verfügung gestellt werden, Termin ist Donnerstag, der 5. März 2020 um 22 Uhr deutscher Zeit.

Als möglichen vierten Grafikchip-Anbieter gemäß der in den letzten Februar-News genannten Anmerkung seitens Jon Peddie Research wurden in unserem Forum zwei augenscheinliche Kandidaten benannt: Einmal ImgTec, welche das von Jon Peddie Research erwähnte Profil einer "IP company" exakt erfüllen würden – da ImgTec nichts in Eigenregie herstellen läßt, sondern nur Lizenzen an andere Chipentwickler vergibt, welche sich dann um das komplette Produkt vom konkreten Design über dessen Fertigung bis zum Vertrieb kümmern. Technologisch ist ImgTec zwar eigentlich bei Smartphone-Grafikchip verortet, war dort aber immer ganz gut mit dabei und bot sogar mit reinen RayTracing-Lösungen schon ab dem Jahr 2016 sehr fortschrittliches an. Das Problem ist, das ImgTec für einen Markteintritt bei PC-Grafik einen starken Partner mit Durchhaltevermögen bräuchte, weil es natürlich Jahre benötigen dürfte, um hier auf irgendwas zählbares zu kommen. Zudem könnte man den Zeitpunkt des Markteintritt als eher ungünstig betrachten, denn im Jahr 2020 wird schließlich mit Intel schon ein weiterer Grafikchip-Anbieter hinzukommen – welcher zudem die Größe hat, alles andere langfristig zu zermahlen.

Die zweite Möglichkeit würde im chinesischen Grafikchip-Entwickler 'Changsha Jingjia' bestehen, zu welchem es letztes Jahr mal eine Meldung über dessen geplante Grafikchips JM9231 & JM9271 gab. Jene erscheinen allerdings inzwischen als weniger zugkräftig, wenn man die Performance einer GeForce GTX 1080 (FHD Perf.Index 960%) erst im Jahr 2020/21 erreicht will. Dafür wird es heuer kaum ein größeres Aufsehen gegenüber den (wahrscheinlich) später im Jahr verfügbaren 7nm-Lösungen von AMD & nVidia geben – gerade wenn die hierbei zugrundeliegenden Grafikchips in einer zurückliegenden Fertigungsverfahren (angeblich 28nm) antreten und derzeit erst einmal rein als OpenGL-Beschleuniger beschrieben werden (was sich natürlich noch ändern könnte). Der Vorteil von Changsha Jingjia liegt allein darin, das man auf eine Situation trifft, wo in China jedes Angebot sehr willkommen sein dürfte, was ohne US-Technik auskommt – und eventuell auch der chinesische Staat mit Subventionen einzelne Nachteile ausgleicht. Dies könnte dann also einen weiteren Marktteilnehmer ergeben, welcher jedoch vorerst allein auf China beschränkt ist – ergo nicht wirklich im Wettbewerb mitspielt.

Zur Meldung zu den GA100-basierten HPC-Grafiklösungen mit 6912 und 7552 Shader-Einheiten (108 & 118 Shader-Cluster) wäre noch die Anmerkung hinzuzufügen, das sich gemäß der dort zu sehenden OpenCL-Benchmarks die bisherigen Mutmaßungen über einen nVidia GA100-Chip mit mehr/weniger Shader-Einheiten pro Shader-Cluster oder auch einer verdoppelten Shader-Power pro Shader-Einheit zunehmend schwerer halten lassen. Schließlich treten beide GA100-Lösungen mit sehr niedrigen Taktraten von 1.01 und 1.11 GHz an, die bei Geekbench gemessenen Taktraten für Tesla V100 HPC-Beschleuniger lauten dagegen üblicherweise auf 1.53 GHz (einzelne Messungen wurden aber auch schon mit bis zu 1.91 GHz durchgefürt). Da ist ganz klar ein Taktraten-Potential von +40-50% für den GA100-Chip zu sehen, welcher aufgrund der 7nm+ Fertigung wahrscheinlich auch etwas weniger streng an seiner TDP hängen dürfte wie die bisherigen 12nm-Grafikchips von nVidia. Rechnet man diese +40-50% auf die gezeigten OpenCL-Werte der GA100-Beschleuniger oben drauf und setzt dies dann in Relation zu deren Shader-Clustern, dann liegt die Shader-Effizienz (Rechenleistung pro Shader-Cluster) leicht besser als bei den GV100-basierten HPC-Beschleunigern - genau so, wie es unter einer neuen Architektur sein sollte.





Technik
off. Takt
GB-Taktangabe
GB OpenCL




nVidia GA100 (7552SE)
Ampere GA100, 7552 SE @ 6144 Bit SI, 24 GB HBM2
?
1.11 GHz
184'096  (GB4)


nVidia GA100 (6912SE)
Ampere GA100, 6912 SE @ 6144 Bit SI, 48 GB HBM2
?
1.01 GHz
141'654  (GB4)


nVidia Tesla V100 (PCIe)
Volta GV100, 5120 SE @ 4096 Bit SI, 32 GB HBM2
1370 MHz
?
153'741  (GB5)


nVidia Tesla V100 (SXM2)
Volta GV100, 5120 SE @ 4096 Bit SI, 16 GB HBM2
1455 MHz
1.53 GHz
139'921  (GB5)


nVidia Titan V
Volta GV100, 5120 SE @ 3072 Bit SI, 12 GB HBM2
1455 MHz
?
132'601  (GB5)


nVidia Titan RTX
Turing TU102, 4608 SE @ 384 Bit SI, 24 GB GDDR6
1770 MHz
1.77 GHz
131'974  (GB5)


gemäß den Ausführungen von Rogame @ Twitter; Vergleichswerte gemäß den offiziellen Geekbench-Angaben