Launch-Analyse: nVidia GeForce GTX 750 & 750 Ti

Mittwoch, 19. Februar 2014

/ von Leonidas

Mit den GeForce GTX 750 und GeForce GTX 750 Ti Grafikkarten stellt nVidia seine ersten Grafikkarten auf Basis der neuen, veränderten Maxwell-Architektur vor – auch wenn selbige immer noch in der 28nm-Fertigung hergestellt werden, da die 20nm-Fertigung für Grafikchips augenscheinlich noch nicht zur Verfügung steht. Aus diesem Grund startet nVidia die Maxwell-Architektur auch nicht mit einem Performance- oder HighEnd-Chip, sondern mit dem GeForce GTX 750 & 750 Ti zugrundeliegenden GM107-Chip. Somit sind von diesem Launch auch nicht die sonst üblichen Performance-Sprünge beim Start neuer Architekturen zu erwarten – vielmehr ordnen sich GeForce GTX 750 & 750 Ti glatt im Mainstream-Segment ein und ersetzen dort "nur" nVidias bisherige Kepler-basierte Lösungen.

nVidia GeForce GTX 750 & 750 Ti Referenzdesign

Der GM107-Chip als erster Chip der Maxwell-Architektur bringt dabei einige Änderungen gegenüber der Kepler-Architektur mit sich. Am offensichtlichsten ist die Umgestaltung der Shader-Cluster: Während bei Kepler ein Shader-Cluster immer 192 Shader-Einheiten und 16 Textureneinheiten (TMUs) barg, sind es beim GM107-Chip nunmehr 128 Shader-Einheiten und 8 TMUs. Das Verhältnis von Textur- zu Shadereinheiten fällt somit von 1:12 bei der Kepler-Architektur zu 1:16 beim GM107-Chip – und liegt damit im übrigen nunmehr gleichauf zu AMDs GCN-Architektur. Ob nVidia die anderen Grafikchips der Maxwell-Architektur allesamt genauso designt, ist natürlich noch offen. Es ist zwar üblich, solcherart Grundeinheiten wie Shader-Cluster für alle Grafikchips derselben Architektur zu verwenden, trotzdem gab es hiervon schon Ausnahmen.

In jedem Fall folgt diese Änderung der Shader-Cluster beim GM107-Chip nur dem langjährigen Trend zu (relativ) mehr Shader-Leistung gegenüber Texturier-Leistung. Die Spieleentwickler setzen halt auf immer mehr Shader-basierte Rechenoperation pro gerendertem Dreieck, während die Anforderungen an Texturierleistung sich nur eher gemächlich nach vorn entwickeln. Die veränderten Anforderungen führen letztlich dazu, daß die Kepler-basierte GeForce GTX 650 Ti und die Maxwell-basierte GeForce GTX 750 eine ziemlich ähnliche Performance aufweisen, obwohl hierbei 64 TMUs auf Seiten der älteren Kepler-Grafikkarte gegen nur 32 TMUs auf Seiten der neueren Maxwell-Grafikkarte stehen. Eine hohe Texturierpower ist heutzutage einfach nicht mehr so relevant, weshalb nVidia bei der Maxwell-Architektur die zur Verfügung stehende Chipfläche lieber anderen Ausführungseinheiten zugute kommen läßt.

nVidia Kepler Shader-Cluster (GK104)

nVidia Maxwell Shader-Cluster (GM107)

Es wurden neben dieser offensichtlichen Änderung der Shader-Cluster bei der Anzahl an Shader- und Textureneinheiten aber auch noch einige andere Punkte umgestaltet: Während bei Kepler alle 192 Shader-Einheiten an derselben Kontrolllogik (mit Instruction Buffer, Warp Scheduler, Dispatch Unit und Register File) hängen, ist der Shader-Cluster bei Maxwell noch einmal aufgeteilt in vier Blöcke zu jeweils 32 Shader-Einheiten. Jeder dieser Blöcke hat dann seine eigene Kontrolllogik – wobei allerdings nicht ganz klar ist, ob dies wirklich in jedem Fall ein "Mehr" an insgesamter Kontrolllogik bedeutet oder ob schlicht jeweils kleinere Kontrolllogiken zum Einsatz kommen. Das in einem Shader-Cluster insgesamt vorhandene Register File ist jedenfalls kumuliert bei Kepler und Maxwell gleich groß (jeweils 65536 x 32-bit) – was zwar angesichts der geringeren Anzahl an Shader-Einheiten pro Shader-Cluster bei Maxwell auch einen 50%igen Fortschritt darstellt, aber eben keinen 300%iger Fortschritt.

Desweiteren hat nVidia das Verhältnis der Shader-Einheiten zu Load/Store-Einheiten (LD/ST) sowie Special Functions Units (SFUs) verändert: Während bei Kepler jeweils 6 Shader-Einheiten über eine LD/ST-Einheit sowie eine SFU verfügen, gibt es bei Maxwell eine LD/ST-Einheit sowie eine SFU pro nur noch 4 Shader-Einheiten – ebenfalls ein Vorteil von 50%. Abschließend wurde noch der Level1-Cache neu unterteilt: Wo es vorher pro Shader-Cluster einen gemeinsamen 64 kByte großen Level1-Cache für Daten und Texturen gab, sind nunmehr 64 kByte allein für Daten vorhanden, hinzu kommt ein extra Texturen-Cache mit dato allerdings unbekannter Größe.

	Shader-Cluster Kepler	Shader-Cluster Maxwell	nomineller Vorteil	Vorteil pro Shader-Einheit
Shader-Einheiten	192	128	-33%	-
Textureneinheiten	16	8	-50%	-25%
LD/ST-Einheiten	32	32	±0	+50%
SFUs	32	32	±0	+50%
FP64-Einheiten	8	4	-50%	-25%
Kontrolllogik	1x	4x	+300%	+450%
Register File	65536 x 32-bit	65536 x 32-bit	±0	+50%
Level1-Cache	64 kByte	64 kByte (+ extra Texturen-Cache)	±0	+50%
taktnormierte Performance lt. nVidia	100%	90%	-10%	+35%

Grob gesehen kann man davon sprechen, daß nVidia bei einem Shader-Cluster des GM107-Chips zwar die Texturierpower nach unten geschraubt hat, dafür aber Kontrolllogiken, Caches und Nebeneinheiten genauso groß oder größer sind und damit relativ pro Shader-Einheit gesehen deutliche Fortschritte ergeben. Unter modernem Content (wo die niedrigere Texturierpower keine Rolle spielt) sollte eine Shader-Einheit von Maxwell somit klar mehr Performance bieten als eine Shader-Einheit von Kepler. nVidia geht sogar soweit zu behaupten, daß taktnormiert eine Shader-Einheit von Maxwell 35% mehr Performance bietet wie eine Shader-Einheit von Kepler, da ein Shader-Cluster von Maxwell (mit nur 128 Shader-Einheiten) immerhin 90% der Performance eines Shader-Clusters von Kepler (mit immerhin 192 Shader-Einheiten) aufweisen soll. Dies dürften natürlich idealisierte Angaben sein, aber einen klaren Effizienzgewinn pro Shader-Einheit kann man der Maxwell-Architektur sicherlich nachsagen.

Hierzu dürfte auch der beim GM107-Chip extrem aufgebohrte Level2-Cache beitragen, welcher nunmehr gleich 2 MB groß ist. Bisher hatte nVidia bei seinen kleineren Grafikchips die einfache Regel, immer 128 kByte Level2-Cache pro 64bittigem Speicherinterface mitzugeben – bei einem Grafikchip mit 128 Bit DDR Speicherinterface wie dem GM107 (oder dem GK107) wären dies demzufolge nur 256 kByte. Die Maxwell-Architektur scheint in dieser Frage regelrecht in die Vollen zu gehen, sicherlich auch zugunsten der Compute-Fähigkeiten. Trotzdem bleibt es abzuwarten, wie groß die Level2-Caches der größeren Maxwell-Chips ausfallen – geht nVidia nach demselben Maßstab wie beim GM107-Chip vor, dürfte der (nicht vor dem Herbst zu erwartende) GM200-Chip mindestens 6 MB Level2-Cache aufweisen.

	Kepler-Architektur	Maxwell-Architektur	Vorteil
Durchsatz einer Raster-Engine	8 Pixel/Takt	16 Pixel/Takt	+100%
Verhältnis TMUs zu Shader-Einheiten	1:12	1:16	-25%
Verhältnis LD/ST-Einheiten zu Shader-Einheiten	1:6	1:4	+50%
Verhältnis SFUs zu Shader-Einheiten	1:6	1:4	+50%
Verhältnis FP64-Einheiten zu Shader-Einheiten	1:24	1:32	-25%
Level2-Cache (pro 64 Bit DDR Speicherinterface)	128 kByte	1 MB	+700%

Etwas überraschend angesichts der bisherigen nVidia-Chips ist das FrontEnd des GM107-Chips nur einfach ausgelegt: Für die Performance-Klasse der GM107-basierten GeForce GTX 750 & 750 Ti hatte nVidia bisher immer zwei Raster-Engines bei GeForce GTX 650 Ti und GeForce GTX 650 Ti "Boost" angesetzt, auch AMDs im selben Performance-Feld spielender Bonaire-Chip (Radeon HD 7790, Radeon R7 260 & 260X) bietet gleich zwei Raster-Engines. Allerdings hat nVidia bei den Raster-Engines von Maxwell deutlich an der Performance-Schraube gedreht – jene leisten nunmehr nominell doppelt so viel wie eine Raster-Engine der Kepler- oder der GCN-Architektur (16 gegenüber 8 Pixel pro Takt).

Der komplette GM107-Chip trägt dann fünf Shader-Cluster mit demzufolge insgesamt 640 Shader-Einheiten, 40 Textureneinheiten, 16 ROPs und 128 Bit DDR Speicherinterface. Dies entspricht im übrigen nominell dem Cape-Verde-Chip von AMDs Radeon HD 7750 & 7770 sowie Radeon R7 250X. Allerdings sind nVidias neue Shader-Cluster beim Maxwell-Chip augenscheinlich mit mehr Logik vollgestopft, womit der GM107-Chip sowohl größer daherkommt als AMDs Cape-Verde-Chip (148mm² zu 123mm² Chipfläche), mehr Transistoren wiegt (1,87 Mrd. zu 1,5 Mrd.) als auch folgerichtig in einer etwas höheren Performance-Klasse spielt.

	Chipdaten	Architektur	maximale Technik	Grafikkarten
AMD Cape Verde	1,5 Mrd. Transistoren auf 123mm² Chipfläche	DirectX 11.2a & Mantle	1 Raster-Engine, 640 Shader-Einheiten, 40 TMUs, 16 ROPs, 128 Bit DDR Speicherinterface	Radeon HD 7750 DDR3 (~70%) Radeon HD 7750 GDDR5 (110%) Radeon HD 7770 (145%) Radeon R7 250X (145%)
AMD Bonaire	2,08 Mrd. Transistoren auf 160mm² Chipfläche	DirectX 11.2b, Mantle & TrueAudio	2 Raster-Engines, 896 Shader-Einheiten, 56 TMUs, 16 ROPs, 128 Bit DDR Speicherinterface	Radeon R7 260 (175%) Radeon HD 7790 (185%) Radeon R7 260X (200%)
nVidia GK107	1,3 Mrd. Transistoren auf 118mm² Chipfläche	DirectX 11.0 & PhysX	1 Raster-Engine, 384 Shader-Einheiten, 32 TMUs, 16 ROPs, 128 Bit DDR Speicherinterface	GeForce GT 640 DDR3 (75%) GeForce GTX 650 (115%)
nVidia GM107	1,87 Mrd. Transistoren auf 148mm² Chipfläche	DirectX 11.0 & PhysX	1 Raster-Engine, 640 Shader-Einheiten, 40 TMUs, 16 ROPs, 128 Bit DDR Speicherinterface	GeForce GTX 750 (185%) GeForce GTX 750 Ti (210%)
nVidia GK106	2,54 Mrd. Transistoren auf 214mm² Chipfläche	DirectX 11.0 & PhysX	3 Raster-Engines, 960 Shader-Einheiten, 80 TMUs, 24 ROPs, 192 Bit DDR Speicherinterface	GeForce GTX 650 Ti (170%) GeForce GTX 650 Ti "Boost" (220%) GeForce GTX 660 (250%)

Der eigentliche passende Vergleich zu AMD ist jener zum in der gleichen Performance-Klasse operiendem Bonaire-Chip: Hierbei hat nVidia mit dem GM107-Chip die etwas geringere Transistoren-Anzahl (2,08 Mrd. zu 1,87 Mrd.) sowie die ebenfalls etwas kleinere Chipfläche (160mm² zu 148mm²) aufzubieten. Für nVidia dürfte zudem noch der Haus-interne Vergleich relevant sein, nach welchem der GM107-Chip deutlich kleiner ist als der bisher in diesem Preissegment angesetzte GK106-Chip: Von 2,54 Mrd. Transistoren geht es herunter auf 1,87 Mrd., von 214mm² Chipfläche herunter auf nur 148mm².