Launch-Analyse: nVidia GeForce GTX 970 & 980

Freitag, 19. September 2014
 / von Leonidas
 

Lange wurde auf den zweiten Teil der Maxwell-Generation von nVidia gewartet – und nun ist das Warten endlich vorbei und nVidia präsentiert die GeForce GTX 970 und 980. Beide Grafikkarten kommen auf Basis des GM204-Chips daher, welcher "nur" den zweithöchsten Grafikchip innerhalb der Maxwell-Generation darstellt (der höhere GM200-Chip folgt zum Jahreswechsel), sich aber dennoch mit dem schnellsten Grafikchip der Kepler-Generation in Form des GK110-Chips von GeForce GTX 780, 780 Ti und Titan Black anlegen will (und kann).

Hierfür fährt nVidia mittels des GM204-Chips mit einer Chipfläche von immerhin 398mm² ein ziemlich dickes Stück Silizium für den "nur" zweithöchsten Chip auf – wohl auch geschuldet der weiterhin benutzten 28nm-Fertigung von TSMC, welche laut nVidia immer noch insgesamt wirtschaftlicher (kleinere Chipfläche vs. höhere Waferkosten) als die ebenfalls zur Verfügung stehende 20nm-Fertigung sein soll. Vorteilhafterweise musste nVidia in den GM204-Chip nicht die für die professionellen Zwecke benötigten Transistoren des GK110-Chips packen, so daß beispielsweise die DoublePrecision-Performance nur bei 1/32 der SinglePrecision-Performance liegt (GK104: 1/24, GK110: 1/3 bei den professionellen Grafikkarten). Gleichfalls kam die höhere Effizienz der Maxwell-Architektur zum tragen, welche sich schon beim GM107-Chip der GeForce GTX 750 Serie zeigte (und dort auch ausführlich beschrieben wurde).

So baut sich der GM204-Chip grundsätzlich wie der GM107-Chip auf: Die Shader-Cluster (SMM) enthalten wiederum 128 Shader- und 8 Textureneinheiten, allein erhöht wurden der Level1-Cache pro SMM von 64 kByte auf 96 kByte sowie der Texturen-Cache pro SMM von 24 kByte auf 48 kByte – ansonsten ist das SMM-Block-Diagramm gleich zum GM107-Chip. Dafür wurde erstaunlicherweise der Level2-Cache für den gesamten Chip nicht erhöht, der kleine GM107 und der große GM204 tragen also beide jeweils 2 MB Level2-Cache insgesamt – bedeutsam mehr Level2-Cache wird es dann wohl erst beim GM200-Chip geben. Im Gegensatz zum GM107-Chip, welcher 5 Shader-Cluster an einer Raster-Engine trägt, benutzt der GM204-Chip ein Modell von jeweils 4 Shader-Clustern an einer von 4 Raster-Engines – ergo gibt es insgesamt 16 Shader-Cluster beim GM204-Chip.

nVidia GM204-Chip Block-Diagramm
nVidia GM204-Chip Block-Diagramm
nVidia GM204-Chip Shader-Cluster (SMM) Block-Diagramm
nVidia GM204-Chip Shader-Cluster (SMM) Block-Diagramm

Leider noch keine Bestätigung gibt es derzeit dafür, ob man hierbei wirklich die Raster-Engines des GM107-Chips mit verdoppelter Rasterizer-Leistung verwendet hat – sollte dies so sein, wäre der GM204-Chip bei der Rasterizer-Leistung allen anderen derzeitigen Grafikchips mit mehr als dem Faktor 2 überlegen. nVidia ist sicherlich bekannt dafür, eher mit mehr als weniger Rastizer-Leistung anzutreten, trotzdem ist dieser Punkt zum jetzigen Stand mangels klarer Aussagen in den Launch-Artikeln noch vakant.

GK104 GK110 GM107 GM204
Architektur Kepler Kepler Maxwell Maxwell 2.0
(inoffizielle Bezeichnung)
DirectX-Level 11.0 11.0 11.0 11.2b
Raster-Engines 4 5 1 4
Durchsatz pro Raster-Eng. 8 Pixel/Takt 8 Pixel/Takt 16 Pixel/Takt 16 Pixel/Takt
(noch nicht bestätigt)
Aufbau der Shader-Cluster SMX: 192 Shader-Einheiten, 16 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 8 FP64-Einheiten, 1x Kontrolllogik, 65536 x 32-bit Register File, 64 kByte Level1-Cache, 48 kByte Texturen-Cache wie GK104, außer: 64 anstatt 8 FP64-Einheiten SMM: 128 Shader-Einheiten, 8 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 4 FP64-Einheiten, 4x Kontrolllogik, 65536 x 32-bit Register File, 64 kByte Level1-Cache, 24 kByte Texturen-Cache wie GM107, außer: 96 anstatt 64 kByte Level1-Cache sowie 48 anstatt 24 kByte Texturen-Cache
TMUs zu Shader-Einheit. 1:12 1:12 1:16 1:16
DP/SP-Verhältnis 1/24 1/3 1/32 1/32
Shader-Cluster Perf. 100% ~100% 90% ~90%
Shader-Einheiten Perf. 100% 100% 135% ~135%
Shader-Cluster 8 15 5 16
Shader-Einheiten 1536 2880 640 2048
Textureneinheiten 128 240 40 128
Raster Operation Units 32 48 16 64
Speicherinterface 256 Bit DDR 384 Bit DDR 128 Bit DDR 256 Bit DDR
Level2-Cache 0,5 MB 1,5 MB 2 MB 2 MB

Bemerkenswerter Punkt beim GM204-Chip sind dann noch die gleich 64 Raster Operation Units (ROPs), welche sogar den GK110-Chip (48 ROPs) übertreffen und das Niveau von AMDs Hawaii-Chip (ebenfalls 64 ROPs) erreichen. Dank der höheren Taktraten des GM204-Chips erzielt jener auch hier einen Vorteil von grob Faktor 2 gegenüber früheren nVidia-Lösungen, allerdings natürlich nur einen vergleichsweise maßvollen (und nur durch die höheren Taktraten bedingten) Vorteil gegenüber AMDs Hawaii-Chip.

Ansonsten erscheint das GM204-Design in dem Sinne wie ein hochgepumpter GM107-Chip: Die Technik ist nahezu dieselbe, hinzu gibt es die 4fache Anzahl an Raster-Engines, die 3,2fache Anzahl an Shader-Einheiten, die 4fache Anzahl an ROPs und ein doppelt so breites Speicherinterface – allerdings wie gesagt nur die exakt selbe Menge an Level2-Cache. Trotzdem kann man beim GM204-Design letztlich doch von einer "Maxwell 2.0 Architektur" sprechen, auch wenn nVidia den Begriff nicht in dieser Form verwendet – denn es gibt mit dem GM204-Chip einen guten Strauß an Features, welche der GM107-Chip noch nicht führt:

  • DirectX 11.2 in Hardware
    Der GM107-Chip bietet trotz Maxwell-Architektur wie alle vorherigen nVidia-Chip nur DirectX 11.0 in Hardware, was angesichts der vielen AMD-Chips mit DirectX 11.2 reichlich unmodern erscheint. nVidia wetzt diese Scharte mit dem GM204-Chip nunmehr aus, es wird sogar das "Tier 2" von DirectX 11.2 in Hardware geboten. Zusätzlich gibt es einige der Features des kommenden DirectX 11.3 bzw. DirectX 12 – aber so lange deren Spezifikationen nicht finalisiert worden sind, wäre es Unsinn, von einem entsprechendem Support beim GM204-Chip zu reden.
     
  • Third Generation Delta Color Compression
    Hierbei handelt es sich um einen Bandbreitenschoner, welcher den Nachteil des nur durchschnittlich großen Speicherinterfaces ausgleichen soll. Eigentlich sollten in der "dritten Generation" eines Features keine ganz großen Sprünge mehr drin sein – dennoch behauptet nVidia, mit 25% weniger Speicherbandbreite gegenüber dem GK104-Chip auszukommen. Hier dürften natürlich auch noch andere Effekte – wie der gegenüber dem GK104-Chip vervierfachte Level2-Cache oder auch die neue default-Speicherbestückung von 4 GB – mit hineinspielen. Aber auch in der Benchmark-Praxis zeigt sich letztlich, daß das 256 Bit DDR Speicherinterface den GM204-Chip nicht einmal bis hinauf auf 3840x2160 behindert.
     
  • VR Direct
    Jenes Feature ist zur besseren Unterstützung von VR-Brillen gedacht und befindet sich derzeit noch in einem frühen Entwicklungsstadium, dürfte also erst später mittels neuer Treiber wirklich zur Reife gelangen. Primär will nVidia hiermit die bei heutigen VR-Brillen entstehenden Latenzen weiter absenken, zudem wird es eine native SLI-Unterstützung für VR-Brillen (ebenfalls zur Absenkung der Latenzen) geben.
     
  • Voxel Global Illumination (VXGI)
    Als Zwischenschritt zu vollständigem RayTracing bietet nVidia mit Voxel Global Illumination eine wohl RayTracing nahekommende Beleuchtungsmethode an, welche ihre Vorteile bei dynamischem Licht haben soll. Trotz daß es einen Support der Unreal Engine 4 und weiterer NextGen-Engines geben wird, erscheint dieses Feature als nVidia-Sonderweg, welcher demzufolge von den Spieleentwicklern auch extra unterstützt werden müsste. Demzufolge dürfte das ganze derzeit wohl eher eine nette Technikdemo sein, die anzeigt, was zukünftig möglich sein wird. Vor einer (derzeit nicht bekannten) DirectX-Spezifizierung ist jedoch nicht damit zu rechnen, daß dieses Feature große Verbreitung bei realen Spieletiteln findet.
     
  • Multiframe Sampled Anti-Aliasing (MFAA)
    Diese neue Anti-Aliasing-Art versucht 4x Multisampling zum Aufwand und damit der Performance von 2x Multisampling zu bieten. Dazu arbeitet man nicht mit vier AA-Samples pro Pixel, sondern nur noch zwei – benutzt allerdings die zwei AA-Samples des jeweils vorherigen Bildes mit. Damit arbeitet man mit derselben Datenmenge bei allerdings nur der Hälfe des Leseaufwands – und Speicherbandbreite ist nun einmal der kritische Punkt bei Multisampling Anti-Aliasing. In der Summe der Dinge soll die normale Bildqualität von 4xMFAA nahezu an jene von 4xMSAA herankommen, die Performance-Anforderungen entsprechen allerdings nur 2xMSAA. Unter Bewegung kann es sogar passieren, daß 4xMFAA gleich gut bzw. besser aussieht, weil durch die Verwendung der AA-Samples des vorherigen Bildes eine zusätzliche Bildruhe erreicht wird. Das Feature läßt sich unabhängig des Spiels über den Treiber aktivieren – ist es im Control-Panel aktiv und wird im Spiel "2xMSAA" eingestellt, erhält man stattdessen "4xMFAA". Sofern das Spiel kein Multisampling Anti-Aliasing unterstützt, läßt sich dieses Feature aber natürlich auch nicht nutzen. Derzeit fehlt allerdings noch ein Treiber mit MFAA-Unterstützung, jener soll alsbald nachgereicht werden.
     
  • Dynamic Super Resolution (DSR)
    Hierbei handelt es sich schlicht um ein Downsampling Anti-Aliasing per Treiber. Im Control-Panel kann nunmehr unabhängig des Spiels ein DSR-Faktor von 1.2, 1.5, 1.78, 2.0, 2.25, 3.0 und 4.0 ausgewählt werden, welche der pixelweisen Bildvergrößerung entspricht. Der DSR-Faktor 4.0 ergibt also eine an X- und Y-Achse jeweils verdoppelte Auflösung, aus 1920x1080 wird also 3840x2160. Zudem verwendet nVidia hierbei nicht den standardmäßigen bilinearen Filter für Downsampling, sondern einen Gauss-Filter, welcher weniger Darstellungsfehler zuungunsten einer etwas größeren Unschärfe ergeben soll. Letzteres läßt sich jedoch stufenlos einstellen, insofern dürfte für jeden Geschmack ein sinnvoller Kompromiß zu finden sein. Das DSR-Feature ist derzeit zwar GM204-exklusiv, soll aber später auch für ältere, dato aber noch nicht genauer spezifizierte nVidia-Grafikchips freigeschaltet werden.

Genauere Ausführungen zu den neuen Features überlassen wir gern den vielfältigen Launch-Artikeln, obige Liste soll nur einen Anriß darstellen. Nichtsdestotrotz muß jetzt schon lobend erwähnt werden – und die ersten Kritiken aus den Foren gehen da konform – daß nVidia gerade mit dem Downsampling-Feature "Dynamic Super Resolution" (DSR) ziemlich ins Schwarze getroffen hat. So etwas ist lange gefordert worden und eigentlich war es offensichtlich, daß die Enthusiasten-Gemeinde regelrecht darauf wartet – nVidia hat es nun geliefert, obwohl es sich letztlich um eine reine Software-Angelegenheit handelt und es damit auch jeder andere vorher schon tun können. Allenfalls hätte nVidia es früher liefern können – Downsampling ist nun nicht erst ein Thema des Jahres 2014.