Launch-Analyse nVidia GeForce GTX 1080

Mittwoch, 18. Mai 2016
 / von Leonidas
 

Immerhin gut viereinhalb Jahre nach dem Launch der ersten 28nm-Beschleuniger (AMDs Radeon HD 7970 im Dezember 2011) kommt mit der GeForce GTX 1080 eine erste Grafikkarte basierend auf einer moderneren Fertigungstechnologie in den Markt. Dies ist ein selbst in Zeiten geringer werdender Fortschritte in der Chipfertigung vergleichsweise langer Zeitraum – welcher verbunden war mit einer langen Zeit des Wartens auf die 14/16nm-Generation, nun aber Hoffnung darauf macht, das sich diese lange Wartezeit jetzt in Form kräftiger Performanceschübe bezahlt macht. Ob die GeForce GTX 1080 diesen hohen Erwartungen gerecht werden kann, werden wir nachfolgend im Rahmen dieser Launch-Analyse herauszuarbeiten versuchen, welche wie immer als primären Punkt eine Zusammenfassung bzw. Zusammenrechnung möglichst vieler der Benchmark-Ergebnisse der Launchreviews bieten wird.

Der der GeForce GTX 1080 zugrundeliegende GP104-Chip ist wie bekannt nur nVidias zweithöchste Lösung im Pascal-Portfolio, im Enthusiasten-Segment werden hier später noch GP100- oder GP102-basierte Grafikkarten unter wahrscheinlich dem Titan-Brand antreten. Als zweithöchster Chip besteht zwar im Rahmen einer neuen Chipgeneration trotzdem die Zielsetzung, den allerbesten Chip der zuvorgehenden Chipgeneration (GM200-Chip von GeForce GTX 980 Ti & Titan X) zu schlagen – primär wird damit aber natürlich der zweitbeste Chip der zuvorgehenden Chipgeneration ersetzt, sprich der GM204-Chip von GeForce GTX 970 & 980. Jener trat wie bekannt mit 2048 Shader-Einheiten an einem 256 Bit GDDR5-Speicherinterface an, der GP104-Chip bringt stattdessen 2560 Shader-Einheiten an einem 256 Bit GDDR5X-Speicherinterface daher. Nominell ist dies – gerade für ein neues Fertigungsverfahren – ein sehr kleiner Hardware-Sprung, welcher dann aber gut ausgeglichen wird durch die in der Pascal-Generation deutlich steigenden Chiptaktraten.

nVidia GP104 Blockdiagramm
nVidia GP104 Blockdiagramm
nVidia GP104 Shader-Cluster
nVidia GP104 Shader-Cluster

Chip-intern hat sich hingegen kaum etwas getan, ganz grob kann man daher die GP104-Architektur als "Maxwell in 16nm" betrachten. In dieser Frage ist der GP104-Chip allerdings auch klar abweichend vom womöglich nur für HPC-Aufgaben eingesetzten GP100-Chip, welche einen deutlichen Umbau der Shader-Cluster mit sich bringt – welchen nVidia für den GP104-Chip wieder zurückgenommen hat. Die Zielsetzung beim GP100-Chip war aber wegen der HPC-Ausrichtung auch eine völlig andere, für die Gaming-Ausrichtung des GP104-Chips erscheint nVidia die Zusammenstellung der Shader-Cluster gemäß des Maxwell-Vorbilds wohl auch weiterhin als passend anzusehen.

Kepler Maxwell 2 Pascal – GP104 Pascal – GP100
DirectX 12 Feature-Level 11_0 12_1 12_1 12_1
Durchsatz pro Raster-Engine 8 Pixel/Takt
1 Triangle/Takt
16 Pixel/Takt
1 Triangle/Takt
16 Pixel/Takt
1 Triangle/Takt
16 Pixel/Takt
1 Triangle/Takt
Aufbau der Shader-Cluster 192 Shader-Einheiten, 16 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 8 FP64-Einheiten, 1x Kontrolllogik, 65536 x 32-bit Register File (256 kByte), 64 kByte Level1-Cache, 48 kByte Texturen-Cache
(GK110: 64 anstatt 8 FP64-Einheiten)
128 Shader-Einheiten, 8 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 4 FP64-Einheiten, 4x Kontrolllogik, 65536 x 32-bit Register File (256 kByte), 96 kByte Level1-Cache, 48 kByte Texturen-Cache 128 Shader-Einheiten, 8 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 4 FP64-Einheiten, 4x Kontrolllogik, 65536 x 32-bit Register File (256 kByte), 96 kByte Level1-Cache, 48 kByte Texturen-Cache 64 Shader-Einheiten, 4 Textureneinheiten, 16 Load/Store-Einheiten, 16 SFUs, 32 FP64-Einheiten, 4x Kontrolllogik, 65536 x 32-bit Register File (256 kByte), ? kByte Level1-Cache, ? kByte Texturen-Cache
TMU/SE-Verhältnis 1:12 1:16 1:16 1:16
DP/SP-Verhältnis 1/24  (GK110: 1/3) 1/32 1/32 1/2
SP/HP-Verhältnis - - - 1/2
wichtige Fortschritte - doppelter Pixel-Durchsatz der Raster-Engines, kleinere Shader-Cluster, deutlich mehr Kontrolllogik pro Shader-Einheit, größere Caches pro Shader-Einheit faktisch keine grundsätzlich halbierte Shader-Cluster, deutlich mehr Kontrolllogik und deutlich größere Caches pro Shader-Einheit, massiv mehr FP64-Einheiten, HalfPrecision-Modus

Daneben hat nVidia dann natürlich dennoch einige kleinere und mittlere Verbesserungen mit dem GP104-Chip zu bieten – welche sich in dieser oder besserer Form dann auch in den nachfolgenden weiteren Pascal-Chips und den darauf basierenden GeForce 1000 Grafikkarten wiederfinden werden. Bis vielleicht auf den (anständigen) Support von "Asynchronous Compute" fehlen hierbei sicherlich die großen Innovationen – allerdings waren die vorhergehenden Maxwell-Grafikkarten durchaus schon sehr runde Pakete, bleibt da nicht mehr viel Platz für große Sprünge, sondern sind vielmehr kleinere Verbesserungen der normale Lauf der Welt. Pascal ist für nVidia sowieso eine zwischengeschobene Architektur-Stufe, die nur deswegen aus der Taufe gehoben wurde, weil die 14/16nm-Fertigung für die zuvorgehende Maxwell-Generation noch nicht zur Verfügung stand (bzw. die 20nm-Fertigung komplett ausgelassen wurde). Die nächste "echte" neue nVidia-Architektur wird der Pascal-Nachfolger "Volta" sein, von diesem sind dann eventuell größere Innovationen zu erwarten.

  • Asynchronous Compute
    Auch wenn die Maxwell-Grafikchips dieses Feature rein offiziell bereits unterstützen, erbringt es dort keine Performance bzw. manchmal sogar Performance-Rückschritte. Dies hängt primär daran, das nVidia bei Maxwell diverse Taskswitches nur in Software und damit sehr langsam realisieren kann. Mit Pascal wird diese Scharte ausgewetzt und "Asynchronous Compute" endlich sinnvoll nutzbar. Die Fähigkeiten von neuester AMD-Hardware unter diesem Feature erreicht Pascal zwar noch nicht, aber immerhin eine gewisse Annäherung davon.
     
  • Simultaneous Multi-Projection
    Mit dieser Anpassung in den Raster-Engines wird es möglich, Dreiecke, welche später im Rahmen von 3D-Darstellung, Surround-Monitoring o.ä. mehrfach benutzt werden, nur einmal zu erstellen und direkt weiterzuverwenden. Dies kann im Idealfall extrem an Raster-Power einsparen (theoretisch bis zum 32fachen) – wobei der Realgewinn sehr viel niedriger ausfallen sollte, schließlich muß das mehrfach verwendete Dreieck später trotzdem entsprechend mehrfach durch die Shader-Einheiten. Eine nVidia-Techdemo hierzu ergab ein Performanceplus von ca. 22% – der Effekt unter realen Spielen dürfte nochmals geringer liegen. Das Feature muß durch die Spieleentwickler explizit unterstützt werden, dürfte also erst in einiger Zukunft seine Auswirkungen zeigen können.
     
  • GPU Boost 3.0
    Für die Übertakter hat nVidia interessante Detailanpassungen am Start: Mittels GPU Boost 3.0 kann man nunmehr für verschiedene Spannungen mit jeweils abweichenden Taktraten arbeiten. Dies ermöglicht, die Taktraten-Spielräume bei besonders niedrigen Spannungen besser auszunutzen (da dort nominell weniger Strom verbraucht wird, sollte automatisch mehr Taktspielraum vorhanden sein). Natürlich geht es hierbei nicht um generell wirksame Verbesserungen, sondern um bessere Spiel-Möglichkeiten für eingefleischte Übertakter – aber jene werden daran sicherlich ihre Freude finden. Zudem wird es mittels Dritttools wie dem EVGA Precision X auch "Normal-Overclockern" möglich sein, diese Möglichkeiten automatisiert (d.h. ohne manuelles Feintuning) auszunutzen.
     
  • verbesserte Farbkompression
    An der schon mehrfach verbesseren Farbkompression hat nVidia nochmals gearbeitet und jene um einen 8:1-Modus erweitert. Damit will man einen praktischen Bandbreitengewinn von immerhin 20% erreichen – nicht zu verachten angesichts des Punkts, das die GeForce GTX 1080 nicht mehr nominelle Speicherbandbreite bietet als GeForce GTX 980 Ti & Titan X.
     
  • GDDR5X-Support
    Mit dem Einbau dieses Features ins GP104-Speicherinterface kann nVidia hohe Speicherbandbreiten bieten, ohne das teure HBM-Ökosystem nutzen zu müssen oder aber breitere GDDR5-Speicherinterface (zuungunsten der Chipfläche) verbauen zu müssen. Durch das QDR-Verfahren bei GDDR5X werden doppelt so viele Daten pro Takt wie bei GDDR5 übertragen, damit sind bei maßvollem Bandbreitensprung (wie bei der GeForce GTX 1080) niedrigere Speichertaktraten und damit sogar ein etwas niedrigerer Stromverbrauch für das gesamte Speicher-Subsystem (Speicherinterface & Speicher selber) möglich. nVidia erwähnt hierzu insbesondere die niedrigeren bei der GeForce GTX 1080 benötigten Speicherspannungen – allerdings könnte es auch auf Seiten des Speicherinterfaces Stromersparnisse geben, denn hohe Interface-Taktraten gelten üblicherweise als stromfressend.
     
  • neue SLI-Bridges
    Mit dem GP104-Chip steigt der Takt der nVidia-eigenen SLI-Bridges von 400 auf 650 MHz, zudem kann man mit dem DualLink-Modus nochmals mehr Bandbreite zwischen beiden Grafikchips im SLI-Modus erreichen. Eine von Tom's Hardware hierzu beobachte praktische Auswirkung liegt in einer geringeren Mikroruckler-Neigung bei Verwendung der neuen SLI-Bridges – was für SLI-Benutzer durchaus ein Argument sein sollte. Als Nachteil der neuen Lösung unterstützt nVidia beim GP104-Chip offiziell jedoch nur noch 2fach-SLI, dies ist dann eine Einschränkung zugunsten der später noch nachfolgenden GP100/GP102-Lösungen. Allerdings kann man sich direkt bei nVidia eine Script-Datei geben lassen, welche 3fach- und 4fach-SLI (unsupportet) wieder freischaltet.
     
  • FastSync
    Hiermit bietet nVidia eine Art verbessertes VSync an. Gewöhnliches VSync hat als bekannten Nachteil (selbst oder gerade bei ausreichenden Frameraten) immer noch den Punkt, das massenweise Frames schon im Rendering verworfen werden und damit ein höherer Inputlag als notwendig entsteht (weswegen einige Spieler sogar lieber ohne VSync spielen). Mittels FastSync werden nunmehr die Frames nicht mehr schon beim Rendering verworfen, sondern es wird durchgehend gerendert – ausgegeben wird halt das, was gerade fertig vorliegt. Damit wird der Inputlag auf das Niveau fast von ohne VSycn verringt, ohne allerdings Tearing auszulösen. Als kleiner Nachteil arbeitet die Grafikkarte damit natürlich auch unter Spielen mit hohen fps-Raten immer am Anschlag, kann also potentiell lauter werden als es notwendig wäre. Das Feature wird rein in Software realisiert und laut nVidia zukünftig auch für Maxwell-basierte Grafikkarten angeboten werden.
     
  • VRWorks Audio
    Damit wird es möglich, für ein besonders realistisches Audio-Erlebnis den Grafik-Elementen (besonders Texturen) eine Audio-Informationen mitzugeben, aus welcher sich ergibt, ob die jeweilige Oberfläche Schallwellen absorbiert, reflektiert oder andersweitig verändert. Die Schallwellen kann der Grafikchip dann ähnlich wie beim RayTracing-Verfahren (mit Lichtwellen) simultan für zwölf Echoquellen mit maximal 16.000 Soundpfaden berechnen. Das Feature, was die Spieledesigner natürlich explizit unterstützen müssen, steht interessanterweise nur unter VR zur Verfügung – obwohl es von der technischen Grundlage her durchaus auch unter "normalen" Spielen zum Einsatz kommen könnte und dort dann nVidias Konkurrent zu AMDs TrueAudio-Feature wäre.
     
  • Ansel
    Mit Ansel bietet nVidia ein offizielles Screenshot-Tool mit vielen interessanten Nebenfunktionen an. Zwar wird für Ansel ein direkter Support durch den Spielentwickler benötigt, jener liegt allerdings im geringfügigen Bereich, insofern ist von einer breiten Beteilung der Spieleentwickler bei neueren Spieletiteln auszugehen. Das Feature wird rein in Software realisiert und zukünftig auch für die allermeisten Kepler- und Maxwell-basierten Grafikkarten angeboten werden (exakte Ansel-Supportliste).
     
  • verbesserter Decode- und Encode-Support
    Die neuen durch den GP104-Chip unterstützten De- und Encoder-Möglichkeiten lauten (gegenüber GM204 & GM200): 10 Bit HEVC Encode, HVEC Decode, VP9 Decode, 10 Bit HEVC Decode & 12 Bit HEVC Decode. Damit unterstützt der GP104-Chip dann auch die für HDR-Fernsehen wichtigen Standards, kann also entsprechendes Bildmaterial korrekt dekodieren und an ein HDR-fähiges Ausgabegerät weiterleiten. Bis auf 12-Bit HEVC Decode unterstützt der GM206-Chip allerdings bereits schon dieselben De- und Encoder-Möglichkeiten – jener Grafikchip liegt aber natürlich in einem ganz anderen Preis- und Performancesegment.
     
  • HDMI 2.0b & DisplayPort 1.4
    Mit dem GP104-Chip unterstützt nVidia nunmehr die aktuellen Display-Normen HDMI 2.0b (inklusive Kopierschutz HDCP 2.2) und DisplayPort 1.4. In letzterem Fall ist derzeit allerdings erst einmal nur der offizielle Support für DisplayPort 1.2 real vorhanden, da die nachfolgende Norm 1.4 noch nicht final verabschiedet ist. nVidia ist sich allerdings sicher, zukünftig die offizielle Zertifizierung für DisplayPort 1.3 und 1.4 mit dem GP104-Chip zu bestehen. Weiterhin nicht dabei ist der Support des optionalen DisplayPort-Features "Adaptive Sync", hinter welchem sich AMDs (freier Standard) "FreeSync" verbirgt.