Launch-Analyse nVidia GeForce RTX 2080 & 2080 Ti

Mittwoch, 26. September 2018
 / von Leonidas
 

Mit dem Launch der GeForce RTX 2080 auf Basis des TU104-Chips sowie der GeForce RTX 2080 Ti auf Basis des TU102-Chip hat nVidia am 19. September 2018 endlich seine lange erwartete nächste Grafikkarten-Generation gestartet. Die Turing-Generation bringt erstmals für PC-Grafikkarten RayTracing-Fähigkeiten in Hardware ins Spiel, läutet so gesehen eine neue Ära ein – durch nVidia auch kenntlich gemacht mit dem neuen Namenssuffix "RTX" (anstatt vorher "GTX"). Da RayTracing allerdings eher ein (sehr) langfristiges Projekt ist, kann jenes für die Bewertung der aktuellen Grafikkarten kaum eine Rolle spielen. Demzufolge kann man sich in der Bewertung von GeForce RTX 2080 und 2080 Ti derzeit noch ganz auf die üblichen Punkte aktuelle Spiele-Performance, Lautstärke, Stromverbrauch und Übertaktungseignung konzentrieren. In diese Richtung hin wurden für diese Launch-Analyse die inzwischen fünf Dutzend an Launchreviews zu den beiden neuen Turing-Grafikkarten durchgearbeitet und nachfolgend deren relevante Aussagen verdichtet.

nVidia GeForce RTX 2080 "Founders Edition"
nVidia GeForce RTX 2080 "Founders Edition"
nVidia GeForce RTX 2080 Ti "Founders Edition"
nVidia GeForce RTX 2080 Ti "Founders Edition"

nVidias Turing-Generation mag ursprünglich für die 10nm-Fertigung von Samsung gedacht gewesen sein, kommt nun aber doch in der (nur geringfügig veränderten) 12nm-Fertigung von TSMC daher. Damit sind keine große Steigerungen der Einheiten-Anzahl möglich, hinzukommend die diversen Änderungen an den Shader-Clustern samt der neuen RayTracing-Fähigkeiten führt dies dennoch zu enorm großen Grafikchips innerhalb der Turing-Generation. Der TU104-Chip der GeForce RTX 2080 ist mit 545mm² beachtbar größer als der GP102-Chip der GeForce GTX 1080 Ti mit dessen "nur" 471mm² Chipfläche – und damit für einen zweitgrößen Gamer-Chip eigentlich viel zu groß, bislang ist nVidia in diesem Marktsegment bei Chipflächen von 300-400mm² unterwegs. Der TU102-Chip der GeForce RTX 2080 Ti ist dagegen mit 754mm² klar der größte jemals primär für Gaming-Bedürfnisse aufgelegte Grafikchip – bislang ist nVidia in diesem Marktsegment ebenfalls deutlich kleiner mit Chipflächen von bestenfalls ~600mm² angetreten.

nVidia Turing TU106 nVidia Turing TU104 nVidia Turing TU102
Chip 10,6 Mrd. Transistoren auf 445mm² Chipfläche in der 12nm-Fertigung von TSMC 13,6 Mrd. Transistoren auf 545mm² Chipfläche in der 12nm-Fertigung von TSMC 18,6 Mrd. Transistoren auf 754mm² Chipfläche in der 12nm-Fertigung von TSMC
Hardware 3 Raster-Engines, 36 Shader-Cluster, 2304 Shader-Einheiten, 144 TMUs, 36 RT-Cores, 288 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Speicherinterface 6 Raster-Engines, 48 Shader-Cluster, 3072 Shader-Einheiten, 192 TMUs, 48 RT-Cores, 384 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Speicherinterface 6 Raster-Engines, 72 Shader-Cluster, 4608 Shader-Einheiten, 288 TMUs, 72 RT-Cores, 576 Tensor-Cores, 96 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6-Speicherinterface
NVLink & SLI - ein NVLink 2.0 x8-Anschluß (50 GB/sec), Support für maximal 2fach SLI zwei NVLink 2.0 x8-Anschlüsse (100 GB/sec), Support für maximal 2fach SLI
verbaut bei GeForce RTX 2070 (Vollausbau) GeForce RTX 2080 (Salvage) & Quadro RTX 5000 (Vollausbau) GeForce RTX 2080 Ti (Salvage) & Quadro RTX 6000/8000 (Vollausbau)
Vorgänger-Chip - Pascal GP104, 7,2 Mrd. Transistoren auf 314mm² Chipfläche in der 16nm-Fertigung von TSMC, 4 Raster-Engines, 20 Shader-Cluster, 2560 Shader-Einheiten, 160 TMUs, 64 ROPs, 2 MB Level2-Cache, 256 Bit GDDR5X-Speicherinterface Pascal GP102, 12 Mrd. Transistoren auf 471mm² Chipfläche in der 16nm-Fertigung von TSMC, 6 Raster-Engines, 30 Shader-Cluster, 3840 Shader-Einheiten, 256 TMUs, 96 ROPs, 3 MB Level2-Cache, 384 Bit GDDR5X-Speicherinterface

Die deutlich größere Chipfläche resultiert primär aus drei Punkten: Erstens einmal eine Steigerung der nominellen Einheiten-Anzahl um jeweils +20%, zweitens die Einschließung von RayTracing und drittens die (deutliche) Umgestaltung der Shader-Cluster von Turing. Die RayTracing-Funktionalität wurde direkt in selbige integriert, aber es gab daneben auch andere, sehr bedeutsame Änderungen: So sinkt die Anzahl der Shader-Einheiten pro Shader-Cluster von 128 auf 64, womit sich die Kontrolllogik pro Shader-Einheit grob verdoppelt (was der besseren Auslastung der Shader-Einheiten dient). Gleichfalls wurden neben den 64 üblichen FP32-Einheiten pro Shader-Cluster auch noch 64 INT32-Einheiten verbaut, welche zudem nunmehr auch gleichzeitig genutzt werden können. Faktisch gesehen steigt die Anzahl der Ausführungseinheiten damit also doch stark an – auch wenn Integer-Code derzeit noch nicht in diesem Ausmaß von Spielen genutzt wird wie Fließkomma-Code. Zudem läuft die FP16-Funktionalität nunmehr mit doppelter Performance, bei Spielen mit starker Nutzung von FP16-Code sind sind somit gute Performancegewinne zu erwarten.

So gesehen ist Turing ein großer Architektur-Sprung – ähnlich dem von Kepler zu Maxwell, wo es bekannterweise ebenfalls neue Shader-Cluster und auch kein wirklich neues Fertigungsverfahren gab. Diese großen internen Änderungen zugunsten des normalen Rendering-Ablaufs bedeuten aber auch, das Turing durchaus noch eine gewisse Reifezeit hinlegen könnte. Zwar sollten aktuelle Spiele bereits über die Turing-Treiber halbwegs gut optimiert werden, aber neu herauskommende Spiele sollten sich dann besser auf die neuen Shader-Cluster und deren neue Hardware-Fähigkeiten einlassen – womit die Turing-Grafikkarten unter zukünftigen Spielen stärker zulegen könnten, als es dato der Fall ist. Selbigen Effekt gab es schließlich auch schon bei der Maxwell-Generation zu beobachten, welche sich über die Zeit immer besser von den vorherigen Grafikkarten absetzen konnte. Richtig beachtbare Performancesprünge sind damit natürlich nicht zu erwarten, dieserart Verbesserungen über die Zeit laufen üblicherweise im Rahmen von einigen Prozentpunkten ab.

Kepler Maxwell 2 Pascal Turing
gilt für Grafikchips GK110, GK104, GK106, GK107, GK208 GM200, GM204, GM206 GP102, GP104, GP106, GP107, GP108 (nicht für GP100) TU102, TU104, TU106
DirectX 12 Feature-Level 11_0 12_1 (Tier 2) 12_1 (Tier 2) 12_1 (Tier 3)
RayTracing
Durchsatz pro Raster-Engine 8 Pixel/Takt
1 Triangle/Takt
16 Pixel/Takt
1 Triangle/Takt
16 Pixel/Takt
1 Triangle/Takt
(vermutlich)
16 Pixel/Takt
1 Triangle/Takt
Aufbau der Shader-Cluster 192 Shader-Einheiten (FP32), 16 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 8 FP64-Einheiten, 1x Kontrolllogik, 256 kByte Register File, 64 kByte Level1-Cache, 48 kByte Daten-Cache
(GK110: 64 anstatt 8 FP64-Einheiten)
128 Shader-Einheiten (FP32), 8 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 4 FP64-Einheiten, 4x Kontrolllogik, 256 kByte Register File, 48 kByte Level1-Cache, 96 kByte Daten-Cache 128 Shader-Einheiten (FP32), 8 Textureneinheiten, 32 Load/Store-Einheiten, 32 SFUs, 4 FP64-Einheiten, 4x Kontrolllogik, 256 kByte Register File, 48 kByte Level1-Cache, 96 kByte Daten-Cache 64 Shader-Einheiten (FP32), 4 Textureneinheiten (INT32), 16 Load/Store-Einheiten, 16 SFUs, 2 FP64-Einheiten, 64 Integer-Einheiten (INT32), 1 RT-Core, 8 Tensor-Cores, 4x Kontrolllogik, 256 kByte Register File, 96 kByte Level1- und Daten-Cache
TMU/SE-Verhältnis 1:12 1:16 1:16 1:16
FP64/FP32-Perf. 1:24  (GK110: 1:3) 1:32 1:32 1:32
FP16/FP32-Perf. - - 1:1 2:1
wichtige Fortschritte - doppelter Pixel-Durchsatz der Raster-Engines, kleinere Shader-Cluster, deutlich mehr Kontrolllogik pro Shader-Einheit, größere Caches pro Shader-Einheit FP16-Fähigkeit (ohne Performance-Verbesserung) kleinere Shader-Cluster, extra INT32-Einheiten, FP16-Fähigkeit mit doppelter Performance, grob verdoppelte Kontrolllogik pro Shader-Einheit, größere Caches pro Shader-Einheit, RayTracing in Hardware

Weitere Performancesprünge sind dann zu erwarten, wenn die Spieleentwickler diverse neue Rendering-Features von Turing nutzen: Wie die doppelte FP16-Performance, was ja derzeit seitens der Spieleentwickler schon angegangen wird und auch bei AMDs Vega-Architektur existiert. Daneben gehören dann auch "Mesh Shading" (neue Geometrie-Shader zur Entlastung der CPU, nicht unähnlich den "Primitive Shaders" von AMDs Vega), "Variable Rate Shading" (VRS) (Reduzierung der Shader-Qualität an unwichtigen Stellen, interessant besonders für die Außenteile des Bildes bei VR-Rendering), "Texture-Space Shading" (Wiederverwendung von Shading-Operationen) und "Multi-View Rendering" (MVR) (Rendering mehrerer Bildansichten zugleich) als weitere neue Rendering-Features von Turing, welche allesamt ebenso seitens der Spiele-Entwickler explizit eingebaut werden müssen. Die teilweise mit diesen Features mögliche Reduzierung der Renderqualität liegt dabei komplett in den Händen des Spieleentwicklers – jener entscheidet also weiterhin, wo die "unwichtige Stellen" sind und wie sein Spiel optisch aussehen soll. Im Gegensatz zu FP16-Code dürfte die reale Nutzung der anderen genannten Rendering-Features von Turing seine Zeit brauchen – was natürlich auch wieder zugunsten einer langfristig (relativ gesehen) steigenden Performance geht.

Aus den beiden größeren Turing-Chips TU104 und TU102 hat nVidia dann die Gamer-Grafikkarten GeForce RTX 2080 und GeForce RTX 2080 Ti geformt. Beide treten nicht im Vollausbau der zugrundeliegenden Grafikchips an – was bei der GeForce RTX 2080 Ti relativ normal ist, hier dürfte eine nachfolgende Titan-Karte den Vollausbau stellen. Bei der GeForce RTX 2080 ist dies etwas ungewöhnlich, basiert aber letztlich auf dem Umstand, das die nachfolgende GeForce RTX 2070 auf einem eigenen Grafikchip basiert und damit nicht die Rolle einer Salvage-Lösung übernehmen kann – dies muß nun die GeForce RTX 2080 selbst tun. Die Hardware-Abspeckungen sind allerdings jeweils eher geringfügig: Der GeForce RTX 2080 fehlen zwei Shader-Cluster (46 anstatt 48, -4%), der GeForce RTX 2080 Ti dann immerhin vier Shader-Cluster (68 anstatt 72, -6%) samt einem Speichercontroller (352 anstatt 384 Bit, -8%). Wegen dieser Abspeckungen ist eine später erscheinende TU102-basierte Titan-Karte wie gesagt ziemlich wahrscheinlich, eine weitere TU104-basierte Karte mit dem Vollausbau dieses Grafikchips (wegen der geringen Hardware-Differenz) dagegen eher nicht.

GeForce GTX 1080 GeForce GTX 1080 Ti GeForce RTX 2080 GeForce RTX 2080 Ti
Chipbasis nVidia GP104 nVidia GP102 nVidia TU104 nVidia TU102
Fertigung 7,2 Mrd. Transistoren auf 314mm² Chipfläche in der 16nm-Fertigung von TSMC 12 Mrd. Transistoren auf 471mm² Chipfläche in der 16nm-Fertigung von TSMC 13,6 Mrd. Transistoren auf 545mm² Chipfläche in der 12nm-Fertigung von TSMC 18,6 Mrd. Transistoren auf 754mm² Chipfläche in der 12nm-Fertigung von TSMC
Architektur Pascal, DirectX 12 Feature-Level 12_1 (Tier 2) Turing, DirectX 12 Feature-Level 12_1 (Tier 3)
Features DirectX 12, OpenGL, Vulkan, Asynchonous Compute, DSR, SLI, PhysX, G-Sync DirectX 12, OpenGL, Vulkan, Asynchonous Compute, RayTracing, DSR, DLSS, SLI, PhysX, NVLink, G-Sync
Technik 4 Raster-Engines, 20 Shader-Cluster, 2560 Shader-Einheiten, 160 TMUs, 64 ROPs, 256 Bit GDDR5X-Interface, 2 MB Level2-Cache (Vollausbau) 6 Raster-Engines, 28 Shader-Cluster, 3584 Shader-Einheiten, 224 TMUs, 88 ROPs, 352 Bit GDDR5X-Interface, 2.75 MB Level2-Cache (Salvage) 6 Raster-Engines, 46 Shader-Cluster, 2944 Shader-Einheiten, 184 TMUs, 46 RT-Cores, 368 Tensor-Cores, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface (Salvage) 6 Raster-Engines, 68 Shader-Cluster, 4352 Shader-Einheiten, 272 TMUs, 68 RT-Cores, 544 Tensor-Cores, 88 ROPs, 5.5 MB Level2-Cache, 352 Bit GDDR6-Interface (Salvage)
Taktraten 1607/1733/2500 MHz 1480/1582/2750 MHz Std.: 1515/1710/3500 MHz
FE: 1515/1800/3500 MHz
Std.: 1350/1545/3500 MHz
FE: 1350/1635/3500 MHz
Speicherausbau 8 GB GDDR5X 11 GB GDDR5X 8 GB GDDR6 11 GB GDDR6
Layout DualSlot DualSlot DualSlot DualSlot
Kartenlänge 26,7cm 26,7cm 26,7cm 26,7cm
Ref./Herst./OC / / / / / / / /
Stromstecker 1x 8pol. 1x 6pol. + 1x 8pol. 1x 6pol. + 1x 8pol. 2x 8pol.
off. Verbrauch 180W 250W Std.: 215W   FE: 225W Std.: 250W   FE: 260W
Idle-Verbrauch 6W 11W FE: 16W FE: 21W
Spiele-Verbr. 175W 238W Std.: ~218W   FE: 228W Std.: ~260W   FE: 271W
Ausgänge DualLink DVI-D, HDMI 2.0b, 3x DisplayPort 1.4 HDMI 2.0b, 3x DisplayPort 1.4 HDMI 2.0b, 3x DisplayPort 1.4, VirtualLink per USB Type C HDMI 2.0b, 3x DisplayPort 1.4, VirtualLink per USB Type C
4K Perf.Index 132% 175% Std.: ~180%   FE: 186% Std.: ~228%   FE: 236%
Listenpreis 499$ 699$ Std.: 699$   FE: 799$/849€ Std.: 999$   FE: 1199$/1259€
Straßenpreis 480-530€ 680-750€ 840-900€ 1230-1300€
(verfügbar 27.9.)
Release 17. Mai 2016 10. März 2017 19. September 2018 19. September 2018