Launch-Analyse nVidia GeForce RTX 4080

Dienstag, 22. November 2022
 / von Leonidas
 

Nach der GeForce RTX 4090 bringt nVidia mit der "GeForce RTX 4080" seine zweite Gaming-Grafikkarte der neuen Ada-Lovelace-Architektur an den Start. Im Gegensatz zur vorherigen Ampere-Generation basieren die beiden (vorläufigen) Top-Modelle nicht auf demselben Grafikchip, vielmehr benutzt die GeForce RTX 4080 den kleineren AD103-Chip mit einem deutlich kleineren Hardware-Ansatz gegenüber der GeForce RTX 4090. Trotzdem soll es gelingen, die GeForce RTX 4080 klar oberhalb der vorherigen Spitzen-Grafikkarten zu stellen, sprich schneller als eine GeForce RTX 3090 Ti herauszukommen. Ob dies gelingt und wo sich die GeForce RTX 4080 im genauen unter drei Benchmark-Auflösungen mit/ohne RayTracing einordnet, soll diese Launch-Analyse klären.

Der für die GeForce RTX 4080 verwendete AD103-Chip stellt eine grob um –44% nach unten skalierte Ausführung des AD102-Chips der GeForce RTX 4090 dar. Im Gegensatz zur vorherigen Ampere-Generation wird hier auch wirklich alles nahezu gleichlautend skaliert, sprich auch Anzahl der Raster-Engines und Anzahl der ROPs. Interessanterweise ist der AD102-Chip von den Grunddaten her somit dem vorherigen GA102-Chip der Ampere-Generation recht ähnlich: 7 Raster-Engines mit 80 bzw. 84 Shader-Clustern. Den Nachteil beim Speicherinterface (nur 256 Bit anstatt 384 Bit) kann der AD103-Chip sicherlich durch seinen großen Level2-Cache ausgleichen, welcher prinzipiell dieselbe Aufgabe wie AMDs "Infinity Cache" übernimmt. Als großen Vorteil gegenüber dem GA102-Chip hat der AD103-Chip in dieser Ausgangslage natürlich die bekannt viel höheren Taktraten der Ada-Lovelace-Generation auf seiner Seite.

    nVidia AD103

  • "Ada Lovelace" Architektur
  • 45,9 Mrd. Transistoren auf 378,6mm² Chipfläche unter der "4N"-Fertigung von TSMC
  • 7 Raster-Engines (GPC) mit jeweils 6 Texture Processing Cluster (TPC) und 12 "Streaming Multiprocessors" (SM) aka Shader-Clustern; einer dieser Raster-Engines hingegen mit nur 5 TPC und 12 SM (aufgrund offenbar eines Hardware-Defekts) = 80 Shader-Cluster insgesamt
  • ein Shader-Cluster enthält jeweils 64 FP32-Einheiten, 64 FP32/INT32-Einheiten, 4 Textureneinheiten (TMUs), einen RT-Core v3, vier Tensor-Cores v4, 128 kByte Level1-Cache
  • ergibt für den gesamten Grafikchip 7 Raster-Engines, 40 TPC, 80 Shader-Cluster, 5120 FP32-Einheiten, 5120 FP32/INT32-Einheiten (somit 10'240 FP32-Einheiten, wenn man nur FP32-Berechnungen laufen hat), 320 Textureneinheiten (TMUs), 80 RT-Core v3, 320 Tensor-Cores v4
  • 16 ROPs pro Raster-Engine = 112 ROPs insgesamt
  • 64 MB Level2-Cache
  • 256 Bit GDDR6X-Speicherinterface
  • PCI Express 4.0 x16 Interface
  • rBAR, DLSS3, HDMI 2.1a, DisplayPort 1.4a
  • resultierende Grafikkarte: GeForce RTX 4080 (nur 76 SM, 9728 FP32-Einheiten)

Regulär sollte der AD103-Chip eigentlich 84 Shader-Cluster aufweisen, die ganz offiziell nur 80 vorhandenen Shader-Cluster stellen eine gewisse Anomalie gegenüber dem ansonsten üblichen streng symetrischen Aufbau auf Grafikchip-Ebene dar. Hierzu gibt es Gerüchte über einen Design- oder Hardware-Fehler, wonach nVidia nicht mehr als maximal 80 Shader-Cluster aktivieren kann. Für die mit nur 76 aktiven Shader-Clustern laufende GeForce RTX 4080 hat dies erst einmal keine Bewandtnis, dies wäre nur für spätere (eventuelle) Refresh-Lösungen auf AD103-Basis interessant. Da es ansonsten keine weiteren deaktivierten Chip-Teile gibt, lassen sich aus dem AD103-Chip gegenüber der aktuellen GeForce RTX 4080 somit derzeit nur 4 weitere Shader-Cluster sowie mit einem (potentiellerweise) gefixten AD103-Chip maximal 8 Shader-Cluster (+10%) herausholen.

Die ganz großen Reserven sind in diesem Fall also nicht vorhanden – im klaren Gegensatz zur GeForce RTX 4090, welche ihren Grafikchip an vielen Einzelpunkten nicht komplett ausnutzt. Dass die GeForce RTX 4090 gegenüber der GeForce RTX 4080 die vergleichsweise stärkere Abspeckung gegenüber dem jeweiligen Vollausbau des zugrundeliegenden Grafikchips darstellt, führt auch dazu, dass GeForce RTX 4080 & 4090 minimal näher zusammenrücken als auf Chip-Ebene AD103 und AD102. Trotzdem verbleibt ein vergleichsweise riesiger Hardware-Sprung zwischen diesen beiden Top-Lösungen: +68% mehr Shader-Cluster zwischen GeForce RTX 4080 & 4090, zuzüglich zu einem um +50% größerem Speicherinterface. Normalerweise würde man in einen so großen Zwischenraum noch eine weitere Grafiklösung hineinsetzen – was natürlich noch kommen kann, beispielsweise mit einer potentiellen Refresh-Generation.

GeForce RTX 4080 GeForce RTX 4090 Differenz
Raster-Engines (GPC) 7 11 +57% bzw. –36%
Shader-Cluster (SM) 76 128 +68% bzw. –41%
FP32-Einheiten 9728 16'384 +68% bzw. –41%
ROPs 112 176 +57% bzw. –36%
Level2-Cache 64 MB 72 MB +13% bzw. –11%
Speicherinterface 256 Bit GDDR6X 384 Bit GDDR6X +50% bzw. –33%

Die GeForce RTX 4080 Grafikkarte selber mutet jedoch optisch keineswegs wie deutlich kleiner als die GeForce RTX 4090 an: Beide Karten tragen als nVidia's "Founders Edition" Design dieselbe Kühlkonstruktion und sind demzufolge identisch groß. Die Grafikkarten-Hersteller sind dieser (nicht bindenden) Vorgabe zumeist gefolgt, womit auch deren GeForce RTX 4080 Karten oftmals ungewöhnlich groß sind für ein 80er Modell. Dies verwundert um so mehr angesichts der deutlich niedrigeren TDP von 320 Watt für die GeForce RTX 4080, weit weg von den 450 TDP der GeForce RTX 4090. Dafür passt dann (leider) der Preispunkt zur übergroßen Karte: nVidia hat für die GeForce RTX 4080 Listenpreise von 1199 Dollar bzw. 1469 Euro angesetzt. Auch dies ist wiederum ungewöhnlich viel für ein 80er Modell – gerade wenn selbiges einen überaus beachtlichen Hardware-Abstand zur nächstgrößeren Karte trägt.

Radeon RX 6950 XT GeForce RTX 3090 Ti GeForce RTX 4080 GeForce RTX 4090
Chipbasis AMD Navi 21 KXTX nVidia GA102-350 nVidia AD103-300 nVidia AD102-300
Fertigung 26,8 Mrd. Transistoren auf 519mm² Chipfäche in der 7nm-Fertigung von TSMC 28,3 Mrd. Transistoren auf 628mm² Chipfäche in der 8nm-Fertigung von Samsung 45,9 Mrd. Transistoren auf 379mm² Chipfäche in der 4nm-Fertigung von TSMC 76,3 Mrd. Transistoren auf 609mm² Chipfäche in der 4nm-Fertigung von TSMC
Architektur AMD RDNA2, DirectX 12 Feature-Level 12_2 nVidia Ampere, DirectX 12 Feature-Level 12_2 nVidia Ada Lovelace, DirectX 12 Feature-Level 12_2
Features DirectX 12, OpenGL, Vulkan, RayTracing, VSR, FSR 1/2, RSR, FreeSync, TrueAudio Next, XConnect, rBAR DirectX 12, OpenGL, Vulkan, RayTracing, DSR, DLDSR, DLSS 2, PhysX, G-Sync, FreeSync, rBAR DirectX 12, OpenGL, Vulkan, RayTracing, DSR, DLDSR, DLSS 2/3, PhysX, G-Sync, FreeSync, rBAR
Technik 4 Raster-Engines, 80 Shader-Cluster, 5120 FP32-Einheiten, 320 TMUs, 80 RA-Einheiten, 128 ROPs, 4 MB Level2-Cache, 128 MB "Infinity Cache", 256 Bit GDDR6-Interface (Vollausbau) 7 Raster-Engines, 84 Shader-Cluster, 10'752 FP32-Einheiten, 336 TMUs, 84 RT-Cores v2, 336 Tensor-Cores v3, 112 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6X-Interface (Vollausbau) 7 Raster-Engines, 76 Shader-Cluster, 9728 FP32-Einheiten, 304 TMUs, 76 RT-Cores v3, 304 Tensor-Cores v4, 112 ROPs, 64 MB Level2-Cache, 256 Bit GDDR6X-Interface (Salvage) 11 Raster-Engines, 128 Shader-Cluster, 16'384 FP32-Einheiten, 512 TMUs, 128 RT-Cores v3, 512 Tensor-Cores v4, 176 ROPs, 72 MB Level2-Cache, 384 Bit GDDR6X-Interface (Salvage)
Taktraten 1890/2100/2310 MHz @ 18 Gbps 1560/1860 MHz & 21 Gbps 2205/2505 MHz & 22,4 Gbps 2235/2520 MHz & 21 Gbps
Rohleistungen 21,5 TFlops & 576 GB/sec 40,0 TFlops & 1008 GB/sec 48,7 TFlops & 717 GB/sec 82,6 TFlops & 1008 GB/sec
Speicherausbau 16 GB GDDR6 24 GB GDDR6X 16 GB GDDR6X 24 GB GDDR6X
Anbindung PCI Express 4.0 x16 PCI Express 4.0 x16 PCI Express 4.0 x16 PCI Express 4.0 x16
Ref/AIBs/OC / / / / / / / /
Layout Dual-, Triple- & QuadSlot Dual-, Triple- & QuadSlot Dual-, Triple- & QuadSlot Dual-, Triple- & QuadSlot
Kartenlänge Ref: 27,0cm
AIBs: 26,6-34,5cm
FE: 31,3cm
AIBs: 22,0-35,6cm
FE: 30,5cm
AIBs: 23,5-36,7cm
FE: 30,5cm
AIBs: 20,0-36,7cm
Stromstecker 2x 8pol. 1x 16pol. 1x 16pol. 1x 16pol.
off. Verbrauch 335W  (ASIC: 284W) 450W 320W 450W
Real-Verbrauch 348W 462W 297W 418W
Ausgänge HDMI 2.1, 2x DisplayPort 1.4a, USB Type-C HDMI 2.1, 3x DisplayPort 1.4a HDMI 2.1, 3x DisplayPort 1.4a HDMI 2.1, 3x DisplayPort 1.4a
FHD Perf.Index 2230% 2200% 2570% 2890%
4K Perf.Index 368% 410% 484% 640%
Listenpreis $1099 / 1239€ $1999 / 2249€ $1199 / 1469€ $1599 / 1949€
Straßenpreis 900-1130 Euro 1150-2000 Euro 1500-1600 Euro 2190-2500 Euro
Release 10. Mai 2022 29. März 2022 16. November 2022 12. Oktober 2022

Wie typisch für die Ada-Lovelace-Generation auf Basis von TSMCs 4N-Fertigung (ein speziell für nVidia aufgelegtes Derivat der 5nm-Fertigung, nicht zu verwechseln mit TSMCs regulärem N4-Node), gibt es satte Taktraten auch bei der GeForce RTX 4080: Die offizielle Taktraten-Angabe ist mit 2205/2505 MHz minimal unterhalb der GeForce RTX 4090 liegend, die real gemessenen Taktraten rangieren (zumeist) sogar leicht höher als bei der größeren Karte. Gemittelt kann man derzeit von ca. 2.75 GHz Realtakt bei der GeForce RTX 4080 im default-Betrieb ohne manuelle Übertaktung oder Werksübertaktung ausgehen. Solcherart werksübertaktete Karte können hingegen leicht oberhalb 2.8 GHz Realttakt herauskommen – und im manuellen Übertaktungsbetrieb winken dann tatsächlich Taktraten von knapp 3 GHz.

Basis Durchschnitt Max gemessener Realtakt
AMD-Bezeichnung: "Base Clock" "Game Clock" "Boost Clock" "Max Clock" CB TPU PCGH
Radeon RX 6950 XT 1890 MHz 2100 MHz 2310 MHz ? 2392 MHz 2405 MHz 2.42 GHz
Radeon RX 6900 XT 1825 MHz 2015 MHz 2250 MHz ? 2265 MHz 2233 MHz 2.30 GHz
Radeon RX 6800 XT 1825 MHz 2015 MHz 2250 MHz ? 2216 MHz 2257 MHz 2.34 GHz
Radeon RX 6800 1700 MHz 1815 MHz 2105 MHz ? 2177 MHz 2205 MHz 2.20 GHz
Radeon RX 6750 XT 2150 MHz 2495 MHz 2600 MHz ? 2683 MHz - 2.63 GHz
Radeon RX 6700 XT 2321 MHz 2424 MHz 2581 MHz ? 2531 MHz 2491 MHz 2.54 GHz
Radeon RX 6650 XT 2055 MHz 2410 MHz 2635 MHz ? 2601 MHz - 2.68 GHz
Radeon RX 6600 XT 1968 MHz 2359 MHz 2589 MHz ? 2562 MHz - 2.58 GHz
Radeon RX 6600 1626 MHz 2044 MHz 2491 MHz ? 2509 MHz 2444 MHz 2.51 GHz
Radeon RX 6500 XT 2310 MHz 2610 MHz 2815 MHz ? 2753 MHz - 2.82 GHz
nVidia-Bezeichnung: "Base Clock" "Boost Clock" "Max Clock" CB TPU PCGH
GeForce RTX 4090 2235 MHz 2520 MHz ? 2744 MHz 2701 MHz 2.74 GHz
GeForce RTX 4080 2205 MHz 2505 MHz ? 2725 MHz 2737 MHz 2.78 GHz
GeForce RTX 3090 Ti 1560 MHz 1860 MHz ? 1936 MHz 1979 MHz 2.00 GHz
GeForce RTX 3090 1400 MHz 1700 MHz ? 1754 MHz - 1.88 GHz
GeForce RTX 3080 Ti 1365 MHz 1665 MHz ? 1784 MHz 1780 MHz 1.80 GHz
GeForce RTX 3080 12GB 1260 MHz 1710 MHz ? - - 1.80 GHz
GeForce RTX 3080 10GB 1450 MHz 1710 MHz ? 1827 MHz 1931 MHz 1.90 GHz
GeForce RTX 3070 Ti 1575 MHz 1770 MHz ? 1878 MHz 1861 MHz 1.88 GHz
GeForce RTX 3070 1500 MHz 1725 MHz ? 1920 MHz 1882 MHz 1.86 GHz
GeForce RTX 3060 Ti 1410 MHz 1665 MHz ? 1900 MHz 1877 MHz 1.83 GHz
GeForce RTX 3060 1320 MHz 1777 MHz ? - - 1.87 GHz
GeForce RTX 3050 1552 MHz 1777 MHz ? 1891 MHz 1906 MHz 1.89 GHz
Intel-Bezeichnung: - "Graphics Clock" "Max Clock" CB TPU PCGH
Arc A770 "LE" - 2100 MHz 2400 MHz - 2386 MHz 2.33 GHz
Arc A750 - 2050 MHz 2400 MHz - 2394 MHz 2.39 GHz
Realtakt-Angaben gemäß den Ausarbeitungen der ComputerBase (Ø 17-20 Spiele) und von TechPowerUp (Ø 22-25 Spiele) sowie den Praxis-Angaben der PC Games Hardware von jeweils Referenz-Varianten (oder auf Referenz-Taktung/TDP laufend)