Launch-Analyse nVidia GeForce RTX 4080

Dienstag, 22. November 2022

/ von Leonidas

Nach der GeForce RTX 4090 bringt nVidia mit der "GeForce RTX 4080" seine zweite Gaming-Grafikkarte der neuen Ada-Lovelace-Architektur an den Start. Im Gegensatz zur vorherigen Ampere-Generation basieren die beiden (vorläufigen) Top-Modelle nicht auf demselben Grafikchip, vielmehr benutzt die GeForce RTX 4080 den kleineren AD103-Chip mit einem deutlich kleineren Hardware-Ansatz gegenüber der GeForce RTX 4090. Trotzdem soll es gelingen, die GeForce RTX 4080 klar oberhalb der vorherigen Spitzen-Grafikkarten zu stellen, sprich schneller als eine GeForce RTX 3090 Ti herauszukommen. Ob dies gelingt und wo sich die GeForce RTX 4080 im genauen unter drei Benchmark-Auflösungen mit/ohne RayTracing einordnet, soll diese Launch-Analyse klären.

nVidia GeForce RTX 4080 "Founders Edition"

Der für die GeForce RTX 4080 verwendete AD103-Chip stellt eine grob um –44% nach unten skalierte Ausführung des AD102-Chips der GeForce RTX 4090 dar. Im Gegensatz zur vorherigen Ampere-Generation wird hier auch wirklich alles nahezu gleichlautend skaliert, sprich auch Anzahl der Raster-Engines und Anzahl der ROPs. Interessanterweise ist der AD102-Chip von den Grunddaten her somit dem vorherigen GA102-Chip der Ampere-Generation recht ähnlich: 7 Raster-Engines mit 80 bzw. 84 Shader-Clustern. Den Nachteil beim Speicherinterface (nur 256 Bit anstatt 384 Bit) kann der AD103-Chip sicherlich durch seinen großen Level2-Cache ausgleichen, welcher prinzipiell dieselbe Aufgabe wie AMDs "Infinity Cache" übernimmt. Als großen Vorteil gegenüber dem GA102-Chip hat der AD103-Chip in dieser Ausgangslage natürlich die bekannt viel höheren Taktraten der Ada-Lovelace-Generation auf seiner Seite.

nVidia AD103

"Ada Lovelace" Architektur
45,9 Mrd. Transistoren auf 378,6mm² Chipfläche unter der "4N"-Fertigung von TSMC
7 Raster-Engines (GPC) mit jeweils 6 Texture Processing Cluster (TPC) und 12 "Streaming Multiprocessors" (SM) aka Shader-Clustern; einer dieser Raster-Engines hingegen mit nur 5 TPC und 12 SM (aufgrund offenbar eines Hardware-Defekts) = 80 Shader-Cluster insgesamt
ein Shader-Cluster enthält jeweils 64 FP32-Einheiten, 64 FP32/INT32-Einheiten, 4 Textureneinheiten (TMUs), einen RT-Core v3, vier Tensor-Cores v4, 128 kByte Level1-Cache
ergibt für den gesamten Grafikchip 7 Raster-Engines, 40 TPC, 80 Shader-Cluster, 5120 FP32-Einheiten, 5120 FP32/INT32-Einheiten (somit 10'240 FP32-Einheiten, wenn man nur FP32-Berechnungen laufen hat), 320 Textureneinheiten (TMUs), 80 RT-Core v3, 320 Tensor-Cores v4
16 ROPs pro Raster-Engine = 112 ROPs insgesamt
64 MB Level2-Cache
256 Bit GDDR6X-Speicherinterface
PCI Express 4.0 x16 Interface
rBAR, DLSS3, HDMI 2.1a, DisplayPort 1.4a
resultierende Grafikkarte: GeForce RTX 4080 (nur 76 SM, 9728 FP32-Einheiten)

Regulär sollte der AD103-Chip eigentlich 84 Shader-Cluster aufweisen, die ganz offiziell nur 80 vorhandenen Shader-Cluster stellen eine gewisse Anomalie gegenüber dem ansonsten üblichen streng symetrischen Aufbau auf Grafikchip-Ebene dar. Hierzu gibt es Gerüchte über einen Design- oder Hardware-Fehler, wonach nVidia nicht mehr als maximal 80 Shader-Cluster aktivieren kann. Für die mit nur 76 aktiven Shader-Clustern laufende GeForce RTX 4080 hat dies erst einmal keine Bewandtnis, dies wäre nur für spätere (eventuelle) Refresh-Lösungen auf AD103-Basis interessant. Da es ansonsten keine weiteren deaktivierten Chip-Teile gibt, lassen sich aus dem AD103-Chip gegenüber der aktuellen GeForce RTX 4080 somit derzeit nur 4 weitere Shader-Cluster sowie mit einem (potentiellerweise) gefixten AD103-Chip maximal 8 Shader-Cluster (+10%) herausholen.

Die ganz großen Reserven sind in diesem Fall also nicht vorhanden – im klaren Gegensatz zur GeForce RTX 4090, welche ihren Grafikchip an vielen Einzelpunkten nicht komplett ausnutzt. Dass die GeForce RTX 4090 gegenüber der GeForce RTX 4080 die vergleichsweise stärkere Abspeckung gegenüber dem jeweiligen Vollausbau des zugrundeliegenden Grafikchips darstellt, führt auch dazu, dass GeForce RTX 4080 & 4090 minimal näher zusammenrücken als auf Chip-Ebene AD103 und AD102. Trotzdem verbleibt ein vergleichsweise riesiger Hardware-Sprung zwischen diesen beiden Top-Lösungen: +68% mehr Shader-Cluster zwischen GeForce RTX 4080 & 4090, zuzüglich zu einem um +50% größerem Speicherinterface. Normalerweise würde man in einen so großen Zwischenraum noch eine weitere Grafiklösung hineinsetzen – was natürlich noch kommen kann, beispielsweise mit einer potentiellen Refresh-Generation.

	GeForce RTX 4080	GeForce RTX 4090	Differenz
Raster-Engines (GPC)	7	11	+57% bzw. –36%
Shader-Cluster (SM)	76	128	+68% bzw. –41%
FP32-Einheiten	9728	16'384	+68% bzw. –41%
ROPs	112	176	+57% bzw. –36%
Level2-Cache	64 MB	72 MB	+13% bzw. –11%
Speicherinterface	256 Bit GDDR6X	384 Bit GDDR6X	+50% bzw. –33%

Die GeForce RTX 4080 Grafikkarte selber mutet jedoch optisch keineswegs wie deutlich kleiner als die GeForce RTX 4090 an: Beide Karten tragen als nVidia's "Founders Edition" Design dieselbe Kühlkonstruktion und sind demzufolge identisch groß. Die Grafikkarten-Hersteller sind dieser (nicht bindenden) Vorgabe zumeist gefolgt, womit auch deren GeForce RTX 4080 Karten oftmals ungewöhnlich groß sind für ein 80er Modell. Dies verwundert um so mehr angesichts der deutlich niedrigeren TDP von 320 Watt für die GeForce RTX 4080, weit weg von den 450 TDP der GeForce RTX 4090. Dafür passt dann (leider) der Preispunkt zur übergroßen Karte: nVidia hat für die GeForce RTX 4080 Listenpreise von 1199 Dollar bzw. 1469 Euro angesetzt. Auch dies ist wiederum ungewöhnlich viel für ein 80er Modell – gerade wenn selbiges einen überaus beachtlichen Hardware-Abstand zur nächstgrößeren Karte trägt.

	Radeon RX 6950 XT	GeForce RTX 3090 Ti	GeForce RTX 4080	GeForce RTX 4090
Chipbasis	AMD Navi 21 KXTX	nVidia GA102-350	nVidia AD103-300	nVidia AD102-300
Fertigung	26,8 Mrd. Transistoren auf 519mm² Chipfäche in der 7nm-Fertigung von TSMC	28,3 Mrd. Transistoren auf 628mm² Chipfäche in der 8nm-Fertigung von Samsung	45,9 Mrd. Transistoren auf 379mm² Chipfäche in der 4nm-Fertigung von TSMC	76,3 Mrd. Transistoren auf 609mm² Chipfäche in der 4nm-Fertigung von TSMC
Architektur	AMD RDNA2, DirectX 12 Feature-Level 12_2	nVidia Ampere, DirectX 12 Feature-Level 12_2	nVidia Ada Lovelace, DirectX 12 Feature-Level 12_2
Features	DirectX 12, OpenGL, Vulkan, RayTracing, VSR, FSR 1/2, RSR, FreeSync, TrueAudio Next, XConnect, rBAR	DirectX 12, OpenGL, Vulkan, RayTracing, DSR, DLDSR, DLSS 2, PhysX, G-Sync, FreeSync, rBAR	DirectX 12, OpenGL, Vulkan, RayTracing, DSR, DLDSR, DLSS 2/3, PhysX, G-Sync, FreeSync, rBAR
Technik	4 Raster-Engines, 80 Shader-Cluster, 5120 FP32-Einheiten, 320 TMUs, 80 RA-Einheiten, 128 ROPs, 4 MB Level2-Cache, 128 MB "Infinity Cache", 256 Bit GDDR6-Interface (Vollausbau)	7 Raster-Engines, 84 Shader-Cluster, 10'752 FP32-Einheiten, 336 TMUs, 84 RT-Cores v2, 336 Tensor-Cores v3, 112 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6X-Interface (Vollausbau)	7 Raster-Engines, 76 Shader-Cluster, 9728 FP32-Einheiten, 304 TMUs, 76 RT-Cores v3, 304 Tensor-Cores v4, 112 ROPs, 64 MB Level2-Cache, 256 Bit GDDR6X-Interface (Salvage)	11 Raster-Engines, 128 Shader-Cluster, 16'384 FP32-Einheiten, 512 TMUs, 128 RT-Cores v3, 512 Tensor-Cores v4, 176 ROPs, 72 MB Level2-Cache, 384 Bit GDDR6X-Interface (Salvage)
Taktraten	1890/2100/2310 MHz @ 18 Gbps	1560/1860 MHz & 21 Gbps	2205/2505 MHz & 22,4 Gbps	2235/2520 MHz & 21 Gbps
Rohleistungen	21,5 TFlops & 576 GB/sec	40,0 TFlops & 1008 GB/sec	48,7 TFlops & 717 GB/sec	82,6 TFlops & 1008 GB/sec
Speicherausbau	16 GB GDDR6	24 GB GDDR6X	16 GB GDDR6X	24 GB GDDR6X
Anbindung	PCI Express 4.0 x16	PCI Express 4.0 x16	PCI Express 4.0 x16	PCI Express 4.0 x16
Ref/AIBs/OC	✓ / ✓ / ✓	✓ / ✓ / ✓	✓ / ✓ / ✓	✓ / ✓ / ✓
Layout	Dual-, Triple- & QuadSlot	Dual-, Triple- & QuadSlot	Dual-, Triple- & QuadSlot	Dual-, Triple- & QuadSlot
Kartenlänge	Ref: 27,0cm AIBs: 26,6-34,5cm	FE: 31,3cm AIBs: 22,0-35,6cm	FE: 30,5cm AIBs: 23,5-36,7cm	FE: 30,5cm AIBs: 20,0-36,7cm
Stromstecker	2x 8pol.	1x 16pol.	1x 16pol.	1x 16pol.
off. Verbrauch	335W (ASIC: 284W)	450W	320W	450W
Real-Verbrauch	348W	462W	297W	418W
Ausgänge	HDMI 2.1, 2x DisplayPort 1.4a, USB Type-C	HDMI 2.1, 3x DisplayPort 1.4a	HDMI 2.1, 3x DisplayPort 1.4a	HDMI 2.1, 3x DisplayPort 1.4a
FHD Perf.Index	2230%	2200%	2570%	2890%
4K Perf.Index	368%	410%	484%	640%
Listenpreis	$1099 / 1239€	$1999 / 2249€	$1199 / 1469€	$1599 / 1949€
Straßenpreis	900-1130 Euro	1150-2000 Euro	1500-1600 Euro	2190-2500 Euro
Release	10. Mai 2022	29. März 2022	16. November 2022	12. Oktober 2022

Wie typisch für die Ada-Lovelace-Generation auf Basis von TSMCs 4N-Fertigung (ein speziell für nVidia aufgelegtes Derivat der 5nm-Fertigung, nicht zu verwechseln mit TSMCs regulärem N4-Node), gibt es satte Taktraten auch bei der GeForce RTX 4080: Die offizielle Taktraten-Angabe ist mit 2205/2505 MHz minimal unterhalb der GeForce RTX 4090 liegend, die real gemessenen Taktraten rangieren (zumeist) sogar leicht höher als bei der größeren Karte. Gemittelt kann man derzeit von ca. 2.75 GHz Realtakt bei der GeForce RTX 4080 im default-Betrieb ohne manuelle Übertaktung oder Werksübertaktung ausgehen. Solcherart werksübertaktete Karte können hingegen leicht oberhalb 2.8 GHz Realttakt herauskommen – und im manuellen Übertaktungsbetrieb winken dann tatsächlich Taktraten von knapp 3 GHz.

	Basis	Durchschnitt		Max	gemessener Realtakt
AMD-Bezeichnung:	"Base Clock"	"Game Clock"	"Boost Clock"	"Max Clock"	CB	TPU	PCGH
Radeon RX 6950 XT	1890 MHz	2100 MHz	2310 MHz	?	2392 MHz	2405 MHz	2.42 GHz
Radeon RX 6900 XT	1825 MHz	2015 MHz	2250 MHz	?	2265 MHz	2233 MHz	2.30 GHz
Radeon RX 6800 XT	1825 MHz	2015 MHz	2250 MHz	?	2216 MHz	2257 MHz	2.34 GHz
Radeon RX 6800	1700 MHz	1815 MHz	2105 MHz	?	2177 MHz	2205 MHz	2.20 GHz
Radeon RX 6750 XT	2150 MHz	2495 MHz	2600 MHz	?	2683 MHz	-	2.63 GHz
Radeon RX 6700 XT	2321 MHz	2424 MHz	2581 MHz	?	2531 MHz	2491 MHz	2.54 GHz
Radeon RX 6650 XT	2055 MHz	2410 MHz	2635 MHz	?	2601 MHz	-	2.68 GHz
Radeon RX 6600 XT	1968 MHz	2359 MHz	2589 MHz	?	2562 MHz	-	2.58 GHz
Radeon RX 6600	1626 MHz	2044 MHz	2491 MHz	?	2509 MHz	2444 MHz	2.51 GHz
Radeon RX 6500 XT	2310 MHz	2610 MHz	2815 MHz	?	2753 MHz	-	2.82 GHz
nVidia-Bezeichnung:	"Base Clock"	"Boost Clock"		"Max Clock"	CB	TPU	PCGH
GeForce RTX 4090	2235 MHz	2520 MHz		?	2744 MHz	2701 MHz	2.74 GHz
GeForce RTX 4080	2205 MHz	2505 MHz		?	2725 MHz	2737 MHz	2.78 GHz
GeForce RTX 3090 Ti	1560 MHz	1860 MHz		?	1936 MHz	1979 MHz	2.00 GHz
GeForce RTX 3090	1400 MHz	1700 MHz		?	1754 MHz	-	1.88 GHz
GeForce RTX 3080 Ti	1365 MHz	1665 MHz		?	1784 MHz	1780 MHz	1.80 GHz
GeForce RTX 3080 12GB	1260 MHz	1710 MHz		?	-	-	1.80 GHz
GeForce RTX 3080 10GB	1450 MHz	1710 MHz		?	1827 MHz	1931 MHz	1.90 GHz
GeForce RTX 3070 Ti	1575 MHz	1770 MHz		?	1878 MHz	1861 MHz	1.88 GHz
GeForce RTX 3070	1500 MHz	1725 MHz		?	1920 MHz	1882 MHz	1.86 GHz
GeForce RTX 3060 Ti	1410 MHz	1665 MHz		?	1900 MHz	1877 MHz	1.83 GHz
GeForce RTX 3060	1320 MHz	1777 MHz		?	-	-	1.87 GHz
GeForce RTX 3050	1552 MHz	1777 MHz		?	1891 MHz	1906 MHz	1.89 GHz
Intel-Bezeichnung:	-	"Graphics Clock"		"Max Clock"	CB	TPU	PCGH
Arc A770 "LE"	-	2100 MHz		2400 MHz	-	2386 MHz	2.33 GHz
Arc A750	-	2050 MHz		2400 MHz	-	2394 MHz	2.39 GHz
Realtakt-Angaben gemäß den Ausarbeitungen der ComputerBase (Ø 17-20 Spiele) und von TechPowerUp (Ø 22-25 Spiele) sowie den Praxis-Angaben der PC Games Hardware von jeweils Referenz-Varianten (oder auf Referenz-Taktung/TDP laufend)

Bookmark/Search this post with:

Launch-Analyse nVidia GeForce RTX 4080

Hauptlinks

Suchen

Navigation

Launch-Analyse nVidia GeForce RTX 4080

Die weiteren Seiten des Artikels

Translate

3DCenter unterstützen

Neueste Blogeinträge

Neue Forenbeiträge

Neue Beiträge im Forum Technologie

Uns folgen

Partner

Umfrage