30

Gerüchteküche: GeForce RTX 4070 & 4080 im TimeSpy um +47% bzw. +65% schneller als ihre Ampere-Vorgänger

Von Twitterer Kopite7kimi kommen die nächsten (groben) Performance-Angaben zu GeForce RTX 40 Grafikkarten: Nachdem es vor zwei Wochen einen ersten TimeSpy-Wert zur GeForce RTX 4090 gab, folgen nun entsprechende Angaben zu GeForce RTX 4070 & 4080 nach. Jene dürften auf internen Tests bei nVidia basieren, da derzeit maximal die GeForce RTX 4090 schon bei den ersten Grafikkarten-Herstellern gelandet sein könnte, GeForce RTX 4070 & 4080 hingegen jedoch ziemlich sicher noch nicht. Der Twitterer bestätigte allerdings im Nachgang, dass es sich hierbei nicht um Hochrechnungen handelt, sondern die Basis dieser (aus Quellenschutz-Gründen sehr gerundeten) Werte vielmehr echte Messungen darstellen.

RTX 4080, TSE >15000,
RTX 4070, TSE ~10000.
These scores are based on specs I mentioned before.
Honestly, it's not quite sure yet except RTX 4090. Well, I don't care.

Quelle:  Kopite7kimi @ Twitter am 29. Juli 2022
 
It's not all estimation. It's based on actual tests.
Quelle:  Kopite7kimi @ Twitter am 29. Juli 2022

Im Vergleich mit früher aufgestellten Werten zu den GeForce RTX 30 Modellen in FE-Ausführung kommt die GeForce RTX 4080 um +65% schneller als ihre Ampere-Vorgängerin aus, die GeForce RTX 4070 hingegen nur um +47%. Die genannten Prozentwerte können sich je nach der konkreten TimeSpy-Zahl natürlich noch leicht verschieben – doch vorerst kann man nur damit rechnen, was aktuell bekannt ist. Beide neuen Ergebnisse liegen klar unterhalb des Performance-Gewinns der GeForce RTX 4090, welche ihrerseits +86% auf ihre Ampere-Vorgängerin drauflegt. Allerdings war dies zu erwarten, denn der Hardware-Sprung ist zwischen den jeweiligen Spitzen-Chips klar am größten. Die +65% Performance-Gewinn bei der GeForce RTX 4080 liegen dann im Rahmen der Erwartungshaltung bzw. letzten Performance-Prognose.

3DMark TimeSpy Extreme (Graphics) Hardware TS-Extreme Ampere/Ada Quelle
GeForce RTX 4090 AD102, 128 SM @ 384 Bit >19'000 +86% Kopite7kimi @ Twitter
GeForce RTX 4080 AD103, 80 SM @ 256 Bit >15'000 +65% Kopite7kimi @ Twitter
MSI GeForce RTX 3090 Ti Suprim X GA102, 84 SM @ 384 Bit 11'382 Harukaze5719 @ Twitter
Palit GeForce RTX 3090 Ti GameRock OC GA102, 84 SM @ 384 Bit 10'602 Ø Club386 & Overclock3D
nVidia GeForce RTX 3090 FE GA102, 82 SM @ 384 Bit 10'213 PC-Welt
GeForce RTX 4070 AD104, 56 SM @ 160 Bit ~10'000 +47% Kopite7kimi @ Twitter
nVidia GeForce RTX 3080 FE GA102, 68 SM @ 320 Bit 9092 PC-Welt
nVidia GeForce RTX 3070 FE GA104, 46 SM @ 256 Bit 6796 PC-Welt
Der Vergleich "Ampere/Ada" bezieht sich auf nummerngleiche Karte: 3070→4070, 3080→4080 & 3090→4090.

Die nur +47% Performance-Gewinn der GeForce RTX 4070 liegen allerdings unterhalb der letzten Performance-Prognose – wobei jene die Spezifikations-Änderung vom 192-Bit- auf ein 160-Bit-Speicherinterface noch nicht einrechnete. Augenscheinlich kostet dies die GeForce RTX 4070 doch etwas an Potential und ist damit deren Performance-Plus nicht ganz so groß wie bei der GeForce RTX 4080. Dem wurde durch eine neue Performance-Prognose nunmehr Rechnung getragen (ca. 1,4-1,7fache gegenüber GeForce RTX 3070). Der Performance-Sprung bei der GeForce RTX 4070 liegt dennoch im vernünftigen Rahmen und könnte zudem in der Praxis auch wieder etwas höher ausfallen, wenn man diese Karte (wie mit dem TimeSpy Extreme) nicht gerade unter UltraHD/4K testet. Denn dafür ist die GeForce RTX 4070 – trotz einer FP32-Rechenleistung auf Höhe der GeForce RTX 3090 Ti – schlicht nicht konzipiert.

Bis auf diesen gewissen Abschlag bei der GeForce RTX 4070 kommen diese neuen TimeSpy-Werte ganz gut dort heraus, wo man die kleineren Modelle der GeForce RTX 40 bislang erwarten konnte. Nun muß sich natürlich erst noch bestätigen, dass Spiele-Benchmarks möglichst ähnlich klingende Resultate auswerfen, ein synthetischer Tester muß gerade in der absoluten Ergebnis-Höhe niemals wirklich korrekt sein. Halten sich diese TSE-Ergebnisse im groben Maßstab, dürfte die GeForce RTX 4070 in etwa auf der Performance-Höhe einer GeForce RTX 3080 Ti bis 3090 herauskommen, die GeForce RTX 4080 hingegen eine GeForce RTX 3090 Ti FE um ca. 40% Mehrperformance in die Tasche stecken. Dass sich die zweitbeste Lösung des neuen Portfolios so deutlich von der besten Lösung der Alt-Generation absetzen kann, zeigt nochmals den enormen generellen Sprung der Ada-Lovelace-Generation an.

GeForce RTX 4070 GeForce RTX 4080 GeForce RTX 4090 "AD102-450"
Chip-Basis nVidia AD104-275 nVidia AD103-300 nVidia AD102-300 nVidia AD102-450
Referenz-Board PG141-SKU341 PG139-SKU360 PG139-SKU330 PG137-SKU0
Raster-Engines 5 GPC 7 GPC vermtl. 11 GPC 12 GPC
Recheneinheiten 56 Shader-Cluster, 7168 FP32 + 3584 INT32 (10'752 Recheneinheiten insgesamt) 80 Shader-Cluster, 10'240 FP32 + 5120 INT32 (15'360 Recheneinheiten insgesamt) 128 Shader-Cluster, 16'384 FP32 + 8192 INT32 (24'576 Recheneinheiten insgesamt) 142 Shader-Cluster, 18'176 FP32 + 9088 INT32 (27'264 Recheneinheiten insgesamt)
Taktraten ? ? 2235/2520 MHz ?
ROPs vermtl. 160 vermtl. 224 vermtl. 352 vermtl. 384
Level2-Cache ≤48 MB ≤64 MB ≤96 MB 96 MB
Speicherinterface 160 Bit GDDR6 256 Bit GDDR6X 384 Bit GDDR6X 384 Bit GDDR6X
Speicher 10 GB GDDR6 @ 18 Gbps 16 GB GDDR6X @ 21 Gbps 24 GB GDDR6X @ 21 Gbps 48 GB GDDR6X @ 24 Gbps
Rohleistungen ca. 37-42 TFlops & 360 GB/sec ca. 53-59 TFlops & 672 GB/sec 82,6 TFlops & 1008 GB/sec ca. 98-105 TFlops & 1152 GB/sec
Stromverbrauch 300W TDP 420W TDP 450W TDP 600-800W TDP
Performance-Level 3070→4070: ca. 1,4-1,7fache 3080→4080: ca. 1,6-1,8fache 3090→4090: ca. 1,8-2,0fache 3090Ti→AD102-450: ca. 1,9-2,3fache
Listenpreis ? ? ? ?
Launch Anfang 2023 Anfang 2023 Oktober 2022 irgendwann 2023
Vorgänger GeForce RTX 3070: GA104, 6 GPC, 46 SM @ 256 Bit, 20,3 TFlops & 448 GB/sec, 96 ROPs, 8 GB GDDR6, $499 GeForce RTX 3080: GA102, 6 GPC, 68 SM @ 320 Bit, 29,8 TFlops & 760 GB/sec, 96 ROPs, 10 GB GDDR6X, $699 GeForce RTX 3090: GA102, 7 GPC, 82 SM @ 384 Bit, 35,7 TFlops & 936 GB/sec, 112 ROPs, 24 GB GDDR6X, $1499 GeForce RTX 3090 Ti: GA102, 7 GPC, 84 SM @ 384 Bit, 40,0 TFlops & 1008 GB/sec, 112 ROPs, 24 GB GDDR6X, $1999
Anmerkung: alle Angaben zu noch nicht vorgestellter Hardware basieren auf Gerüchten & Annahmen

Nachtrag vom 31. Juli 2022

Auffallend zu den TimeSpy-Performancewerten der GeForce RTX 40 Karten ist der deutliche Rückgang der (gegenüber dem jeweiligen Vorgänger) erzielten Mehrperformance zwischen GeForce RTX 4090 und GeForce RTX 4070: Von +86% über +65% auf +47%. Generell war von GeForce RTX 4070 & 4080 der geringere Performance-Zuwachs zu erwarten, schließlich haben jene keinen so deutlich nach oben gehenden Grafikchip (AD104/AD103) als Unterbau wie die GeForce RTX 4090 (AD102). Dies wurde an dieser Stelle bereits in diesem April derart thematisiert, die höchste Performance-Prognose konnte sich somit bei nVidias Ada-Lovelace-Generation immer nur auf das Spitzenmodell beziehen. Allerdings kommt die GeForce RTX 4070 nun dennoch unterhalb der schon entsprechend niedriger angesetzten Performance-Prognose heraus. Da bezüglich des Rechenleistungs-Vorteils keine echte Differenz zur GeForce RTX 4080 besteht, muß ein anderer Faktor für dieses Ergebnis verantwortlich sein.

3070 → 4070 3080 → 4080 3090 → 4090
FP32-Rechenleistung ca. +80-105% ca. +80-100% ca. +131%
Speicherbandbreite –20% –12% +8%
TSE-Performance +47% +65% +86%
TDP 220W → 300W 320W → 420W 350W → 450W
Verbrauchs-Effizienz +8% +26% +45%
Ada-Hardware AD104, 56 SM @ 160 Bit, ≤48 MB L2 AD103, 80 SM @ 256 Bit, ≤64 MB L2 AD102, 128 SM @ 384 Bit, ≤96 MB L2

Die bisherige Vermutung ist, dass es etwas mit Speicherinterface und auch Level2-Cache zu tun hat: Die GeForce RTX 4070 benutzt nunmehr nicht das volle 192-Bit-Interface des zugrundeliegenden AD104-Chips – sondern nur 160 Bit davon. Damit hat jene Karte auch das größte Minus an Speicherbandbreite gegenüber der Vorgänger-Generation zu beklagen, immerhin –20% gegenüber der GeForce RTX 3070. Hinzu kommt, dass der große Level2-Cache – welcher bei der Ada-Architektur prinzipiell wie ein "Infinity Cache" wirken sollte – bei der GeForce RTX 4070 nur 48 MB beträgt und durch das reduzierte Speicherinterface mutmaßlicherweise weiter reduziert wird. Denn üblicherweise hängt man bei nVidia eine gewisse Menge an Level2-Cache an ein Teil-Speicherinterface. Beschneidet man nunmehr das Speicherinterface, sollte dieser Teil des Level2-Caches ebenfalls fehlen. Somit könnte die GeForce RTX 4070 an einem 160-Bit-Interface auch mit nur 40 MB Level2-Cache antreten.

Und dies ist dann schon recht wenig, gerade wenn man damit höhere Auflösungen bestreiten will. Ein gutes Beispiel hierfür ist die Radeon RX 6600 XT mit ihren nur 32 MB Infinity Cache, welche zwar unter FullHD (leicht) schneller als eine GeForce RTX 3060 ist – unter UltraHD/4K diesen Zweikampf dann wiederum (leicht) verliert. Für diese hohe Auflösung reicht das zugrundeliegende 128-Bit-Interface und die nur mittelprächtige Cache-Menge der Radeon RX 6600 XT nicht aus. Ähnlich könnte es der GeForce RTX 4070 ergehen, welche dann nur unter FullHD und WQHD wirklich stark ist, unter 4K hingegen bemerkbar nachläßt. Demzufolge könnte auch der TimeSpy-Benchmark, welche in der "Extreme"-Ausführung eben unter UltraHD/4K ausgeführt wird, eventuell nicht die volle Performance der GeForce RTX 4070 zeigen. Aufgrund der genannten Abspeckungen wird die Karte allerdings sowieso nie ganz so viel auf ihre direkte Vorgängerin oben drauf legen können wie die GeForce RTX 4080.

Ebenfalls sehr unterschiedlich zwischen den einzelnen RTX40-Modellen ist dann die Verbrauchs-Effizienz, sprich der Verbrauchs-normierte Performance-Gewinn. Hier erreicht die GeForce RTX 4090 gerade einmal +45%, die beiden anderen Modelle liegen noch klar unterhalb dieses Wertes. Natürlich können sich die konkreten Zahlen noch verschieben, je nach der Performance unter realen Spielen sowie dem Unterschied zwischen TDP und realem Verbrauch. Aber allein der jetzt zu sehende Effizienz-Gewinn ist für einen Sprung um anderthalb Fertigungsnodes sowie dem Wechsel von Samsung zu TSMC richtiggehend mager. Dies zeigt darauf hin, dass im Zuge des harten Konkurrenzkampfes alle guten Manieren über Bord geworfen wurden und die Grafikkarten mehrheitlich auf stark ineffizienten Betriebspunkten laufen müssen. Dies dürfte es nochmals interessanter machen für nVidia und die Grafikkarten-Hersteller, über Green Editions und Sweetspot Modi nachzudenken.