3

Wie Gaming-Ampere die verdoppelte Anzahl an Shader-Einheiten erreicht

Mit den Gaming-Lösungen der Ampere-Generation fuhr nVidia bei seinem "GeForce Special Event" schwere Geschütze auf: Mehr als verdoppelte Anzahl an CUDA-Cores (Shader-Einheiten), das 1,7fache an Shader-Rechenkraft samt einer Performance-Projektion von grob dem Doppelten gegenüber Turing. Die vorherigen Annahmen zu Gaming-Ampere lagen zwar bei der Anzahl der gebotenen Shader-Cluster richtig, haben jedoch – bis auf vereinzelte frühere Gerüchte – bis zuletzt jene (mehr als) Verdopplung der FP32-Performance nicht auf dem Plan gehabt. Dabei war es zuerst etwas unklar, wie nVidia dies konkret realisierte: Gerade weil die Tendenz der Grafikchip-Entwickler klar in Richtung kleinerer Shader-Cluster mit (relativ) weniger Recheneinheiten pro Shader-Cluster ging, erschien eine plötzliche Entwicklung in die andere Richtung hin schwer vorstellbar. Genau dies hat nVidia jedoch tatsächlich getan: Die Shader-Cluster (SM) von Ampere tragen laut einer offiziellen nVidia-Aussage auf Reddit nunmehr gleich 128 FP32-Einheiten – anstatt wie bei der vorhergehenden Turing-Generation nur 64 FP32-Einheiten.

The Ampere SM includes new datapath designs for FP32 and INT32 operations. One datapath in each partition consists of 16 FP32 CUDA Cores capable of executing 16 FP32 operations per clock. Another datapath consists of both 16 FP32 CUDA Cores and 16 INT32 Cores. As a result of this new design, each Ampere SM partition is capable of executing either 32 FP32 operations per clock, or 16 FP32 and 16 INT32 operations per clock.
Quelle:  nVidias Tony Tamasi auf Reddit am 2. September 2020

2

Hardware- und Nachrichten-Links des 2. September 2020

Videocardz @ Twitter vermelden die vollständigen Taktraten der kommenden GeForce-30-Karten, inklusive auch des jeweiligen Basetakts sowie des noch fehlenden Speichertakts zur GeForce RTX 3070 (erstaunlicherweise nur 14 Gbps). Damit sind dann auch exaktere Angaben zu den jeweiligen Rohleistungen möglich: Zwischen GeForce RTX 3080 & 3090 ergeben sich somit +19,5% Rechenleistung sowie +23,2% Speicherbandbreite, was in etwa auf eine Performance-Differenz von ca. +15-17% hinauslaufen sollte. Diese vergleichsweise geringe Unterschied ist natürlich bedingt durch die beiderseitige Verwendung des GA102-Chips, welcher für die GeForce RTX 3080 auch schon recht stark heruntergebrochen wurde (nur 68 von maximal möglich 84 Shader-Clustern sind aktiv). Zwischen GeForce RTX 3070 & 3080 gibt es dagegen Unterschied von immerhin +46,5% Rechenleistung sowie +69,6% Speicherbandbreite (+48,4%, sofern es doch 16-Gbps-Speicher ist), hier ist eine untypisch hohe Performance-Differenz von schätzungsweise ca. +40-45% zu erwarten. Diese große Abstand führt dann auch dazu, dass die GeForce RTX 3070 sich gegenüber der GeForce RTX 2080 Ti wohl nicht so eindeutig besser positionieren kann, wie aufgrund von nVidias Marketing-Aussagen oftmals angenommen: Vermutlich erreicht die GeForce RTX 3070 knapp die Performance-Höhe der GeForce RTX 2080 Ti – aber ob die GeForce RTX 3070 tatsächlich schneller herauskommt, kann sich erst nach unabhängigen Tests ergeben.

GeForce RTX 3070 GeForce RTX 3080 GeForce RTX 3090
Chip-Basis nVidia GA104 nVidia GA102 nVidia GA102
Technik 6 Raster-Engines, 46 Shader-Cluster, 5888 CUDA-Cores, 96 ROPs, 256 Bit GDDR6-Interface 6 Raster-Engines, 68 Shader-Cluster, 8704 CUDA-Cores, 96 ROPs, 320 Bit GDDR6X-Interface 7 Raster-Engines, 82 Shader-Cluster, 10496 CUDA-Cores, 112 ROPs, 384 Bit GDDR6X-Interface
Taktraten 1500/1725 MHz 1440/1710 MHz 1395/1695 MHz
Speicherausbau 8 GB GDDR6 @ 14 Gbps 10 GB GDDR6X @ 19 Gbps 24 GB GDDR6X @ 19,5 Gbps
Rohleistungen 20,3 TFlops & 448 GB/sec 29,8 TFlops & 760 GB/sec 35,6 TFlops & 936 GB/sec
off. Verbrauch 220W (GCP) 320W (GCP) 350W (GCP)
Kartengröße FE: 242mm, 2-Slot FE: 285mm, 2-Slot FE: 313mm, 3-Slot
Listenpreis $499  (UVP: 499€) $699  (UVP: 699€) $1499  (UVP: 1499€)
Release Oktober 2020 17. September 2020 24. September 2020
2 2

Umfrage: Ist der Preis der GeForce RTX 3090 selbst für Enthusiasten zu hoch?

Mit den Preislagen zu GeForce RTX 3070 & 3080 hat nVidia für viele Beobachter ins Schwarze getroffen – so dass nachfolgend der höhere Preis der GeForce RTX 3090 kaum noch thematisiert wurde. Doch an dieser Stelle steht eine erhebliche Preiserhöhung an, die vorhergehende GeForce RTX 2080 Ti kostete als "Founders Edition" 1199 Dollar, als Herstellervariante (ab) 999 Dollar. Für die GeForce RXT 3090 steht hingegen nunmehr ein Listenpreis von gleich 1499 Dollar an – zwischen 300-500 Dollar mehr als bei der Vorgänger-Lösung. Damit ergibt sich auch ein exorbitanter Preisaufschlag gegenüber der nächstkleineren GeForce RTX 3080, welche schließlich auf demselben GA102-Chip basiert: Für +20% mehr Rechenleistung sowie +23% mehr Speicherbandbreite soll gleich mehr als das Doppelte (!) gelöhnt werden – dies gleicht nicht einmal die mehr als verdoppelte Speichermenge wieder aus. Insofern ergeht die Frage an potentielle 3090er Käufer (frühere Ti-Käufer), inwiefern diese Preislage dennoch gangbar ist – oder vielleicht doch eher der Blick zur GeForce RTX 3080 schweift?
PS: Diskussion zur Umfrage und zum Umfrageergebnis in unserem Forum.

Chip Hardware FP32 Speicher Preis
GeForce RTX 3090 GA102 82 SM @ 384 Bit 36 TFlops & 936 GB/sec 24 GB GDDR6X $1499
GeForce RTX 3080 GA102 68 SM @ 320 Bit 30 TFlops & 760 GB/sec 10 GB GDDR6X $699
GeForce RTX 3070 GA104 46 SM @ 256 Bit 20 TFlops 8 GB GDDR6 $499
kaufe die 3090 trotz der hohen Preislage
14% (249 Stimmen)
bei diesem P/L-Vorteil kann es nur die 3080 (10GB) werden
41% (728 Stimmen)
warte eisern auf eventuelle 3080er Karten mit gleich 20 GB Speicher
45% (804 Stimmen)
Gesamte Stimmen: 1781
1

Hardware- und Nachrichten-Links des 1. September 2020

In der Frage, wie nVidia seine Einheiten-Verdopplung bei Gaming-Ampere erreicht hat, ist zumindest die These einer möglichen "kreativen" Zählweise ganz schnell wieder vom Tisch, denn die nVidia-Webseite notiert in dieser Frage glasklar einen verdoppelten FP32-Durchsatz innerhalb der Shader-Cluster, sprich also Einheiten- wie Takt-normiert und damit nicht mehr anzufechten. Ergo kann man sich auf andere Auflösungen konzentrieren, wobei derzeit eine reine Verdopplung der ALUs (möglicherweise sogar unter dem Verzicht auf die INT32-Einheiten von Ampere) in der Pole Position steht: Deren Platzbedarf ist handelbar, die zusätzliche Leistungsaufnahme durch die höhere Rechenkraft hält sich gerade bei Recheneinheiten unter kleineren Fertigungsverfahren in Grenzen. Derzeit verschiebt sich im Chipdesign die Frage der größten Stromverbraucher eher weg von den reinen Recheneinheiten hin zu Kontrolllogik und Interfaces, ergo dort, wo Daten innerhalb des Chips transportiert werden (müssen). Während sich frühere Grafikchip-Architekturen von nVidia eher der Ausweitung der Kontrolllogik gewidmet haben, um eine größtmögliche Auslastung der Recheneinheiten zu garantieren, geht nVidia diesesmal den umgedrehten Weg – mehr Recheneinheiten pro Shader-Cluster.

1

nVidia stellt GeForce RTX 3070, 3080 & 3090 offiziell vor

Mit seinem "GeForce Special Event" hat nVidia die ersten Ampere-basierten Gaming-Grafikkarten vorgestellt. Dabei hat man sich vergleichsweise wenig auf Technik und Spezifikationen konzentriert, sondern versuchte vor allem mittels der (eigenen) Performance-Projektion sowie der Preislage zu punkten. Insbesondere letzteres ist nVidia zweifelsfrei gelungen, denn angesichts der vorherigen Befürchtungen über (wieder einmal) steigende Grafikkarten-Preise hören sich 499 Dollar/Euro für eine GeForce RTX 3070 8GB (erhältlich im Oktober) sowie 699 Dollar/Euro für eine GeForce RTX 3080 (erhältlich ab 17. September) durchaus vernünftig an. Dem gegenüber fällt die GeForce RTX 3090 24GB (erhältlich ab 24. September) mit 1499 Dollar/Euro deutlich ab – allerdings war diese Preislage zumindest erwartet worden. Die Formulierung auf der nVidia-Webseite gibt daneben Anlaß anzunehmen, dass es innerhalb der Ampere-Generation keine Preisdifferenz zwischen Hersteller- und FE-Karten mehr gibt, genauso liegen die bereits offiziell genannten deutschen UVP-Preise exakt auf dem Niveau der US-Listenpreise.

GeForce RTX 3070 GeForce RTX 3080 GeForce RTX 3090
Technik 5888 CUDA-Cores @ 1.73 GHz Boost-Takt, 256 Bit GDDR6-Interface 8704 CUDA-Cores @ 1.71 GHz Boost-Takt, 320 Bit GDDR6X-Interface @ 19 Gbps 10496 CUDA-Cores @ 1.70 GHz Boost-Takt, 384 Bit GDDR6X-Interface @ 19.5 Gbps
Speicherausbau 8 GB GDDR6 10 GB GDDR6X 24 GB GDDR6X
Rohleistungen 20 TFlops, 40 RT-TFlops, 163 Tensor-TFlops 30 TFlops, 58 RT-TFlops, 238 Tensor-TFlops, 760 GB/sec 36 TFlops, 69 RT-TFlops, 285 Tensor-TFlops, 936 GB/sec
off. Verbrauch 220W (GCP) 320W (GCP) 350W (GCP)
Kartengröße FE: 242mm, 2-Slot FE: 285mm, 2-Slot FE: 313mm, 3-Slot
Listenpreis $499  (UVP: 499€) $699  (UVP: 699€) $1499  (UVP: 1499€)
Release Oktober 2020 17. September 2020 24. September 2020
Anmerkung: basierend allein auf dem "GeForce Special Event" sowie den offiziellen Daten auf nVidias Webseite
1

GeForce RTX 3060 mit 8 GB, RTX 3070 mit 8/16 GB und RTX 3080 mit 10/20 GB nahezu bestätigt

Twitterer 326powah weisst auf den hochinteressanten Umstand hin, dass sich aus den ganzen Palit-Eintragungen gemäß der gewählten Produktnummern sogar die benutzten Grafikchips sowie Differenzen in den Speichermengen herauslesen lassen. Relevant ist der benutzte Grafikchip speziell bei der GeForce RTX 3060, bei den anderen Ampere-Grafikkarten ist jener dato schon bekannt. Die Angaben erfolgt in der Produktnummer nach dem Bindestrich, beispielsweise zeigt "NE6306T019P2-1041A" auf die Verwendung des GA104-Chip für diese GeForce RTX 3060 hin. Wenn man die anderen Grafikkarten kontrolliert, passt dies auffallend, zur GeForce RTX 3070 wird (wie zu erwarten) ebenfalls der GA104-Chip notiert, zu GeForce RTX 3080 & 3090 (wie zu erwarten) der GA102-Chip. Teilweise finden sich auch andere Notierungen, aber jene zeigen wohl nicht auf andere Grafikchips hin, sondern geben die jeweiligen Grafikboards wieder: "PG132" bei GeForce RTX 3080 & 3090 sowie "PG190" bei der GeForce RTX 3060 – so, wie früher bereits vermeldet.

31

Hardware- und Nachrichten-Links des 31. August 2020

Auf Twitter läßt sich Kopite7kimi über mögliche Duelle zwischen AMD "Big Navi" vs. nVidia "Ampere" GA102 aus – und verrät damit möglicherweise bereits die geplanten Grafikkarten-Konfigurationen auf Basis des Navi-21-Chips. Beim GA102-Chip sind hingegen angesichts der genannten Shader-Cluster die jeweils gemeinten Grafikkarten klar: GeForce RTX 3090 (82 SM), GeForce RTX 3080 20GB und GeForce RTX 3080 10GB (jeweils 68 SM) – in dieser Reihenfolge. Jene scheint AMD mit ebenfalls drei Navi-21-basierten Grafikkarten kontern zu wollen, wobei eine Version im Vollausbau des Grafikchips mit 80 Shader-Clustern antritt und zwei hingegen als Salvage-Lösungen mit jeweils 72 Shader-Clustern daherkommen. Da es bei AMD kaum eine auf nur 8 GB halbierte Speichermenge geben dürfte, könnte als Unterscheidungsmerkmal der zweiten 72-CU-Ausführung eine Reduzierung des Speicherinterfaces auf 384 Bit anstehen – wie jene teilweise schon als extra 12-GB-Ausführung des Navi-21-Chips genannt wurde. Das Navi-21-Portfolio würde somit möglicherweise aus den Lösungen 80CU/512-bit/16G, 72CU/512-bit/16G und 72CU/384-bit/12G bestehen.

I don't know if AMD has one-on-one capabilities.
80CU vs 82SM
72CU vs 68SM
72CU vs 68SM
Quelle:  Kopite7kimi @ Twitter am 31. August 2020

31

AMD bringt die "Radeon RX 5300" als Navi-14-basierte Einsteiger-Lösung heraus

Schon zu Zeiten der Vorstellung des Navi-14-Chips wurde eine "Radeon RX 5300" (auch als "Radeon RX 5300 XT") als Einsteiger-Lösung basierend auf diesem Grafikchip gehandelt, dann war lange Zeit hiervon nichts mehr zu hören – und nun taucht selbige Grafikkarte unvermittelt auf AMDs Webseite auf. Wie der dortigen Darstellung zu entnehmen ist, handelt es sich (im Gegensatz zur "Radeon RX 5500") augenscheinlich nicht um ein reines OEM-Produkt – wenngleich selbiges auf Basis der aufgezeigten technischen Daten vielleicht sogar besser gewesen wäre. Denn die nur 3 GB Grafikkartenspeicher und das damit auf 96 Bit gekürzte Speicherinterface sind natürlich heutzutage selbst im Einsteiger-Bereich nicht mehr gangbar, da existieren aus früheren Grafikkarten-Generationen bereits klar bessere Lösungen – mit mehr Speicher, oftmals mehr Performance und (sofern noch erhältlich) sicherlich nicht schlechterer Preislage.

Radeon RX 5300 Radeon RX 5500 Radeon RX 5500 XT 4GB Radeon RX 5500 XT 8GB
Chipbasis AMD Navi 14 AMD Navi 14 AMD Navi 14 AMD Navi 14
Technik 2 Raster-Engines, 22 Shader-Cluster, 1408 Shader-Einheiten, 88 TMUs, 32 ROPs, ? MB Level2-Cache, 96 Bit GDDR6-Interface (Salvage) 2 Raster-Engines, 22 Shader-Cluster, 1408 Shader-Einheiten, 88 TMUs, 32 ROPs, 1 MB Level2-Cache, 128 Bit GDDR6-Interface (Salvage) 2 Raster-Engines, 22 Shader-Cluster, 1408 Shader-Einheiten, 88 TMUs, 32 ROPs, 1 MB Level2-Cache, 128 Bit GDDR6-Interface (Salvage) 2 Raster-Engines, 22 Shader-Cluster, 1408 Shader-Einheiten, 88 TMUs, 32 ROPs, 1 MB Level2-Cache, 128 Bit GDDR6-Interface (Salvage)
Speicherausbau 3 GB GDDR6 4 GB GDDR6 4 GB GDDR6 8 GB GDDR6
Taktraten ?/1448/3500 MHz 1587/1670/3500 MHz (QDR) 1607/1717/3500 MHz (QDR) 1607/1717/3500 MHz (QDR)
Rohleistungen 4,1 TFlops & 168 GB/sec 4,7 TFlops & 224 GB/sec 4,8 TFlops & 224 GB/sec 4,8 TFlops & 224 GB/sec
off. Verbrauch 100W (TBP) 150W (TBP) 130W (TBP) 130W (TBP)
FHD Perf.Index ~480-520% 590% 600% 650%
Listenpreis ? rein OEM $169 $199
Release August 2020 7. Oktober 2019 12. Dezember 2019 12. Dezember 2019
30

Hardware- und Nachrichten-Links des 29./30. August 2020

Videocardz zeigen Marketing-Material seitens Grafikkarten-Hersteller "Gainward", in welchem dessen GeForce RTX 3080 & 3090 Modelle beworben werden. Hiermit ergibt sich erst einmal eine weitere Bestätigung der bereits bekannten (und im übrigen seit Ewigkeiten vermuteten) Hardware-Daten zu diesen beiden GA102-basierten Grafikkarten: 68 Shader-Cluster an einem 320 Bit Interface bei der GeForce RTX 3080 sowie 82 Shader-Cluster an einem 384 Bit Interface bei der GeForce RTX 3090. Auch Speichertyp, Speichermengen, Speichertaktung und Wattage stimmen überein, womit man die zuletzt gemeldeten Daten zu GeForce RTX 3080 & 3090 somit als bestätigt ansehen kann. Die beiden Gainward-Karten unter dem Verkaufsnamen "Phoenix Golden Sample" kommen dann werksübertaktet daher, womit auf eine der letzten zu klärenden Fragen hingewiesen wird: Stellen die zuletzt genannten Taktraten die Vorgabe für die Herstellerkarten oder für die Founders Edition dar – oder gibt es eventuell bei der GeForce-30-Serie hierbei keinen Unterschied mehr?

Technik nVidia-Referenz Gainward Phoenix GS
GeForce RTX 3090 82 SM @ 384 Bit, 24 GB GDDR6X @ 19.5 Gbps, 350W TGP Boost: 1695 MHz Boost: 1725 MHz
GeForce RTX 3080 68 SM @ 320 Bit, 10 GB GDDR6X @ 19 Gbps, 320W TGP Boost: 1710 MHz Boost: 1740 MHz
30

Microsoft bringt das DirectX Feature-Level 12_2 mit verpflichtendem Support von RayTracing und Shader Model 6.5

Nach dem erst im März vorgestellten "DirectX 12 Ultimate" bringt Microsoft nunmehr mit dem "Feature-Level 12_2" von DirectX (im eigentlichen dem für 3D-Grafik gedachten Teil "Direct3D") eine weitere Ausbaustufe der DirectX 12 Grafik-API. Dabei beinhaltet DirectX 12_2 (inoffizielle Abkürzung) alle Änderungen von DirectX 12 Ultimate – welche ja sowieso "nur" die vier neuen Hauptfeatures "DirectX RayTracing", "Mesh Shaders", "Variable Rate Shading" (VRS) und "Sampler Feedback" umfasst, sprich vergleichsweise plakative Veränderungen. DirectX 12_2 ist hingegen dann wiederum ein echtes DirectX-Update, sprich zuzüglich zu den Verbesserungen von DirectX 12 Ultimate gibt auch noch noch einen ganzen Strauß an weiteren Detail-Verbesserungen. Am Hardware-Support ändert sich hingegen nichts: Wie auch bei DirectX 12 Ultimate, wird DirectX 12_2 von den Grafik-Architekturen AMD RDNA2, Intel Xe-HPC, nVidia Turing (nur GeForce-20-Modelle) und nVidia Ampere unterstützt.

Feature-Level 12_0 Feature-Level 12_1 Feature-Level 12_2
AMD GCN2, GCN3, GCN4 GCN5, RDNA1 RDNA2
Intel - - Xe-HPG
nVidia - Maxwell 2, Pascal, Turing (GF16) Turing (GF20), Ampere
Inhalt abgleichen