Launch-Analyse nVidia GeForce RTX 3060

Dienstag, 2. März 2021
 / von Leonidas
 

Mit der GeForce RTX 3060 hat nVidia am 25. Februar 2021 die nunmehr fünfte Gaming-Grafikkarte auf Basis der Ampere-Architektur ins Rennen geschickt. Jene soll nominell das Preisfeld von 329 Dollar/Euro beackern, geht also (genauso nominell) ins untere Midrange-Segment. Wie bekannt, wurde auch diese neue Grafikkarte umgehend nach Launch ausverkauft bzw. wird derzeit nur zu weit überzogenen Preisen angeboten. Eine echte Einordnung ins Preis/Leistungs-Gefüge ist (mangels dessen Existenz) damit derzeit leider nicht möglich, es bleibt allein der Trockentest der reinen Performance-Einordnung. Jener soll nachfolgend anhand der vorliegenden Benchmarks der Launchreviews unter FullHD, WQHD, 4K und RayTracing angegangen werden.

Für die GeForce RTX 3060 setzt nVidia den neuen GA106-Chip an, welcher bisher im Desktop-Segment noch keine Verwendung fand (sondern nur im Mobile-Segment bei der zum Jahresanfang vorgestellten GeForce RTX 3060 Laptop). Mit dem GA106-Chip reduziert nVidia gegenüber dem innerhalb der Ampere-Generation darüberliegenden GA104-Chip (von GeForce RTX 3060 Ti & 3070), die Anzahl der Shader-Cluster von 48 auf 30, das Speicherinterface geht zudem von 256 Bit auf 192 Bit zurück. Beachtbar und selten thematisiert ist hierbei auch der Rückgang an Raster- und ROP-Power, welcher zwischen GA106- und GA104-Chip mit 3 anstatt 6 Raster-Engines sowie 48 anstatt 96 ROPs doch ziemlich harsch ausfällt. Dafür geht es dann aber auch bei der Chipfläche stark nach unten: Für den GA106 stehen nur 276mm² Chipfläche zu Buche, im Gegensatz zu den immerhin 392mm² des GA104-Chips (beiderseits unter der 8nm-Fertigung von Samsung).

nVidia "Ampere" GA106 nVidia "Ampere" GA104 nVidia "Ampere" GA102
Chip 12,0 Mrd. Transistoren auf 276mm² Chipfläche in der 8nm-Fertigung von Samsung 17,4 Mrd. Transistoren auf 392mm² Chipfläche in der 8nm-Fertigung von Samsung 28,3 Mrd. Transistoren auf 628mm² Chipfläche in der 8nm-Fertigung von Samsung
Hardware 3 Raster-Engines, 30 Shader-Cluster, 3840 FP32-Einheiten, 120 TMUs, 30 RT-Cores v2, 120 Tensor-Cores v3, 48 ROPs, 2,25 MB Level2-Cache, 192 Bit GDDR6-Interface 6 Raster-Engines, 48 Shader-Cluster, 6144 FP32-Einheiten, 192 TMUs, 48 RT-Cores v2, 192 Tensor-Cores v3, 96 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface 7 Raster-Engines, 84 Shader-Cluster, 10752 FP32-Einheiten, 336 TMUs, 84 RT-Cores v2, 336 Tensor-Cores v3, 112 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6X-Interface
NVLink & SLI nicht verfügbar nicht verfügbar NVLink nur bei der GeForce RTX 3090, kein Support für "implicit SLI" mehr
verbaut bei GeForce RTX 3060 (Salvage), GeForce RTX 3060 Laptop (Vollausbau) GeForce RTX 3060 Ti, 3070 & 3070 Laptop (alle Salvage), GeForce RTX 3080 Laptop (Vollausbau) GeForce RTX 3080 & 3090 (beide Salvage)
Blockdiagramm nVidia GA106 Block-Diagramm
nVidia GA106 Block-Diagramm
nVidia GA104 Block-Diagramm
nVidia GA104 Block-Diagramm
nVidia GA102 Block-Diagramm
nVidia GA102 Block-Diagramm
Turing-Vorgänger TU106, 10,6 Mrd. Transistoren auf 445mm² Chipfläche in der 12nm-Fertigung von TSMC, 3 Raster-Engines, 36 Shader-Cluster, 2304 FP32-Einheiten, 144 TMUs, 36 RT-Cores v1, 288 Tensor-Cores v2, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface, verbaut bei GeForce RTX 2060, 2060 Super & 2070
TU116, 6,6 Mrd. Transistoren auf 284mm² Chipfläche in der 12nm-Fertigung von TSMC, 3 Raster-Engines, 24 Shader-Cluster, 1536 FP32-Einheiten, 96 TMUs, 48 ROPs, 1,5 MB Level2-Cache, 192 Bit GDDR6-Interface, verbaut bei GeForce GTX 1650 Super, 1660, 1660 Super & 1660 Ti
TU104, 13,6 Mrd. Transistoren auf 545mm² Chipfläche in der 12nm-Fertigung von TSMC, 6 Raster-Engines, 48 Shader-Cluster, 3072 FP32-Einheiten, 192 TMUs, 48 RT-Cores v1, 384 Tensor-Cores v2, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface, verbaut bei GeForce RTX 2070 Super, 2080 & 2080 Super TU102, 18,6 Mrd. Transistoren auf 754mm² Chipfläche in der 12nm-Fertigung von TSMC, 6 Raster-Engines, 72 Shader-Cluster, 4608 FP32-Einheiten, 288 TMUs, 72 RT-Cores v1, 576 Tensor-Cores v2, 96 ROPs, 6 MB Level2-Cache, 384 Bit GDDR6-Interface, verbaut bei GeForce RTX 2080 Ti & Titan RTX
Pascal-Vorgänger GP106, 4,4 Mrd. Transistoren auf 200mm² Chipfläche in der 16nm-Fertigung von TSMC, 2 Raster-Engines, 10 Shader-Cluster, 1280 FP32-Einheiten, 80 TMUs, 48 ROPs, 1.5 MB Level2-Cache, 192 Bit GDDR5-Interface, verbaut bei GeForce GTX 1060 GP104, 7,2 Mrd. Transistoren auf 314mm² Chipfläche in der 16nm-Fertigung von TSMC, 4 Raster-Engines, 20 Shader-Cluster, 2560 FP32-Einheiten, 160 TMUs, 64 ROPs, 2 MB Level2-Cache, 256 Bit GDDR5X-Interface, verbaut bei GeForce GTX 1070, 1070 Ti & 1080 GP102, 12 Mrd. Transistoren auf 471mm² Chipfläche in der 16nm-Fertigung von TSMC, 6 Raster-Engines, 30 Shader-Cluster, 3840 FP32-Einheiten, 256 TMUs, 96 ROPs, 3 MB Level2-Cache, 384 Bit GDDR5X-Interface, verbaut bei GeForce GTX 1080 Ti, Titan X & Titan Xp

Der GA106-Chip geht damit bei nVidia eher wieder in Richtung früherer Midrange-Chips – wie dem GP106 aus der Pascal-Generation (oder auch dem GM206 der Maxwell-Generation), welche vergleichsweise stark abgespeckt waren und beiderseits nur ein 192-Bit-Speicherinterface mitbrachten. Innerhalb der Turing-Generation gab es zwar den TU106-Chip, jener bringt jedoch nominell mehr Shader-Cluster und ein breiteres Speicherinterface (als der GA106) auf die Waage, womit der passendere Vergleich innerhalb der Turing-Generation eher der TU116-Chip darstellt – auch wiederum nur mit 192-Bit-Speicherinterface ausgerüstet. Selbiges verhindert dann den Einsatz von 4/8/16 GB Grafikkartenspeicher, sondern kommt nur mit 3/6/12/24 GB zurecht. Diese Frage hatte nVidia in den beiden Vorgänger-Generationen jeweils mit "6 GB" beantwortet, bei der Ampere-Generation erfolgt nun erstmals der Schritt zu mehr Speicher – und somit erhielt die GeForce RTX 3060 gleich 12 GB Grafikkartenspeicher.

Dies führt natürlich zur leicht irritierenden Situation, dass die GeForce RTX 3060 nVidia-intern mehr Grafikkartenspeicher mitbringt als die drei nächstteuren Ampere-Lösungen – GeForce RTX 3060 Ti & 3070 mit jeweils 8 GB und GeForce RTX 3080 mit 10 GB müssen hierbei hintenanstehen. Wahrscheinlich war diese Speicherbestückung auch ursprünglich nicht derart geplant (ansonsten hätte man den anderen Ampere-Karten gleich mehr mitgegeben oder aber sich um 1,5-Gigabyte-Speicherchips bemüht), sondern stellt eine Vorab-Reaktion auf AMDs kommende Midrange-Lösungen auf Basis des Navi-22-Chips dar – welche auf Basis von dessen 192-Bit-Speicherinterface ebenfalls mit 12 GB Grafikkartenspeicher antreten werden. Diese Speicherbestückung mag angesichts des Performance-Profils der GeForce RTX 3060 vielleicht etwas übertrieben erscheinen, stellt aber dennoch die (weitaus) bessere Wahl gegenüber der einzigen (direkt gangbaren) Alternative von nur 6 GB Grafikkartenspeicher dar.

Die aus dem GA106-Chip geschnitzte GeForce RTX 3060 benutzt dann nicht den Vollausbau des zugrundeliegenden Grafikchips, sondern kommt mit zwei Shader-Clustern weniger daher – wie bisher alle (nahe am Vollausbau liegenden) Desktop-Lösungen innerhalb der Ampere-Generation. Ansonsten gibt es keine weiteren Abspeckungen gegenüber dem Vollausbau des GA106-Chips, welchen es derzeit nur bei der GeForce RTX 3060 Laptop in Aktion zu sehen gibt. Der GA106-Chip dürfte von nVidia nachfolgend sicherlich noch zu einer weiteren GA106-basierten Grafikkarte mit vermutlich größeren Hardware-Abspeckungen (vielleicht 22-24 Shader-Cluster) und dann tatsächlich nur 6 GB Grafikkartenspeicher benutzt werden. Inwiefern sich die hieraus resultierende Grafikkarte dann "GeForce RTX 3050 Ti" oder "GeForce RTX 3060 6GB" nennen wird, ist jedoch immer noch nicht heraus.

Radeon RX 5700 XT GeForce RTX 3060 GeForce RTX 3060 Ti GeForce RTX 3070
Chipbasis AMD Navi 10 XT nVidia GA106-300 nVidia GA104-200 nVidia GA104-300
Fertigung 10,3 Mrd. Transistoren auf 251mm² in der 7nm-Fertigung von TSMC 12,0 Mrd. Transistoren auf 276mm² in der 8nm-Fertigung von Samsung 17,4 Mrd. Transistoren auf 392mm² in der 8nm-Fertigung von Samsung
Architektur AMD RDNA1, DirectX 12 Feature-Level 12_1 nVidia Ampere, DirectX 12 Feature-Level 12_2
Features DirectX 12, OpenGL, Vulkan, Asynchonous Compute, VSR, FreeSync, TrueAudio Next, XConnect DirectX 12, OpenGL, Vulkan, Asynchonous Compute, RayTracing, DSR, DLSS, PhysX, G-Sync, FreeSync
Technik 4 Raster-Engines, 40 Shader-Cluster, 2560 FP32-Einheiten, 160 TMUs, 64 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface (Vollausbau) 3 Raster-Engines, 28 Shader-Cluster, 3584 FP32-Einheiten, 112 TMUs, 28 RT-Cores v2, 112 Tensor-Cores v3, 48 ROPs, 2,25 MB Level2-Cache, 192 Bit GDDR6-Interface (Salvage) 5 Raster-Engines, 38 Shader-Cluster, 4864 FP32-Einheiten, 152 TMUs, 38 RT-Cores v2, 152 Tensor-Cores v3, 80 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface (Salvage) 6 Raster-Engines, 46 Shader-Cluster, 5888 FP32-Einheiten, 184 TMUs, 46 RT-Cores v2, 184 Tensor-Cores v3, 96 ROPs, 4 MB Level2-Cache, 256 Bit GDDR6-Interface (Salvage)
Taktraten 1605/1755 MHz & 14 Gbps 1320/1777 MHz & 15 Gbps 1410/1665 MHz & 14 Gbps 1500/1725 MHz & 14 Gbps
Rohleistungen 9,0 TFlops & 448 GB/sec 12,7 TFlops & 360 GB/sec 16,2 TFlops & 448 GB/sec 20,3 TFlops & 448 GB/sec
Speicherausbau 8 GB GDDR6 12 GB GDDR6 8 GB GDDR6 8 GB GDDR6
Anbindung PCI Express 4.0 PCI Express 4.0 PCI Express 4.0 PCI Express 4.0
Ref./Herst./OC / / / / / / / /
Layout Dual/TripleSlot Dual/TripleSlot Dual/TripleSlot Dual/TripleSlot
Kartenlänge Herst: 23,0-32,6cm
Ref: 27,5cm
Herst: 17,0-32,3cm Herst: 17,2-32,3cm
FE: 24,5cm
Herst: 21,6-33,7cm
FE: 24,5cm
Stromstecker 1x 6pol. & 1x 8pol. 1x 8pol. 1x 12pol. 1x 12pol.
off. Verbrauch 225W (TBP) 170W (GCP) 200W (GCP) 220W (GCP)
realer Verbr. 176W 172W 202W 220W
Ausgänge HDMI 2.0b, 3x DisplayPort 1.4 HDMI 2.1, 3x DisplayPort 1.4 HDMI 2.1, 3x DisplayPort 1.4 HDMI 2.1, 3x DisplayPort 1.4
FullHD Perf.Index 1160% 1110% 1420% 1590%
4K Perf.Index 163% 161% 212% 245%
Listenpreis $399  (UVP: 399€) $329  (UVP: 329€) $399  (UVP: 419€) $499  (UVP: 519€)
Release 7. Juli 2019 25. Februar 2021 2. Dezember 2020 29. Oktober 2020

Gegenüber den bisherigen Ampere-Grafikkarten legt nVidia für die GeForce RTX 3060 keine eigene Founders Edition auf, die Karte wird somit allein nur von den Grafikkarte-Herstellern angeboten werden. Jene setzen für die GeForce RTX 3060 derzeit gern ihre Layouts für die GeForce RTX 3060 Ti ein – dies geht wohl, weil Speicher-seitig generell 2-Gigabyte-Chips verwendet werden und somit nur 6 der 8 möglichen Speicherplätz eines Platinenlayouts der GeForce RTX 3060 Ti zu besetzen sind. Prinzipiell wären aber auch günstigere Platinen-Layouts denkbar, welche speziell an die GeForce RTX 3060 angepasst sind. Jene könnten später nachfolgen, beispielsweise mit der vorgenannten kleineren GA106-Ausführung, welche für kleinere Preisbereiche gedacht ist und demzufolge einen höheren Kostendruck hat.

Taktraten-mäßig gibt es bei der GeForce RTX 3060 keine wirklichen Überraschungen: Die Karte hat zwar einen vergleichsweise hohen Referenz-Takt, aber die real erzielten Taktraten sind dann doch Ampere-üblich. Die ComputerBase ermittelte durchschnittlich 1938 MHz, TechPowerUp hingegen durchschnittlich 1905 MHz – beiderseits auf einer MSI Gaming X Trio, welche von Haus aus einen um +75 MHz höheren Boosttakt mit sich bringt. Zieht man dies von jenen Messungen ab, bleiben ca. 1850 MHz realer Boosttakt für eine auf Referenz-Niveau laufende GeForce RTX 3060 übrig. Dies ist grob dasselbe Niveau, welches man bereits von den anderen Ampere-Grafikkarten kennt – vielleicht sogar etwas niedriger als jenes, aber dafür sind diese Messungen mit werksübertakteten Herstellerkarten nicht gut genug vergleichbar.

Basis Durchschnitt Maximum durchschnittlicher Realtakt
AMD-Bezeichnung "Base Frequency" "Game Frequency" "Boost Frequency" - -
Radeon RX 6900 XT 1825 MHz 2015 MHz 2250 MHz 2800 MHz CB: 2265 MHz – TPU: 2233 MHz
Radeon RX 6800 XT 1825 MHz 2015 MHz 2250 MHz 2577 MHz CB: 2216 MHz – TPU: 2257 MHz
Radeon RX 6800 1700 MHz 1815 MHz 2105 MHz ? CB: 2177 MHz – TPU: 2205 MHz
nVidia-Bezeichnung "Base Clock" "Boost Clock" - -
GeForce RTX 3090 1400 MHz 1700 MHz ? TPU: 1754 MHz
GeForce RTX 3080 1450 MHz 1710 MHz 1995 MHz CB: 1827 MHz – TPU: 1931 MHz
GeForce RTX 3070 1500 MHz 1725 MHz 2040 MHz CB: 1892 MHz – TPU: 1882 MHz
GeForce RTX 3060 Ti 1410 MHz 1665 MHz 2010 MHz CB: 1900 MHz – TPU: 1877 MHz
GeForce RTX 3060 1320 MHz 1777 MHz ? keine Messung zum Referenz-Takt verfügbar
Realtakt-Angaben gemäß den Ausarbeitungen der ComputerBase (Ø 17 Spiele) und von TechPowerUp (Ø 23 Spiele)

Stichwort Werksübertaktungen: Ohne Founders Edition wurde der Launch der GeForce RTX 3060 natürlich ausschließlich mit Herstellerkarten bestritten – und jene haben üblicherweise ihr bestes Grafikkarten-Design zu den Hardwaretestern gesandt. Nur wenige Hardwaretester haben es daraufhin auf sich genommen, die Referenz-Performance der GeForce RTX 3060 zu ermitteln – sei es durch Simulation der Referenz-Taktraten oder durch den Test einer Herstellerkarte auf (exaktem) Referenztakt. Dabei ist es (selbstverständlich) jedem Hardwaretester selbst überlassen, wie man diesen Punkt angeht – aber für den Zweck einer Index-Erstellung wird an dieser Stelle natürlich die Performance auf Referenztakt benötigt. Zur Einordnung der Performance-Differenz zwischen Referenztakt und Werksübertakung helfen glücklicherweise die Testberichte von ComputerBase & TechPowerUp weiter, welche Messungen unter beiden Bedingungen vorgenommen haben:

Mehrperformance Herstellerdesigns Hardware FullHD/1080p WQHD/1440p 4K/2160p
Asus Strix OC @ ComputerBase Boost 1882 MHz, TDP 170W +2,7% - -
MSI Gaming X Trio @ ComputerBase Boost 1852 MHz, TDP 170W +2,1% - -
EVGA XC Black @ TechPowerUp Boost 1852 MHz, TDP 170W +2% +1% +2%
MSI Gaming X Trio @ TechPowerUp Boost 1852 MHz, TDP 170W +2% +2% +2%
Palit Dual OC @ TechPowerUp Boost 1867 MHz, TDP 170W +2% +2% +2%
Zotac AMP White @ TechPowerUp Boost 1867 MHz, TDP 170W +2% +3% +2%
Hinweise: Performance-Werte werden bei TechPowerUp nur gerundet auf volle Zahlen angegeben

Gut zu erkennen ist, dass die Werksübertaktungen kaum wirklich an Boden gutmachen gegenüber dem Referenztakt – für +4% nominell mehr Boosttakt gibt es üblicherweise nur +2% Mehrperformance. Dies mag vielleicht auch an der limitierten Speicherbandbreite sowie dem einheitlichen TDP-Limit hängen, denn bislang bieten alle Werksübertaktungen durchgehend nur die Standard-TDP von 170 Watt auf – Differenzen gibt es allein beim (zusätzlichen) TDP-Spielraum zum Übertakten. In jedem Fall läßt sich somit für die werksübertakteten GeForce RTX 3060 Modelle die Faustregel aufstellen, dass auf Referenz-TDP und ohne anderen Speichertakt grob die Hälfte eines höheren Boosttakts in Mehrperformance umgesetzt wird. Damit lassen sich auch Benchmarks zu Werksübertaktungen einordnen respektive normalisieren, zu welchen keine exakten Performance-Vergleiche auf Referenztakt vorliegen.