Nachdem sich die früheren Vorhersagen [1] zur Ampere-Hardware durch Twitterer Kopite7kimi [2] nunmehr nach dem GA100-Chip [3] auch beim GA102- sowie beim GA104-Chip bestätigt haben, kann man davon ausgehen, das jene bereits seit Mai 2019 vorliegende Vorhersage auf durchgehend echten Daten beruht. Schließlich stimmen auch die selten beachteten Details wie die 7 Graphics Processing Cluster (GPC) beim GA102-Chips, welche man wegen der ungerade Zahl kaum "freiwillig" vorhersagen würde. Zusammen mit der kürzlichen Klarstellung [4], wie sich die Shader-Cluster von Gaming-Ampere aufbauen (zuzüglich einer Detail-Infos zu den Ampere-ROPs [5] sowie zu den Tensor-Cores von Ampere [6]), kann man davon ausgehend bereits die komplette "Ampere"-Chipserie in ihren grundsätzlichen Hardware-Spezifikationen erkennen. Nachfolgende Aufstellung ist bezüglich der Ampere-Chips GA107 & GA106 natürlich noch nicht gefeit vor letztendlichen Fehlern, bezüglich GA104 & GA102 kann man sich hingegen nahezu sicher sein, fehlt zumeist nur noch eine hochoffizielle Bestätigung des allerdings bereits offensichtlichen:
GA107 | GA106 | GA104 | GA102 | GA100 | |
---|---|---|---|---|---|
Raster-Engines (GPC) | 2 | 3 | 6 | 7 | 8 |
Shader-Cluster (SM) | 20 | 30 | 48 | 84 | 128 |
FP32-Einh. (CUDA-Cores) | 2560 | 3840 | 6144 | 10752 | 8192 |
INT32-Einheiten | 1280 | 1920 | 3072 | 5376 | 8192 |
Textureneinh. (TMUs) | 80 | 120 | 192 | 336 | 512 |
Tensor-Cores | 80 | 120 | 192 | 336 | 512 |
RT-Cores | möglw. 20 (?) | möglw. 30 (?) | 48 | 84 | ✗ |
ROPs | 32 | 48 | 96 | 112 | whrschl. 128 |
Level2-Cache | ? | ? | 4 MB | 6 MB | 48 MB |
Speicherinterface | 128 Bit GDDR6 | 192 Bit GDDR6 | 256 Bit GDDR6 | 384 Bit GDDR6X | 6144 Bit HBM2 |
Grafikkarten | GTX/RTX 3040 Serie (?) | GTX/RTX 3050 Serie (?) | RTX 3060, 3070 & 3070 Ti | RTX 3080 & 3090 | rein HPC |
Release | Q1/2021 | Q1/2021 | Oktober 2020 | 17. September 2020 | 14. Mai 2020 [3] |
Basis: Ampere Hardware-Vorhersage von 'Kopite7kimi' [1] & nVidia-Aussagen zur Ampere-Architektur [5] |
Wie zu sehen, geht nVidia weg von den früher üblichen Verdopplungen der Shader-Cluster bei den nächstgrößeren Grafikchips – dies macht wahrscheinlich die Performance-Abstände zu groß oder zwingt im Zweifelsfall zu extrem abgespeckten Salvage-Lösungen. Bei der Ampere-Generation gibt es hingegen zwischen +50% bis +75% mehr Shader-Cluster zum jeweils nächstgrößeren Grafikchip. Den größten Sprung gibt es mit +75% zwischen GA104 und GA102 ausgerechnet an der Leistungsspitze – resultierend aus dem Punkt, dass dazwischen angeblich noch ein GA103-Chip (mit 60 Shader-Clustern) geplant war, welchen nVidia jedoch letztlich doch nicht realisiert hat. Vakante Größen zu diesen Hardware-Angaben gibt es dann nur noch zu den kleineren Grafikchips GA106 & GA107: Zu bestätigen wäre noch, dass auch diese die verdoppelten FP32-Einheiten der größere Ampere-Chips tragen – genauso wie, ob es dort auch wirklich RayTracing-Fähigkeiten und damit RT-Cores gibt. Eine grundsätzliche RayTracing-Eignung aller Ampere-Grafikkarten wird gemäß eines früheren Gerüchte [7] zwar angenommen und macht sich gut in einem Zeitalter, wo RayTracing [8] auch seitens der NextGen-Konsolen [9] sowie im kommenden Navi-2X-Portfolio von Mainstream- bis Enthusiast-GPUs [10] geboten werden wird. Gänzlich sicher ist dieser Punkt aber noch nicht, eine extra "GeForce GTX 30" oder auch "GeForce GTX 25" Serie ohne RayTracing-Fähigkeit wäre immer noch denkbar.
Zumindest sofern nVidia bei den beiden kleineren Ampere-Chips GA106 & GA107 nicht wieder andere Shader-Cluster ansetzt (arg unwahrscheinlich wegen des höheren Aufwands), läßt sich deren grobe Performance-Richtung durchaus schon auf Basis der vorhandenen, wenngleich von nVidia stammenden Benchmarks zu den größeren Ampere-Lösungen abschätzen. Hilfreich zu dieser Performance-Abschätzung ist auch der Quervergleich zur Pascal-Generation [11], deren Grafikkarten schließlich auch 128 CUDA-Cores per Shader-Cluster tragen und somit mit der Ampere-Generation [12] sogar besser vergleichbar sind als die Modelle Turing-Generation [13]. Danach sollten GA106-basierte Grafikkarten grob das Performance-Level einer GeForce GTX 1080 Ti anpeilen können, GA107-basierten Grafikkarten grob das Performance-Level einer GeForce GTX 1080. Sofern sich die technischen Voraussetzungen bei den Ampere-Chips GA106 & GA107 also nicht verschieben, führt der Performance-Sprung der Ampere-Generation somit dazu, dass im Mainstream- wie im Midrange-Segment nur zwei Generationen zurückliegende Spitzen-Beschleuniger (grob) erreicht werden sollten. Plakativ läßt sich dies anhand des GA106-Chips ermessen, welcher mit 3840 CUDA-Cores (wahrscheinlich) so viel FP32-Einheiten aufbieten wird wie einstmals die Titan Xp [14] auf Basis des Vollausbaus des GP102-Chips.
Pascal | Turing | Ampere |
---|---|---|
GeForce RTX 3090 82 SM & 10496 CUDA-Cores @ 384 Bit GDDR6X |
||
GeForce RTX 3080 68 SM & 8704 CUDA-Cores @ 320 Bit GDDR6X |
||
GeForce RTX 2080 Ti 68 SM & 4352 CUDA-Cores @ 352 Bit GDDR6 |
GeForce RTX 3070 46 SM & 5888 CUDA-Cores @ 256 Bit GDDR6 |
|
GeForce RTX 2080 Super 48 SM & 3072 CUDA-Cores @ 256 Bit GDDR6 |
GeForce RTX 3060 ~40 SM & ~5120 CUDA-Cores @ 256 Bit GDDR6 |
|
GeForce GTX 1080 Ti 28 SM & 3584 CUDA-Cores @ 352 Bit GDDR5X |
GeForce RTX 2070 Super 40 SM & 2560 CUDA-Cores @ 256 Bit GDDR6 |
"GA106" 30 SM & 3840 CUDA-Cores @ 192 Bit GDDR6 |
GeForce RTX 2060 Super 34 SM & 2176 CUDA-Cores @ 256 Bit GDDR6 |
||
GeForce GTX 1080 20 SM & 2560 CUDA-Cores @ 256 Bit GDDR5X |
GeForce RTX 2060 30 SM & 1920 CUDA-Cores @ 192 Bit GDDR6 |
"GA107" 20 SM & 2560 CUDA-Cores @ 128 Bit GDDR6 |
GeForce GTX 1070 15 SM & 1920 CUDA-Cores @ 256 Bit GDDR5 |
GeForce GTX 1660 Super 22 SM & 1408 CUDA-Cores @ 192 Bit GDDR6 |
|
Anmerkung: Sehr schematische Performance-Einordnung, kann im Detail beachtbar abweichen! |
Nachtrag vom 4. September 2020
Mit dem Freitag-Abend sind erste Technik-Artikel zu Gaming-Ampere seitens ComputerBase [15], Hardwareluxx [16] und PC Games Hardware [17] erschienen, welche über viele Details jener Grafikchip-Architektur aufklären. Damit bestätigen sich auch die zuletzt an dieser Stelle getroffenen Angaben zu den größeren Ampere-Chips GA104 & GA102 – was die zusätzlich getroffenen Angaben zu den kleineren Ampere-Chips GA106 & GA107 nochmals glaubwürdiger macht, selbst wenn jene derzeit nicht offiziell bestätigt sind. Hinzugekommen in der tabellarischen Aufstellung ist nun noch eine Angabe zum Level2-Cache, zudem konnte die Anzahl der RT-Cores bestätigt werden. Wie nVidia die Verdopplung der FP32-Einheiten in den Shader-Clustern realisiert, wurde zwar auch schon an dieser Stelle beschrieben [4], nVidias offizielles Blockschaltbild eines GA102 Shader-Clusters zeichnet das ganze dann jedoch sogar nochmals eleganter: Der zweite Datenpfad mit FP32 oder INT32 wird einfach als eine (gemeinsame) Einheit abgebildet. Ob dies technisch wirklich so realisiert wurde, ist unklar – aber zumindest ist es somit einfacher verständlich, wo die Differenz in den Shader-Clustern von Turing [13] und Ampere [12] liegt:
Eine andere Offenbarung liegt in den Chip-Daten zu GA104 & GA102, wo bisher nur die Transistoren-Größe zum GA102-Chip (28 Mrd.) bekannt war. Diese befinden sich nunmehr auf einem 628mm² großen Chip – womit die Gerüchteküche [22] einmal mehr richtig lag. Bei der Packdichte der Transistoren ergibt dies im übrigen einen heftigen Unterschied zum GA100-Chip [3] aus TSMCs 7nm-Fertigung: Selbige liegt mit 65,4 Mio. Transistoren pro mm² augenscheinlich sehr weit vor Samsungs 8nm-Fertigung, welche beim GA102-Chip nur 44,6 Mio. Transistoren pro mm² realisieren kann (jene ist aber auch nur eine Verbesserung der 10nm-Fertigung, liegt also fast einen ganzen Node zurück). Der GA104-Chip von GeForce RTX 3060 & 3070 wird hingegen offiziell mit 17,4 Mrd. Transistoren auf 392mm² Chipfläche angegeben: Dies ist bei der Transistoren-Anzahl nur minimal weniger als beim TU102-Chip der GeForce RTX 2080 Ti (18,6 Mrd. Xtors auf 754mm²). Zu den kleineren Ampere-Chips GA106 & GA107 wurde (logischerweise) nichts gesagt, allerdings kann man jene anhand der bekannten Hardware-Daten und unter der Annahme, dass auch diese Grafikchips dann RT-Cores tragen werden, in Bezug auf Transistoren-Menge und vermutlicher Chipgröße schon schätzen. Klein werden auch diese Grafikchips (vermutlich) nicht, der GA107-Chip dürfte sogar beachtbar mehr Transistoren aufweisen als der frühere GP104-Chip von GeForce GTX 1070 & 1080 (7,2 Mrd. Xtors auf 314mm²).
GA107 | GA106 | GA104 | GA102 | GA100 | |
---|---|---|---|---|---|
Fertigung | 8nm Samsung | 7nm TSMC | |||
Transistoren | (geschätzt ~8-9 Mrd.) | (geschätzt ~11,5-12 Mrd.) | 17,4 Mrd. | 28 Mrd. | 54 Mrd. |
Chipfläche | (geschätzt ~180-200mm²) | (geschätzt ~260-270mm²) | 392mm² | 628mm² | 826mm² |
Packdichte | - | - | 44,4 Mio/mm² | 44,6 Mio/mm² | 65,4 Mio/mm² |
GPC/SM/SI | 2/20/128b | 3/30/192b | 6/48/256b | 7/84/384b | 8/128/6144b |
Nachtrag vom 13. September 2020
Bei der PC Games Hardware [23] spricht man über die finalen Daten zur GeForce RTX 3070, welche wie bekannt am 15. Oktober antritt. Dabei wird auch ein Blockschaltbild zum zugrundliegenden GA104-Chip aufgeboten, welches letzte Fragen zu dessen Hardware-Kapazitäten klärt. So tritt der GA104-Chip von GeForce RTX 3060 Ti & 3070 nunmehr doch mit 6 Raster-Engines an. Diesen Punkt hatte nVidia bei der offiziellen Ampere-Vorstellung [24] offengelassen und oftmals wurden hierzu dann nur 4 Raster-Engines angenommen – was gut zu den maximal 48 Shader-Clustern des GA104-Chips passt. Allerdings trifft nun doch die alte Ampere-Vorhersage von Twitterer "Kopite7kimi" [1] vollumfänglich zu, welcher bereits im Mai 2019 eben 6 GPC beim GA104-Chip notiert hatte. Im übrigen lag in der Detaillierheit dieser seinerzeitigen Daten ein Hauptgrund für deren Glaubwürdigkeit: Fakes kümmern sich in aller Regel nicht um solcherart kleinere Details, sondern suchen eher die plakative Zahl. In der Summe hat "Kopite7kimi" bisher drei von fünf realisierten Ampere-Chips vollkommen korrekt vorhergesagt – womit man annehmen darf, dass auch die Hardware-Daten zu den zwei übrigen Chips (GA106 & GA107) korrekt sind.
Für den GA104-Chip selber haben jene 6 anstatt 4 Raster-Engines dabei zwei Bedeutungen: Erstens einmal steigt damit die Anzahl der Raster Operation Units (ROPs) von 64 auf 96. Jene sind in der Ampere-Generation nicht mehr separat ausgeführt, sondern Teil des GPCs (Graphics Processing Clusters, Obereinheit einer Raster-Engine), korrelieren somit mit der Anzahl der GPCs bzw. Raster-Engines. Unter dem GA102-Chip enthält jeder GPC seine 16 ROP-Einheiten, somit maximal 112 ROPs beim GA102-Chip. Beim GA104-Chip ergibt dieser Aufbau dann immerhin noch 96 ROPs – und damit deutlich mehr als bei bisherigen nVidia-Grafikchips mit 256bittigem Speicherinterface (üblicherweise 64). Damit nähert sich der GA104-Chip dem GA102-Chip in diesen zwei Punkten – Raster-Engines & ROPs – doch ziemlich stark an, trotz einer erheblichen Differenz bei der Anzahl der maximalen Shader-Cluster (48 vs. 84). Hier dürfte auch der Grund dafür liegen, wieso nVidias eigene Ampere-Benchmarks [27] nur eine Performance-Differenz von +35% zwischen GeForce RTX 3070 & 3080 ausgewiesen haben: Bei den Shader-Clustern liegen beide Grafikkarten zwar +48% auseinander, bei der Anzahl der Raster-Engines und ROPs herrscht allerdings sogar ein Gleichstand.
RTX3070 | GA104 | RTX3080 | RTX3090 | GA102 | |
---|---|---|---|---|---|
Raster-Engines (GPC) | 6 | 6 | 6 | 7 | 7 |
Shader-Cluster (SM) | 46 | 48 | 68 | 82 | 84 |
ROPs | 96 | 96 | 96 | 112 | 112 |
Level2-Cache | 4 MB | 4 MB | 5 MB | 6 MB | 6 MB |
Speicherinterface | 256 Bit GDDR6 | 256 Bit GDDR6 | 320 Bit GDDR6X | 384 Bit GDDR6X | 384 Bit GDDR6X |
Verweise:
[1] http://www.3dcenter.org/news/hardware-und-nachrichten-links-des-8-mai-2020
[2] https://twitter.com/kopite7kimi/status/1131031428878094337
[3] http://www.3dcenter.org/news/nvidia-stellt-den-ga100-chip-der-ampere-generation-mit-8192-shader-einheiten-einem-6144-bit-hbm
[4] http://www.3dcenter.org/news/wie-gaming-ampere-die-verdoppelte-anzahl-shader-einheiten-erreicht
[5] https://old.reddit.com/r/nvidia/comments/iko4u7/geforce_rtx_30series_community_qa_submit_your/g3qkzva/
[6] https://twitter.com/VideoCardz/status/1301799080499261440
[7] http://www.3dcenter.org/news/geruechtekueche-gaming-ampere-wieder-nur-mit-ca-35-mehrperformance-dafuer-aber-rtx-fuer-alle
[8] http://www.3dcenter.org/newskategorie/raytracing
[9] http://www.3dcenter.org/news/rohleistungsvergleich-xbox-series-x-vs-playstation-5
[10] http://www.3dcenter.org/news/hardware-und-nachrichten-links-des-4-august-2020
[11] http://www.3dcenter.org/news/nvidia-pascal
[12] http://www.3dcenter.org/news/nvidia-ampere
[13] http://www.3dcenter.org/news/nvidia-turing
[14] http://www.3dcenter.org/news/nvidia-ersetzt-die-titan-x-pascal-durch-die-titan-xp-mit-gp102-chip-im-vollausbau
[15] https://www.computerbase.de/2020-09/nvidia-geforce-rtx-3000-ampere-technik/
[16] https://www.hardwareluxx.de/index.php/artikel/hardware/grafikkarten/54038-neue-details-ampere-und-gtx-30-series-deep-dive.html
[17] https://www.pcgameshardware.de/Geforce-RTX-3090-Grafikkarte-276729/Specials/RTX-3090-RTX-3080-RTX-3070-Launch-kaufen-1357443/
[18] http://www.3dcenter.org/dateien/abbildungen/nVidia-Turing-Shader-Cluster_0.png
[19] http://www.3dcenter.org/abbildung/nvidia-turing-shader-cluster-sm
[20] http://www.3dcenter.org/dateien/abbildungen/nVidia-Gaming-Ampere-Shader-Cluster.png
[21] http://www.3dcenter.org/abbildung/nvidia-gaming-ampere-shader-cluster-sm
[22] http://www.3dcenter.org/news/hardware-und-nachrichten-links-des-1011-juni-2020
[23] https://www.pcgameshardware.de/Geforce-RTX-3070-Grafikkarte-276747/News/Finale-Spezifikationen-1357984/
[24] http://www.3dcenter.org/news/nvidia-stellt-geforce-rtx-3070-3080-3090-offiziell-vor
[25] http://www.3dcenter.org/dateien/abbildungen/nVidia-GA104-Block-Diagram.png
[26] http://www.3dcenter.org/abbildung/nvidia-ampere-ga104-blockschaltdiagramm
[27] https://old.reddit.com/r/hardware/comments/ikz559/quantifying_the_relative_performance_of_rtx_3000/