Die (vermutlichen) Hardware-Spezifikationen der kompletten "Ampere"-Chipserie

Nachdem sich die früheren Vorhersagen [1] zur Ampere-Hardware durch Twitterer Kopite7kimi [2] nunmehr nach dem GA100-Chip [3] auch beim GA102- sowie beim GA104-Chip bestätigt haben, kann man davon ausgehen, das jene bereits seit Mai 2019 vorliegende Vorhersage auf durchgehend echten Daten beruht. Schließlich stimmen auch die selten beachteten Details wie die 7 Graphics Processing Cluster (GPC) beim GA102-Chips, welche man wegen der ungerade Zahl kaum "freiwillig" vorhersagen würde. Zusammen mit der kürzlichen Klarstellung [4], wie sich die Shader-Cluster von Gaming-Ampere aufbauen (zuzüglich einer Detail-Infos zu den Ampere-ROPs [5] sowie zu den Tensor-Cores von Ampere [6]), kann man davon ausgehend bereits die komplette "Ampere"-Chipserie in ihren grundsätzlichen Hardware-Spezifikationen erkennen. Nachfolgende Aufstellung ist bezüglich der Ampere-Chips GA107 & GA106 natürlich noch nicht gefeit vor letztendlichen Fehlern, bezüglich GA104 & GA102 kann man sich hingegen nahezu sicher sein, fehlt zumeist nur noch eine hochoffizielle Bestätigung des allerdings bereits offensichtlichen:

	GA107	GA106	GA104	GA102	GA100
Raster-Engines (GPC)	2	3	6	7	8
Shader-Cluster (SM)	20	30	48	84	128
FP32-Einh. (CUDA-Cores)	2560	3840	6144	10752	8192
INT32-Einheiten	1280	1920	3072	5376	8192
Textureneinh. (TMUs)	80	120	192	336	512
Tensor-Cores	80	120	192	336	512
RT-Cores	möglw. 20 (?)	möglw. 30 (?)	48	84	✗
ROPs	32	48	96	112	whrschl. 128
Level2-Cache	?	?	4 MB	6 MB	48 MB
Speicherinterface	128 Bit GDDR6	192 Bit GDDR6	256 Bit GDDR6	384 Bit GDDR6X	6144 Bit HBM2
Grafikkarten	GTX/RTX 3040 Serie (?)	GTX/RTX 3050 Serie (?)	RTX 3060, 3070 & 3070 Ti	RTX 3080 & 3090	rein HPC
Release	Q1/2021	Q1/2021	Oktober 2020	17. September 2020	14. Mai 2020 [3]
Basis: Ampere Hardware-Vorhersage von 'Kopite7kimi' [1] & nVidia-Aussagen zur Ampere-Architektur [5]

Wie zu sehen, geht nVidia weg von den früher üblichen Verdopplungen der Shader-Cluster bei den nächstgrößeren Grafikchips – dies macht wahrscheinlich die Performance-Abstände zu groß oder zwingt im Zweifelsfall zu extrem abgespeckten Salvage-Lösungen. Bei der Ampere-Generation gibt es hingegen zwischen +50% bis +75% mehr Shader-Cluster zum jeweils nächstgrößeren Grafikchip. Den größten Sprung gibt es mit +75% zwischen GA104 und GA102 ausgerechnet an der Leistungsspitze – resultierend aus dem Punkt, dass dazwischen angeblich noch ein GA103-Chip (mit 60 Shader-Clustern) geplant war, welchen nVidia jedoch letztlich doch nicht realisiert hat. Vakante Größen zu diesen Hardware-Angaben gibt es dann nur noch zu den kleineren Grafikchips GA106 & GA107: Zu bestätigen wäre noch, dass auch diese die verdoppelten FP32-Einheiten der größere Ampere-Chips tragen – genauso wie, ob es dort auch wirklich RayTracing-Fähigkeiten und damit RT-Cores gibt. Eine grundsätzliche RayTracing-Eignung aller Ampere-Grafikkarten wird gemäß eines früheren Gerüchte [7] zwar angenommen und macht sich gut in einem Zeitalter, wo RayTracing [8] auch seitens der NextGen-Konsolen [9] sowie im kommenden Navi-2X-Portfolio von Mainstream- bis Enthusiast-GPUs [10] geboten werden wird. Gänzlich sicher ist dieser Punkt aber noch nicht, eine extra "GeForce GTX 30" oder auch "GeForce GTX 25" Serie ohne RayTracing-Fähigkeit wäre immer noch denkbar.

Zumindest sofern nVidia bei den beiden kleineren Ampere-Chips GA106 & GA107 nicht wieder andere Shader-Cluster ansetzt (arg unwahrscheinlich wegen des höheren Aufwands), läßt sich deren grobe Performance-Richtung durchaus schon auf Basis der vorhandenen, wenngleich von nVidia stammenden Benchmarks zu den größeren Ampere-Lösungen abschätzen. Hilfreich zu dieser Performance-Abschätzung ist auch der Quervergleich zur Pascal-Generation [11], deren Grafikkarten schließlich auch 128 CUDA-Cores per Shader-Cluster tragen und somit mit der Ampere-Generation [12] sogar besser vergleichbar sind als die Modelle Turing-Generation [13]. Danach sollten GA106-basierte Grafikkarten grob das Performance-Level einer GeForce GTX 1080 Ti anpeilen können, GA107-basierten Grafikkarten grob das Performance-Level einer GeForce GTX 1080. Sofern sich die technischen Voraussetzungen bei den Ampere-Chips GA106 & GA107 also nicht verschieben, führt der Performance-Sprung der Ampere-Generation somit dazu, dass im Mainstream- wie im Midrange-Segment nur zwei Generationen zurückliegende Spitzen-Beschleuniger (grob) erreicht werden sollten. Plakativ läßt sich dies anhand des GA106-Chips ermessen, welcher mit 3840 CUDA-Cores (wahrscheinlich) so viel FP32-Einheiten aufbieten wird wie einstmals die Titan Xp [14] auf Basis des Vollausbaus des GP102-Chips.

Pascal	Turing	Ampere
		GeForce RTX 3090 82 SM & 10496 CUDA-Cores @ 384 Bit GDDR6X
		GeForce RTX 3080 68 SM & 8704 CUDA-Cores @ 320 Bit GDDR6X

	GeForce RTX 2080 Ti 68 SM & 4352 CUDA-Cores @ 352 Bit GDDR6	GeForce RTX 3070 46 SM & 5888 CUDA-Cores @ 256 Bit GDDR6
	GeForce RTX 2080 Super 48 SM & 3072 CUDA-Cores @ 256 Bit GDDR6	GeForce RTX 3060 ~40 SM & ~5120 CUDA-Cores @ 256 Bit GDDR6
GeForce GTX 1080 Ti 28 SM & 3584 CUDA-Cores @ 352 Bit GDDR5X	GeForce RTX 2070 Super 40 SM & 2560 CUDA-Cores @ 256 Bit GDDR6	"GA106" 30 SM & 3840 CUDA-Cores @ 192 Bit GDDR6
	GeForce RTX 2060 Super 34 SM & 2176 CUDA-Cores @ 256 Bit GDDR6
GeForce GTX 1080 20 SM & 2560 CUDA-Cores @ 256 Bit GDDR5X	GeForce RTX 2060 30 SM & 1920 CUDA-Cores @ 192 Bit GDDR6	"GA107" 20 SM & 2560 CUDA-Cores @ 128 Bit GDDR6
GeForce GTX 1070 15 SM & 1920 CUDA-Cores @ 256 Bit GDDR5	GeForce GTX 1660 Super 22 SM & 1408 CUDA-Cores @ 192 Bit GDDR6
Anmerkung: Sehr schematische Performance-Einordnung, kann im Detail beachtbar abweichen!

Nachtrag vom 4. September 2020

Mit dem Freitag-Abend sind erste Technik-Artikel zu Gaming-Ampere seitens ComputerBase [15], Hardwareluxx [16] und PC Games Hardware [17] erschienen, welche über viele Details jener Grafikchip-Architektur aufklären. Damit bestätigen sich auch die zuletzt an dieser Stelle getroffenen Angaben zu den größeren Ampere-Chips GA104 & GA102 – was die zusätzlich getroffenen Angaben zu den kleineren Ampere-Chips GA106 & GA107 nochmals glaubwürdiger macht, selbst wenn jene derzeit nicht offiziell bestätigt sind. Hinzugekommen in der tabellarischen Aufstellung ist nun noch eine Angabe zum Level2-Cache, zudem konnte die Anzahl der RT-Cores bestätigt werden. Wie nVidia die Verdopplung der FP32-Einheiten in den Shader-Clustern realisiert, wurde zwar auch schon an dieser Stelle beschrieben [4], nVidias offizielles Blockschaltbild eines GA102 Shader-Clusters zeichnet das ganze dann jedoch sogar nochmals eleganter: Der zweite Datenpfad mit FP32 oder INT32 wird einfach als eine (gemeinsame) Einheit abgebildet. Ob dies technisch wirklich so realisiert wurde, ist unklar – aber zumindest ist es somit einfacher verständlich, wo die Differenz in den Shader-Clustern von Turing [13] und Ampere [12] liegt:

[18]
nVidia Turing Shader-Cluster (SM) [19]

[20]
nVidia Gaming-Ampere Shader-Cluster (SM) [21]

Eine andere Offenbarung liegt in den Chip-Daten zu GA104 & GA102, wo bisher nur die Transistoren-Größe zum GA102-Chip (28 Mrd.) bekannt war. Diese befinden sich nunmehr auf einem 628mm² großen Chip – womit die Gerüchteküche [22] einmal mehr richtig lag. Bei der Packdichte der Transistoren ergibt dies im übrigen einen heftigen Unterschied zum GA100-Chip [3] aus TSMCs 7nm-Fertigung: Selbige liegt mit 65,4 Mio. Transistoren pro mm² augenscheinlich sehr weit vor Samsungs 8nm-Fertigung, welche beim GA102-Chip nur 44,6 Mio. Transistoren pro mm² realisieren kann (jene ist aber auch nur eine Verbesserung der 10nm-Fertigung, liegt also fast einen ganzen Node zurück). Der GA104-Chip von GeForce RTX 3060 & 3070 wird hingegen offiziell mit 17,4 Mrd. Transistoren auf 392mm² Chipfläche angegeben: Dies ist bei der Transistoren-Anzahl nur minimal weniger als beim TU102-Chip der GeForce RTX 2080 Ti (18,6 Mrd. Xtors auf 754mm²). Zu den kleineren Ampere-Chips GA106 & GA107 wurde (logischerweise) nichts gesagt, allerdings kann man jene anhand der bekannten Hardware-Daten und unter der Annahme, dass auch diese Grafikchips dann RT-Cores tragen werden, in Bezug auf Transistoren-Menge und vermutlicher Chipgröße schon schätzen. Klein werden auch diese Grafikchips (vermutlich) nicht, der GA107-Chip dürfte sogar beachtbar mehr Transistoren aufweisen als der frühere GP104-Chip von GeForce GTX 1070 & 1080 (7,2 Mrd. Xtors auf 314mm²).

	GA107	GA106	GA104	GA102	GA100
Fertigung	8nm Samsung				7nm TSMC
Transistoren	(geschätzt ~8-9 Mrd.)	(geschätzt ~11,5-12 Mrd.)	17,4 Mrd.	28 Mrd.	54 Mrd.
Chipfläche	(geschätzt ~180-200mm²)	(geschätzt ~260-270mm²)	392mm²	628mm²	826mm²
Packdichte	-	-	44,4 Mio/mm²	44,6 Mio/mm²	65,4 Mio/mm²
GPC/SM/SI	2/20/128b	3/30/192b	6/48/256b	7/84/384b	8/128/6144b

Nachtrag vom 13. September 2020

Bei der PC Games Hardware [23] spricht man über die finalen Daten zur GeForce RTX 3070, welche wie bekannt am 15. Oktober antritt. Dabei wird auch ein Blockschaltbild zum zugrundliegenden GA104-Chip aufgeboten, welches letzte Fragen zu dessen Hardware-Kapazitäten klärt. So tritt der GA104-Chip von GeForce RTX 3060 Ti & 3070 nunmehr doch mit 6 Raster-Engines an. Diesen Punkt hatte nVidia bei der offiziellen Ampere-Vorstellung [24] offengelassen und oftmals wurden hierzu dann nur 4 Raster-Engines angenommen – was gut zu den maximal 48 Shader-Clustern des GA104-Chips passt. Allerdings trifft nun doch die alte Ampere-Vorhersage von Twitterer "Kopite7kimi" [1] vollumfänglich zu, welcher bereits im Mai 2019 eben 6 GPC beim GA104-Chip notiert hatte. Im übrigen lag in der Detaillierheit dieser seinerzeitigen Daten ein Hauptgrund für deren Glaubwürdigkeit: Fakes kümmern sich in aller Regel nicht um solcherart kleinere Details, sondern suchen eher die plakative Zahl. In der Summe hat "Kopite7kimi" bisher drei von fünf realisierten Ampere-Chips vollkommen korrekt vorhergesagt – womit man annehmen darf, dass auch die Hardware-Daten zu den zwei übrigen Chips (GA106 & GA107) korrekt sind.

[25]
nVidia "Ampere" GA104 Blockschaltdiagramm [26]

Für den GA104-Chip selber haben jene 6 anstatt 4 Raster-Engines dabei zwei Bedeutungen: Erstens einmal steigt damit die Anzahl der Raster Operation Units (ROPs) von 64 auf 96. Jene sind in der Ampere-Generation nicht mehr separat ausgeführt, sondern Teil des GPCs (Graphics Processing Clusters, Obereinheit einer Raster-Engine), korrelieren somit mit der Anzahl der GPCs bzw. Raster-Engines. Unter dem GA102-Chip enthält jeder GPC seine 16 ROP-Einheiten, somit maximal 112 ROPs beim GA102-Chip. Beim GA104-Chip ergibt dieser Aufbau dann immerhin noch 96 ROPs – und damit deutlich mehr als bei bisherigen nVidia-Grafikchips mit 256bittigem Speicherinterface (üblicherweise 64). Damit nähert sich der GA104-Chip dem GA102-Chip in diesen zwei Punkten – Raster-Engines & ROPs – doch ziemlich stark an, trotz einer erheblichen Differenz bei der Anzahl der maximalen Shader-Cluster (48 vs. 84). Hier dürfte auch der Grund dafür liegen, wieso nVidias eigene Ampere-Benchmarks [27] nur eine Performance-Differenz von +35% zwischen GeForce RTX 3070 & 3080 ausgewiesen haben: Bei den Shader-Clustern liegen beide Grafikkarten zwar +48% auseinander, bei der Anzahl der Raster-Engines und ROPs herrscht allerdings sogar ein Gleichstand.

	RTX3070	GA104	RTX3080	RTX3090	GA102
Raster-Engines (GPC)	6	6	6	7	7
Shader-Cluster (SM)	46	48	68	82	84
ROPs	96	96	96	112	112
Level2-Cache	4 MB	4 MB	5 MB	6 MB	6 MB
Speicherinterface	256 Bit GDDR6	256 Bit GDDR6	320 Bit GDDR6X	384 Bit GDDR6X	384 Bit GDDR6X