Erster Überblick zur 5nm Grafikchip-Generation

Montag, 26. Juli 2021

/ von Leonidas [1]

Mit den Leaks & Gerüchten der letzten Tage formt sich langsam ein erstes Bild der 5nm-Generation im Grafikchip-Bereich. AMD und nVidia werden hierbei beiderseits mit getrennten Architekturen für HPC- und Gaming-Belange antreten. Auf nVidia-Seite besteht also keine Konkurrenz zwischen "Hopper [2]" und "Lovelace [3]", sondern jene Ansätze ergänzen sich genauso wie CDNA2 und RDNA3 [4] auf AMD-Seite. Interessanterweise soll die Anzahl der FP32-Einheiten bei allen vier Spitzenchips in einem sehr ähnlichen Feld von 15'360 bis 18'432 liegen – bei allerdings je nach HPC- und Gaming-Segment anderem Aufbau, Effektivitätsrate und Zielsetzung der eigentlichen Recheneinheiten. Als Chipfertigung wird man durchgehend TSMCs 5nm-Prozeß benutzen – mit allerhöchstens der Varianz, ob es der "normale" N5-Node oder der (leicht) verbesserte N5P wird.

Drei der vier Chip-Projekte setzen dabei schon auf MultiChip-Ansätze (MCM, Chiplets) – einzig allein nVidias "Lovelace"-Generation kommt noch monolithisch daher. Damit könnte Lovelace durchaus die letzte monolithische Chip-Generation darstellen, in dieser Frage spielen Zeit und Wirtschaftlichkeit zugunsten des MCM-Ansatzes. Gerade wenn AMD mit seinem MCM-Ansatz bei den Navi-3X-Chips tatsächlich auf einer höheren Performance als nVidia herauskommen sollte (wird von den Gerüchten derart kolportiert, ist derzeit aber natürlich komplett ungesichert), muß sich nVidia nachfolgend zwingend mit dem Thema "MCM auch für Gaming" beschäftigen. Allerdings steht zu vermuten, dass man dies nVidia-intern längst getan hat, jeder große Chip-Entwickler bereitet sich üblicherweise immer auf so viele wie möglich Zukunftsoptionen vor.

	AMD	nVidia
HPC	Aldebaran (CDNA2) 2-Chip MCM-Design unter TSMC 5nm (?) (insgesamt) 16 SE, 256 CU mit 16'384 FP32 (full-rate FP64) (insgesamt) 8192 Bit HBM2e	GH100 (Hopper) 2-Chip MCM-Design unter TSMC 5nm (insgesamt) 16 GPC, 288 SM mit 18'432 FP32 höchstwahrscheinlich HBM2e-Interface weitere Chips: möglicherweise GH202 (für Gaming)
Gaming	Navi 31 (RDNA3) MCM-Design mit 2x GCD (TSMC 5nm) + 1x MCD (TSMC 6nm) (insgesamt) 6 SE, 60 WGP mit 15'360 FP32 (insgesamt) 256 Bit GDDR6 größerer Infinity Cache, angeblich sogar als extra Chips weitere Chips: Navi 32, Navi 33, möglicherweise Navi 34	AD102 (Lovelace) monolithisches Design unter TSMC 5nm 12 GPC, 144 SM mit 18'432 FP32 384 Bit GDDR6X + "größere Caches" weitere Chips: vermutlich AD103, AD104, AD106, AD107
Diagramme	[5] [6] [7]
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Stichwort Performance: nVidias Lovelace-Generation wird in Form des AD102-Chips eine (knappe) Verdopplung gegenüber dem GA102-Chip der Ampere-Generation [8] nachgesagt. AMDs RDNA3-Generation soll hingegen in Form des Navi-31-Chips das 2,5fache bis sogar 2,7fache gegenüber Navi 21 erbringen, was – da die Ausgangslage zwischen GA102 und Navi 21 grob dasselbe Performance-Level hat [9] – AMD in der kommenden Chip-Generation sogar klar vor nVidia sehen würde. Dieses Ergebnis ist derzeit natürlich nur eine Projektion auf Basis der vorhandenen Hardware-Daten – ohne vernünftiges Wissen darüber, wie die jeweiligen Grafikchip-Architekturen verändert wurden und was dies für Auswirkungen auf die Recheneffizienz dieser NextGen-Grafikchips haben wird.

	AMD Navi 21 → Navi 31	nVidia GA102 → AD102
Architektur	augenscheinlich deutlich veränderte Architektur (nicht nur wegen MCM), Wegfall der CUs (WGPs als neue hauptsächliche Ordnungseinheit), anscheinend 4 → 6 Shader-Engines, anscheinend 128 → 256 FP32 pro WGP	vermutlich vergleichweise ähnliche Grundarchitektur, 7 → 12 Raster-Engines (GPC)
FP32-Recheneinheiten	5'120 → 15'360 (+200%)	10'752 → 18'432 (+71%)
(hochgerechnete) Rohpower	21 TFlops → ~75-80 TFlops (+257-281%)	36 TFlops → ~80 TFlops (+122%)
Performance-Target	2,5-2,7fache (+150-170%)	1,9-2,0fache (+90-100%)
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Nichtsdestotrotz gibt es genau an dieser Stelle immer wieder kleine Hinweise seitens Leaker 'Kopite7kimi' darauf, dass nVidia eventuell mit einem GH202-Chip nachlegen könnte, falls die Lovelace-Generation gegenüber der RDNA3-Generation (an der Leistungsspitze) nicht schlagkräftig genug wäre. Dies würde grundsätzlich überraschen, denn zum einen erscheint die Hopper-Generation für den Gaming-Einsatz wenig geeignet (andere Ausgestaltung der Recheneinheiten, vermutlich keine RT-Cores), zum anderen sind solcherart schnelle Wechsel für nVidia eher denn untypisch. Gänzlich unmöglich ist dieser Weg aber auch nicht, selbst wenn sich "GH202" dann deutlich von "GH100" unterscheiden müsste: In jedem Fall müssen dann RT-Cores mit dabei sein, ansonsten ist dies im Gaming-Segment nicht verkaufsfähig.

Zudem könnte jener GH202 dann auch bei nVidia den MCM-Ansatz ins Gaming-Segment bringen. Die notwendige Technologie hierfür wird in der Hopper-Architektur vorhanden sein, während das reine Hochtreiben der Hardware-Einheiten bei der (monolithischen) Lovelace-Architektur irgendwann an ein Limit stoßen dürfte. Zudem könnte man sich auch vorstellen, dass nVidia für den GH202-Chip dann das HBM2e-Speicherinterface des GH100 bemüht, damit man wegen dessen höherer Energieeffizienz etwas mehr Platz unter dem Powerlimit bekommt. Derzeit ist ein GH202-Chip als nachfolgender RDNA3-Konter sicherlich nur eine Möglichkeit, aber wegen der mehrfachen Erwähnung seitens 'Kopite7kimi' muß jene schlicht auf dem Radar bleiben.

Navi 32 — MCM-Konstrukt, Hardware-Daten derzeit vollkommen unsicher
Navi 33 — monolithisch oder zumindest nur mit einem GCD, angeblich genauso viele FP32-Einheiten wie Navi 21 (5120), Tape-Out angeblich im Q4/2021
Navi 34 — rein vermuteter weiterer Chip, bisher komplett unbestätigt

AD103, AD104, AD106 & AD107 — vermutete weitere Chips der Lovelace-Generation mit jeweils kleinerer Hardware
GH202 — möglicherweise nachfolgender Konter auf Navi 31 (sprich für Gaming trotz Hopper-Abstammung), tatsächliches Erscheinen & Hardware-Daten unklar

Genauso gilt für alle nachfolgenden Chips der Navi-3X- und AD10X-Familien jetzt sicherlich erst einmal abzuwarten, dass sich diese Hardware-Daten zu Navi 31 und AD102 bestätigen und ob mit deren (anstehenden) Tape-Outs sich eventuell genauere Informationen zu diesen kompletten Chip-Familie einfinden. Bei Navi 32 & 33 sind selbige teilweise bereits vorhanden, allerdings immer noch recht konfus und im Fluß befindlich. Bei AD10X ist hingegen noch gar nichts griffiges verfügbar – könnte man zwar spekulieren, aber auch einfach das Auftauchen des nächsten Leaks abwarten. Die kleineren Chips haben zwar größtenteils spätere Tape-Out-Daten, aber die Planung zu deren Hardware-Konfiguration wird letztlich zum selben Zeitpunkt abgeschlossen sein – schließlich richtet sich das Portfolio der kleineren Chips immer am größten Chip aus.

Jene größten Chips werden in der 5nm-Generation augenscheinlich enorme Zuwächse an reiner Rechenleistung mitbringen, gleichfalls lassen sich die Grafikchip-Entwickler bei ihren Performance-Projektionen nicht lumpen und streben wenigstens eine Performance-Verdopplung gegenüber dem bisherigen Stand an. Sofern sich dies nur ansatzweise erfüllt, wird dies jedoch kaum ohne einen weiter nach oben gehenden Stromverbrauch vonstatten gehen können. Die Stromverbrauchs-Charakteristik der 5nm-Fertigung [10] läßt eigentlich nur 40-50% mehr Rechen-Einheiten zum gleichen Stromverbrauch zu, selbst eingerechnet in der Praxis leicht bessere Werte zuzüglich Effizienzgewinne durch Architektur-Verbesserungen reicht es niemals, um die für Navi 31 und AD102 genannte Hardware-Konfiguration ohne höheren Stromverbrauch zu realisieren.

	AMD	nVidia
HPC	Aldebaran (CDNA2) Projektstatus: Designende erreicht Tape-Out: augenscheinlich bereits 2020 gelaufen Vorstellung: sollte umgehend erfolgen Marktstart: erste Auslieferungen im Q2/2021 Spekulations-Thread zu "AMD CDNA2" im 3DCenter-Forum [11]	GH100 (Hopper) Projektstatus: Designende erreicht Tape-Out: angeblich in Bälde Vorstellung: möglicherweise Frühjahr 2022 Marktstart: vermutlich Ende 2022 Spekulations-Thread zu "nVidia Hopper" im 3DCenter-Forum [12]
Gaming	Navi 31 (RDNA3) Projektstatus: Designende vermutlich erreicht Tape-Out: angeblich in Bälde Launch: erwartet H2/2022 Spekulations-Thread zu "AMD RDNA3" im 3DCenter-Forum [13]	AD102 (Lovelace) Projektstatus: Projekt-Plan finalisiert Tape-Out: vermutlich später im Jahr Launch: erwartet Q4/2022 Spekulations-Thread zu "nVidia Lovelace" im 3DCenter-Forum [12]
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Mit großen Performancesprüngen geht heutzutage immer auch die Sorge bezüglich Preislagen und Verfügbarkeit einher. Um über Preise zu spekulieren, ist es derzeit eigentlich noch zu früh – dies entwickelt sich auch bei den Chip-Entwicklern erst mit der Arbeit am lauffähigen Silizium, wird aber letztlich zumeist erst kurz vor der offiziellen Vorstellung final festgelegt (manchmal erst Tage vorher). Grundsätzlich wird hierbei aber auch mit hineinspielen, ob die Chip-Krise bis zu diesem Zeitpunkt so weit ausgestanden ist, dass tatsächlich wieder zum Listenpreis verkauft werden kann. Zumindest für die nächste Grafikchip-Generation gibt es diesbezüglich eine positive Vorhersage seitens Greymon55 @ Twitter [14] – welcher, trotz dass alle vier Grafikchip-Projekte fast gleichzeitig unter der 5nm-Fertigung von TSMC vom Band laufen sollen, eine gute Verfügbarkeit der 5nm-Generation in Aussicht stellt:

If nothing special happens, there will be no shortage of chips in the next generation.
Quelle: Greymon55 @ Twitter [14] am 24. Juli 2021

Nachtrag vom 26. Juli 2021

'Bondrewd' hat im Beyond3D-Forum [15] die Sache des Hardware-Aufbaus von Navi 31 noch einmal klar gemacht mittels der kurzen Statusmeldung "32 * 8 * 10 * 3 * 2". Dies ist zu lesen als "SIMD-Breite x Anzahl SIMD x WGP x Shader-Engines x GCD" (bestätigt durch Bondrewd [16]), wobei es umgedreht vielleicht einfacher verständlich ist: Zwei Einzelchips mit jeweils 3 Shader-Engines, jeweils 10 WGPs, jeweils 8 SIMD auf SIMD-Breite 32. Alles hübsch miteinander multipliziert ergibt dies zum einen 15360 SIMD- aka FP32-Einheiten, verteilt auf zwei GCDs á 7680 SIMD/FP32-Einheiten. Der Einzelchip bietet dann jeweils 3 Shader-Engines und 30 WGP auf, für den gesamten Navi 31 Chip sind es 6 Shader-Engines und 60 WGP.

it's 32 * 8 * 10 * 3 * 2
Quelle: Bondrewd @ Beyond3D-Forum [15] am 26. Juli 2021

Navi 21	Navi 31 GCD	Navi 31 komplett
4 Shader-Engine (SE) 40 Workgroup Processor (WGP) 80 Compute Unit (CU) 64 FP32 per CU (128 FP32 per WGP) 5'120 FP32-Einheiten	3 Shader-Engine (SE) 30 Workgroup Processor (WGP) 256 FP32 per WGP 7'680 FP32-Einheiten	2 GCD 6 Shader-Engine (SE) 60 Workgroup Processor (WGP) 256 FP32 per WGP 15'360 FP32-Einheiten
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Damit erübrigen sich dann auch alle Überlegungen in andere Richtungen hin (größere Anzahl an Einzelchips, abweichende Anzahl an WGPs), denn aufgrund der vorliegenden Details führt somit nunmehr nur noch eine einzige Logik zum Ziel. Die bis vor kurzem breit angenommenen 80 Shader-Cluster (CU) als Grundlage eines GCDs von Navi 31 sind damit nicht korrekt. In dieser Frage hat man sich möglicherweise zu sehr von den Einträgen in einem früheren MacOS-Treiber [17] beeinflussen lassen, welche sich nunmehr als schlichte Platzhalter-Daten ohne Bedeutung herausstellen. Olrak29 @ Twitter [18] hat jenen Hardware-Ansatz von Navi 31 letztlich auch noch in ein (eigenerstelltes) Blockdiagramm gegossen.

Nachtrag vom 27. Juli 2021

Twitterer Kepler_L2 [19] hat seine Vorhersage zur Hardware-Konfiguration der RDNA3-Chips Navi 31, 32 & 33 aktualisiert, basierend auf der neuen Ausgestaltung der WGPs [20] innerhalb der RDNA3-Architektur. Sowohl die frühere Angabe [21] als auch die aktuelle Angabe kann man dabei – nach unserer eigenen Vermutung – als Anzahl an GCDs mal Anzahl der Shader-Engines pro GCD lesen. Dies passt sowohl für die frühere Angabe zum seinerzeitigen Gerüchtestand, als auch für die aktuelle Angabe zum aktuellen Gerüchtestand zur Hardware-Gestaltung von Navi 31. Navi 31 käme somit auf der bekannten Hardware mit zwei GCDs á jeweils 3 Shader-Engines heraus – auf jeweils 10 WGP pro Shader-Engine sind dies 30 WGP pro GCD sowie 60 WGP insgesamt und somit in der Summe 15'360 FP32-Einheiten.

For memory config I still believe this is correct, but for shader config maybe it's actually
2x3
2x2
1x2
Quelle: Kepler_L2 @ Twitter [19] am 26. Juli 2021

Navi 32 würde hingegen aus zwei GCD mit jeweils nur 2 Shader-Engines bestehen. Sofern hier derselbe Design-Grundsatz benutzt wird (10 WGP pro Shader-Engine), ergäbe dies 20 WGP pro GCD sowie 40 WGP insgesamt und in der Summe 10'240 FP32-Einheiten. Denkbar wäre vielleicht auch eine geringere Anzahl an WGPs pro Shader-Engine sein, damit Navi 32 besser in die Mitte zwischen Navi 31 & 33 passt. Auf nur 8 WGPs pro Shader-Engines ergäben sich für Navi 32 dann 16 WGP pro GCD sowie 32 WGP insgesamt und in der Summe 8'192 FP32-Einheiten. Navi 32 würde damit allerdings näher zu Navi 33 (5'120 FP32) als an Navi 31 (15'360 FP32) tendieren, was wahrscheinlich nicht beabsichtigt ist – womit die vorherige Auflösung mit 10 WGP pro Shader-Engine am Ende doch wieder wahrscheinlicher ist. Navi 33 käme hingegen hiermit auf 20 WGP und 5'120 FP32-Einheiten heraus – ganz so wie allgemein angenommen.

	Navi 33	Navi 32	Navi 31
Chips	monolithisch (1 GCD)	2 GCD + 1 MCD	2 GCD + 1 MCD
pro GCD	2 Shader-Engines 20 WGP 5'120 FP32	2 Shader-Engines wahrscheinlich: 20 WGP 5'120 FP32	3 Shader-Engines 30 WGP 7'680 FP32
insgesamt	2 Shader-Engines 20 WGP 5'120 FP32	4 Shader-Engines wahrscheinlich: 40 WGP 10'240 FP32	6 Shader-Engines 60 WGP 15'360 FP32
Fertigung	6nm TSMC	GCD: 5nm TSMC, MCD: 6nm TSMC
Tape-Out	angeblich Q4/2021	unbekannt	angeblich in Bälde
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Auch mit dieser Auflösung würde Navi 32 allerdings nicht (nominell) gleichmäßig in der Mitte zwischen Navi 33 & 31 sitzen. Eingerechnet allerdings gewisse Effizienzverluste des Chiplet-Ansatzes gegenüber monolithischen Designs ist es wohl besser, zwischen Navi 33 & 32 etwas mehr Platz zu haben als umgedreht zwischen Navi 32 & 31. Alle GCDs enthalten im übrigen jeweils einen kompletten Grafikchip, sprich inklusive Interfaces für Speicher & PCI Express sowie einer Video-Einheit. Die Differenz zwischen Navi 33 sowie Navi 31/32 liegt schlicht darin, dass letztere beide Chips den Infinity Cache auf dem extra MCD tragen, während selbiger bei Navi 33 direkt in den eigentlichen Grafikchip integriert ist. Alle drei GCDs sind somit jeweils unterschiedlich – wie es auch Bondrewd im Beyond3D-Forum [22] ausdrücklich bestätigt.

	monolithisch	MCM/Chiplet
GCD enthält	Recheneinheiten, Speicherinterface, PCIe-Interface, Video-Einheit + Infinity Cache	Recheneinheiten, Speicherinterface, PCIe-Interface, Video-Einheit
MCD enthält	nicht vorhanden	Infinity Cache
gilt für	Navi 33	Navi 31 & 32
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

[23]

Mit den Leaks & Gerüchten der letzten Tage formt sich langsam ein erstes Bild der 5nm-Generation im Grafikchip-Bereich. AMD und nVidia werden hierbei beiderseits mit getrennten Architekturen für HPC- und Gaming-Belange antreten. Auf nVidia-Seite besteht also keine Konkurrenz zwischen "Hopper" und "Lovelace", sondern jene Ansätze ergänzen sich genauso wie CDNA2 und RDNA3 auf AMD-Seite. Interessanterweise soll die Anzahl der FP32-Einheiten bei allen vier Spitzenchips in einem sehr ähnlichen Feld von 15'360 bis 18'432 liegen - bei allerdings je nach HPC- und Gaming-Segment anderem Aufbau, Effektivitätsrate und Zielsetzung der eigentlichen Recheneinheiten. Als Chipfertigung wird man durchgehend TSMCs 5nm-Prozeß benutzen - mit allerhöchstens der Varianz, ob es der "normale" N5-Node oder der (leicht) verbesserte N5P wird.
[24]

Erster Überblick zur 5nm Grafikchip-Generation (Seite 2)

Montag, 26. Juli 2021

/ von Leonidas [1]

Nachtrag vom 28. Juli 2021

Kepler_L2 @ Twitter [25] macht mit einem Statement noch einmal ganz klar, was GCD und MCD unter der RDNA3-Architektur bzw. den MCM-Chips Navi 31 & 32 enthalten: Der GCD enthält den kompletten Grafikchip inklusive auch der Interfaces, allein der Infinity Cache fehlt – jener ist ausgelagert in den MCD. Die vorherigen, spekulativen Deutungen zum MCD haben meist eine höhere Funktionalität vermutet, nun aber handelt es sich hierbei schlicht nur um den (ausgelagerten) Infinity Cache – womöglich hergestellt in mehreren Slices wie beim kommenden 3D V-Cache der Zen-3-Prozessoren [26]. Erst mit zukünftigen Chip-Generationen (Navi 41, RDNA4 [27]) könnte dann die Heraustrennung des I/O-Parts aus dem GCD erfolgen. Zudem wird "Graphics Core Die" als ausgeschriebener Name eines GCDs genannt (bisher spekulativ auch im Gespräch "Graphics Complex Die"), wobei leider der ausgeschriebene Name eines MCDs nicht erwähnt wird (spekulativ "Multi Cache Die" oder eher "Memory Core Die").

It's "Graphics Core Die" not complex actually. For MI200 the GCD contains everything (Naples-like design), for Navi31 it contains everything except the IC, for Navi41 and MI300 I imagine they will move more of the I/O to another die.
Quelle: Kepler_L2 @ Twitter [25] am 28. Juli 2021

VideoCardz [28] weisen auf einen Unterpunkt zu AMDs neuen Quartalszahlen [29] hin, wonach AMD im zweiten Quartal 2021 bereits erste Auslieferungen zu "Radeon Instinct" HPC-Beschleunigern auf Basis der CDNA2-Architektur vermeldet hat. Damit dürfte dann nichts anderes als "Radeon Instict MI200" auf Basis des "Aldebaran"-Chips gemeint sein – und damit dem ersten MCM-Konstrukt beider Grafikchip-Entwickler. Selbiges war zwar generell etwas früher dran als die anderen 5nm-Projekte, wurde jedoch bislang eher nicht vor Jahresende 2021 erwartet. Mit diesen Auslieferungen muß der Tape-Out von Aldebaran schon einigermaßen zurückliegen, vermutlich Richtung Frühjahr 2020. Ob AMD hierfür wirklich schon den 5nm-Node von TSMC angesetzt hat, oder nicht doch vielleicht den (früher verfügbaren) 6nm-Node, wäre noch zu klären. In jedem Fall wurde die Termin-Tabelle im Artikel zur 5nm Grafikchip-Generation somit entsprechend aktualisiert.

Nachtrag vom 29. Juli 2021

In der Frage, mit was für einem Stromverbrauch die 5nm Grafikchip-Generation einhergehen wird, hat Kopite7kimi @ Twitter [30] den kleinen Hinweis gegeben, dass man die GeForce RTX 40 nicht unterhalb 400 Watt ansetzen darf. Dies wird natürlich nur für das Top-Modell der jeweiligen Grafikkarten-Generation gelten – wobei sich die kleineren Modelle allerdings daran ausrichten werden und ebenfalls entsprechend jeweils höhere Stromverbrauchs-Werte auf die Waage bringen sollten. Wie hoch es für das Top-Modell über diese 400 Watt letztlich hinausgeht, ist unklar – aber nVidia sollte es normalerweise mit einer einzelnen Generation nicht übertreiben und daher die Watt-Steigerung pro Generation in einem überschaubaren Rahmen halten. Denkbar ist also irgendetwas bei 420-450 Watt – alles darüberliegende hat entsprechend geringere Chancen.

400 is not enough
Quelle: Kopite7kimi @ Twitter [30] am 29. Juli 2021

Gänzlich verwunderlich kommt dies nicht, denn die Grafikchip-Entwickler kämpfen hier gegen zwei Effekte: Zum einen sind die Fortschritte in der Halbleiterfertigung [10] perspektivisch nicht darauf ausgerichtet, einen dem Flächengewinn ebenbürtigen Stromverbrauchs-Effekte zu erzielen. Nutzt man also den Flächengewinn (vollkommen) aus, dann ergibt sich immer ein etwas höherer Stromverbrauch – meistens sogar mit einer größeren Differenz, als was man durch Effizienz-Verbesserungen auf Architektur-Ebene wieder auffangen könnte. Und zum anderen gehen AMD & nVidia die 5nm-Generation wie bekannt mit heftigen Hardware-Sprüngen an – welche generell unmöglich zum selben Stromverbrauch abzuleisten sind. Nachdem nVidia mit der Ampere-Generation [8] die viele Jahre lang bei nVidia geltende 250W-Grenze deutlich durchbrochen hat, ist nun augenscheinlich die Scheu vor höheren Watt-Zahlen gefallen – und man bringt somit das, was man Chip-technisch bestenfalls realisieren kann, unabhängig des daraus resultierenden Stromverbrauchs.

Dies dürfte dann wegen des erstgenannten, grundsätzlichen Effekts bei zukünftigen Chip-Generationen und Fertigungsverfahren nicht wesentlich anders laufen. Der harte Wettbewerb zwischen den Grafikchip-Entwicklern verhindert auch, dass man sich selber irgendwo begrenzt – das konnte sich nVidia nur zu den Zeiten leisten, wo man sich klar vor AMD wusste. Auch bei AMD darf man zukünftig somit eine vergleichsweise ähnliche Strategie erwarten – wobei der getroffene MultiChip-Ansatz mit der dreifachen Menge an FP32-Einheiten beim "Navi 31" Chip ja faktisch schon darauf hindeutet, dass es unmöglich ohne höheren Stromverbrauch gehen wird. Bondrewd im Beyond3D-Forum [31] hat AMDs Zielsetzung mit "Navi 31" bereits sehr klar dargelegt: Navi 31 soll außerhalb der Reichweite anderer (normaler) Chip-Projekte antreten. Nicht umsonst soll nVidia laut Kopite7kimi [32] über einen (nachgereichten) Navi-31-Konter in Form eines "GH202" Chips aus der Hopper-Generation [2] nachdenken.

It's a config designed around being unreachable by anything or anyone.
Quelle: Bondrewd @ Beyond3D-Forum [31] am 23. Juli 2021

Denn der Silizium-Einsatz von Navi 31 dürfte sich für die beiden GCDs von Navi 31 auf allein ca. 600-650mm² belaufen (laut Bondrewd [33] ist ein GCD kleiner als 350mm²), hinzukommend das MCD (was wahrscheinlich schlicht aus mehreren Slices an 3D V-Cache besteht) kann man insgesamt von vielleicht 800mm² Chipfläche für Navi 31 ausgehen. Dies dürfte deutlich mehr sein als der AD102-Chip von nVidia, welcher vermutlich bei +71% mehr Shader-Clustern und dem erheblichen Sprung von Samsung 8nm auf TSMC 5nm vielleicht sogar etwas kleiner als der GA102-Chip (628mm²) herauskommt. Zur Wattage von Navi 31 gibt es noch nichts griffiges, laut Bondrewd [34] sollen es jedoch keine 500 Watt werden. Irgendetwas im Rahmen von 450-480 Watt ist für Navi 31 jedoch durchaus vorstellbar, angesichts des Vergleichs zu AD102 sowie gerade der zu Navi 31 kolportierten Hardware-Daten.

	AMD Navi 31	nVidia AD102
Chip	TSMC 5nm, MCM, insgesamt vermutlich ~800mm² (oder mehr)	TSMC 5nm, monolithisch, vermutlich ~600mm²
Hardware	6 SE, 60 WGP, 15'360 FP32, Infinity Cache, 256 Bit GDDR6	12 RE, 144 SM, 18'432 FP32, 384 Bit GDDR6X
Stromverbrauch	vermutlich Richtung 450-480 Watt	vermutlich Richtung 420-450 Watt
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Nachtrag vom 2. August 2021

Von Twitterer TtLexington [35] kommt eine Serie an Tweets zur GeForce RTX 40 Serie bzw. natürlich primär auf deren Spitzen-Chip "AD102" bezogen. Der Twitterer ist bislang noch nicht in Erscheinung getreten, insofern muß die Qualität dessen Informationen erst noch eruiert werden. Nach eigenen Angabe handelt es sich um Mitglied des chinesischen Zhihu-Forums, welcher dort im September 2020 [36] für eine vergleichsweise gut zutreffende Performance-Aussage zu AMDs Navi-21-Chip (mindestens 3080er Level, im besten Fall nahe der 3090) gesorgt hatte. Zugunsten der neueren Tweets zur GeForce RTX 40 Serie spricht auch, dass jene entweder halbwegs auf bekanntes Wissen passen oder aber direkt von anderen Leakern bestätigt werden: So spricht Greymon55 @ Twitter [37] genauso von "hohen" Taktraten bei der Lovelace-Generation [3] – was der "TtLexington"-Aussage von 2.2 bis 2.5 GHz gleich ein ganz anderes Gewicht verleiht.

RTX 40 series: 2.2g-2.5g boost
Quelle: TtLexington @ Twitter [35] am 1. August 2021

rtx30series—rtx40series like Maxwell—Pascal
Quelle: TtLexington @ Twitter [38] am 1. August 2021

2022 12or2023Q1
Quelle: TtLexington @ Twitter [39] am 1. August 2021

TSMC ,not can be samsung
Quelle: TtLexington @ Twitter [40] am 3. August 2021

Mittels der höheren Taktraten sollte sich nVidia bei der FP32-Power weiterhin von AMD absetzen, könnte allerdings dann tatsächlich bei einem höheren Stromverbrauch landen. Womöglich liegt hierin die Erklärung dafür, dass die Tendenz der Leaker zuletzt dahin ging, AD102 den höheren Stromverbrauch zuzusprechen als Navi 31 – trotz dass AMD mit deutlich höheren Silizium-Aufwand herangeht und auch "TtLexington" wiederum TSMC als Chipfertiger bei nVidias 5nm-Generation bestätigt, nicht Samsung. Genauso bestätigt wird der hohe damit erzielbare Performance-Sprung, welcher sinngemäß ähnlich kräftig wie zwischen nVidias Maxwell- und Pascal-Generation aussehen soll (GeForce GTX 980 Ti → GeForce GTX 1080 Ti: +73% [41]). Genauso wie die bekannten, verläßlichen Quellen ist "TtLexington" dann arg zurückhaltend bei der Terminlage: AD102 ist demnach nicht vor Dezember 2022 zu sehen – oder sogar erst im ersten Quartal 2023. In dieser Frage scheint AMD etwas schneller zu sein, wo zumindest das vierte Quartal 2022 angepeilt wird, sogar das späte dritte Quartal 2022 noch nicht ganz unmöglich ist.

Laut Bondrewd @ Beyond3D-Forum [42] soll der Navi-33-Chip als der drittgrößte Chip der kommenden RDNA3-Architektur einen Midrange-Ansatz verfolgen, sprich für die Preisklasse von 450 Dollar gedacht sein. Dafür gibt es dann allerdings auch weniger Speicher als bei Navi 22 – welcher in Form der Radeon RX 6700 XT [43] seine 12 GB trägt. Dies erhärtet die (vorher schon hier und da genannte) These, wonach Navi 33 nur mit einem 128-Bit-Interface anrückt, dazu passen dann wirklich nur 8 (oder 16 GB) Speicher. Trotzdem würde es verwundern, wenn AMD in dieser Frage bei einer 450-Dollar-Karte knausrig wäre – dies ist dann immerhin schon Ende 2022 und muß voraussichtlich bis ins Jahr 2024 reichen. Andererseits sind Fragen der Speicherbestückung auch eine Angelegenheit der konkreten Kartengestaltung, welche man – wie zuletzt ausgeführt [44] – eigentlich erst mit Vorliegen eines validierten Grafikchips angeht.

Ballpark ~440mm^2 but it's also less mem than N22.
Feasiable for 450 buck.
Quelle: Bondrewd @ Beyond3D-Forum [42] am 28. Juli 2021

Interessant ist zudem die Notiz zur Chipgröße von Navi 33: Danach sollen es immerhin 440mm² sein. Dies erscheint gegenüber den 519mm² von Navi 21 als ziemlich kleiner Unterschied – erklärt sich allerdings wohl darin, dass die für Navi 33 (im Gegensatz zu Navi 31/32) angesetzte 6nm-Fertigung gegenüber 7nm nur einen Flächenvorteil von –16% erbringt. Navi 33 wird augenscheinlich dieselbe Anzahl an FP32-Einheiten wie Navi 21 mitbringen, zu allerdings einem halbierten Speicherinterface (256 Bit → 128 Bit) und jedoch voraussichtlich derselben Menge an Infinity Cache (128 MB). Unklar ist, wie stark dann die Architektur-Änderungen ins Transistoren-Budget sowie den Flächenbedarf einschlagen – aber angesichts dessen, dass AMD mit Navi 33 (angeblich) in Richtung der Performance von Navi 21 gehen will (und man zudem einigen Nachholbard beim Thema "RayTracing [45]" hat), ist eine gewisse dickere Architektur eigentlich obligatorisch.

	Navi 33	Navi 32	Navi 31
Chips	monolithisch	2 GCD + MCD	2 GCD + MCD
Fertigung	6nm TSMC	GCD: 5nm TSMC, MCD: 6nm TSMC
Chipfläche	~440mm²	unbekannt	geschätzt ~800mm² (oder mehr)
Hardware-Daten	2 Shader-Engines 20 WGP mit 5'120 FP32	4 Shader-Engines wahrscheinlich: 40 WGP mit 10'240 FP32	6 Shader-Engines 60 WGP mit 15'360 FP32
Speicherinterface	128 Bit GDDR6	unbekannt	256 Bit GDDR6
Infinity Cache	vermutlich 128 MB	unbekannt	vermutlich 512 MB
Perf-Ziel	Richtung Navi 21	unbekannt	Navi 21 x2,5-2,7
Tape-Out	Q4/2021	unbekannt	in Bälde
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Nochmals Bondrewd [46] notiert hierzu beispielsweise, dass AMD bei der RNDA3-Architektur nicht den Weg von nVidia bei der Ampere-Architektur [47] gegangen sein soll, wo nVidia die verdoppelten FP32-Einheiten mehrheitlich ohne entsprechend mehr Verwaltungslogik hingestellt hatte. AMD hat bei RDNA3 zwar die "Compute Units" (CU) zugunsten der WGPs abgelöst sowie die WGPs mit doppelter FP32-Anzahl aufgestockt, soll dazu aber (angeblich) auch insgesamt das ganze "Drumherum" entsprechend verbreitert haben. Damit könnte man dann einen größeren Performanceeffekt als nVidia bei deren FP32-Verdopplung generieren – was auch notwendig ist, denn ansonsten kommt Navi 33 niemals in die Nähe des Performance-Niveaus von Navi 21 (und wäre genauso die hohe Performance-Zielsetzung von Navi 31 außer Reichweite).

Instead of moar FP32 per same amount of regs they throw moar everything in a fat SM config.
Quelle: Bondrewd @ Beyond3D-Forum [46] am 28. Juli 2021

Nachtrag vom 3. August 2021

Twitterer 'Olrak29' (via VideoCardz [48] in Form eines umfangreichen Postings zu Navi 3X) hat auf der Basis der bekannten wie vermuteten Daten zu den RDNA3-Grafikchips nun auch noch Blockdiagramme für Navi 32 [49] sowie für Navi 33 [50] angelegt – welche das kürzlich schon erstellte Blockdiagramm für Navi 31 [7] ergänzen. Bei den groben Daten zu Navi 31 & 33 ist sich die Gerüchteküche derweil schon ziemlich sicher, vakant sind primär die Daten zu Navi 32 sowie jene zu Speicherinterface und Infinity Cache aller drei Navi-3X-Chips. Insbesondere dass zu Navi 33 kolportierte, nur 128 Bit breite Speicherinterface stößt breit auf Unglauben, da jenes als zu klein erscheint, um damit immerhin 5120 FP32-Einheiten (wie bei Navi 21) ausreichend mit Speicherbandbreite zu füttern.

[51]
(Nutzer-erstelltes) AMD Navi 32 Blockdiagramm [52] © Olrak29 @ Twitter [49]

[53]
(Nutzer-erstelltes) AMD Navi 33 Blockdiagramm [54] © Olrak29 @ Twitter [50]

Eine mögliche Erklärung hier gegenüber liefert allerdings der Effekt des Infinity Caches bzw. der jeweiligen Hit- und Missraten, wie jene bereits von Locuza im 3DCenter-Forum [55] eindrücklich dargelegt wurden. Auf der gleichen Menge an Infinity Cache (128 MB) hat ein Navi-21-Chip eine "Cache Miss Rate" von 38% unter 4K zu beklagen – nur in diesen 38% der Fälle kommt dann das 256bittige Speicherinterface zum Einsatz. Setzt man den Navi-33-Chip mit 128 MB Infinity Cache auf eine FullHD-Aufgabe an, dann fällt dessen "Cache Miss Rate" auf 20%, was fast die Hälfte ist – womit auch ein halb so breites Speicherinterface (für FullHD) ausreichend wäre. Größere Cache-Mengen würden dann den Navi-33-Chip sogar zur sinnvollen Arbeit unter WQHD befähigen – wobei diese Cache-Menge nicht garantiert werden kann, mehr als 128 MB Infinity Cache bei Navi 33 sind derzeit unsicheres Terrain.

	Navi 33	Navi 32	Navi 31
Chips	monolithisch	2 GCD + MCD	2 GCD + MCD
Fertigung	6nm TSMC	GCD: 5nm TSMC, MCD: 6nm TSMC
Chipfläche	~440mm²	unbekannt	geschätzt ~800mm² (oder mehr)
Hardware-Daten	2 Shader-Engines 20 WGP mit 5'120 FP32	4 Shader-Engines wahrscheinlich: 40 WGP mit 10'240 FP32	6 Shader-Engines 60 WGP mit 15'360 FP32
Speicherinterface	128 Bit GDDR6	vermutlich 192 Bit GDDR6	256 Bit GDDR6
Infinity Cache	vermutlich 128-256 MB	vermutlich 384 MB	vermutlich 512 MB
Perf-Ziel	Richtung Navi 21	unbekannt	Navi 21 x2,5-2,7
Tape-Out	Q4/2021	unbekannt	in Bälde
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

[23]

Nachtrag vom 28. Juli 2021
[56]

Erster Überblick zur 5nm Grafikchip-Generation (Seite 3)

Montag, 26. Juli 2021

/ von Leonidas [1]

Nachtrag vom 5. August 2021

Twitterer TtLexington [57], welcher kürzlich mit Aussagen über die GeForce RTX 40 Serie [58] in Erscheinung trat, hat nun auch noch eine sehr interessante Aussage zur Performance-Konstallation Navi 31 vs AD102 getroffen. Die hauptsächliche Aussage, wonach Navi 31 eventuell AD102 schlagen können soll, ist dabei weniger ungewöhnlich. Dies ergibt sich schon augenscheinlich anhand der herumgereichten Performance-Ziele von "Navi 31 = 2,5 x Navi 21" sowie "AD102 = 2,0 x GA102", wenn die aktuellen Grafikchips Navi 21 und GA102 letztlich in der Spitze als nur wenig unterschiedlich schnell angesehen werden. Viel interessanter ist eher die nachfolgende Aussage zur RayTracing-Performance von Navi 31 – welche sich nur indirekt mittels der Antwort auf die Behauptung eines anderen Twitterers ergibt:

but navi31 maybe beat ad102
Quelle: TtLexington @ Twitter [57] am 1. August 2021

It will in raster.
Quelle: Talel Sghaier @ Twitter [59] am 1. August 2021

ALL
Quelle: TtLexington @ Twitter [57] am 2. August 2021

Denn hiermit wird faktisch versprochen, dass Navi 31 bzw. die RDNA3-Generation [4] nicht mehr bei der RayTracing-Performance gegenüber AD102 bzw. der Lovelace-Generation [3] zurückliegt. Da Navi 31 zwar vor AD102 herauskommen soll, der Abstand jedoch nicht wirklich groß ist, kann sich AMD somit bei der RayTracing-Performance der 5nm-Grafikchips keinerlei Abschläge gegenüber nVidia leisten. Anders formuliert: Unter RDNA3 muß die RayTracing-Performance in Relation der Rasterizer-Performance entsprechen – anders geht dieses Versprechen des Twitterers nicht auf. Es bleibt zu hoffen, dass sich dahinter ernsthafte Informationen zur Ausgestaltung bzw. Verbesserung der RayTracing-Performance unter der RDNA3-Architektur verbergen. Denn natürlich ist dies derzeit nicht mehr als ein Gerücht von noch in Überprüfung befindlicher Quelle, welches mit der nötigen Prise Salz genossen werden sollte.

Wirklich unmöglich ist das ganze allerdings auch nicht, denn eine gleichwertige RayTracing-Performance muß eigentlich die zwingende Zielsetzung von AMD für eine neue Grafikkarten-Generation für das Jahresende 2022 sein. Zu diesem Zeitpunkt dürfte die aktuelle Trennung der Benchmarks nach mit/ohne RayTracing zumindest für neue Grafikkarten aufhören, muß sich dann jede Hardware unter der bestmöglichen Grafik erweisen und gibt es keine Ausreden mehr. Die Frage ist nur, ob AMD hierbei auch das einkalkulieren kann, was nVidia bei der RayTracing-Performance der Lovelace-Generation oben drauf legen wied – ein Punkt, den AMD derzeit eigentlich nur erahnen kann, wozu aber noch einige Zeit kein gesichertes Wissen vorliegen wird. nVidia hat halt früher mit dem Thema "RayTracing [45]" angefangen, womit man normalerweise die besseren Karten hat, die einmal erreichte Pole Position auch mit einer neuen Grafikkarten-Generation zu verteidigen.

Nachtrag vom 6. August 2021

Bondrewd @ Beyond3D-Forum [60] hat nochmals klarer gemacht, wie die MCDs in AMDs Multichip-Ansatz bei Navi 31/32 zu verstehen sind: Jene enthalten keine weitere Logik, sind auch kein Trägermaterial für Cache – sondern der Infinity Cache selber. Und dies dann in Chip-technisch mehrfacher Ausfertigung, sprich im eigentlichen sind es mehrere MCDs pro Grafikchip. Inwiefern AMD dann offiziell hierfür die Mehrzahl benutzt oder Marketing-technisch von nur "einem MCD" sprich, ist noch nicht heraus. Wie kleinteilig es wird, ist genauso bekannt – aber die Wortwahl seitens Bondrewd läßt wohl darauf schließen, dass es definitiv mehr als zwei Cache-Dies sind, wahrscheinlich eher in Richtung 4 oder 8 Cache-Dies (bei Navi 31 mit vermutlich 512 MB Infinity Cache).

MCDs are the cache dies.
Two GCD and fuckton of MCD.
Quelle: Bondrewd @ Beyond3D-Forum [60] am 1. August 2021

Dabei kommt diesem MCD dann nicht nur die Rolle zu, den Infinity Cache aus den GCDs von Navi 31/32 herauszulösen – sondern wohl auch die Rolle des gemeinsamen Video-Speichers, wo also die von beiden GCDs erarbeiteten Teil-Bilder zusammengesetzt werden. Dies ergibt sich aus einer Aussage seitens Olrak29 @ Twitter [61], welcher damit primär die größere Menge an Infinity Cache bei Navi 31/32 begründet. Sofern diese These passt, macht die frühere Angabe, wonach Navi 33 zwar 128 MB Infinity Cache, Navi 32 & 33 jedoch 384 und 512 MB tragen sollen, sehr viel mehr Sinn – denn Navi 33 ist monolithisch und braucht daher den Inifinity Cache nicht zur Datenübertragung zwischen den beiden GCDs. Abschließend hierzu noch ein Nutzer-erstelltes Schema-Bild seitens basix aus dem 3DCenter-Forum [62]: Zu beachten wäre allerdings, dass die MCDs laut der weiterführenden Diskussion [63] eher denn unter den GCDs angebracht werden sollen.

[64]
AMD Navi 31/32: GCD & MCD (schematisch, Nutzer-erstellt by basix) [65]

Nachtrag vom 9. August 2021

In Ergänzung der News von letzten Freitag [66] soll noch auf eine andere Auslegungsform zum MCD von Navi 31/32> hingewiesen werden, welche sich aus der Foren-Diskussion zur Meldung [67] ergab: Danach kann man die zugrundeliegende Formulierung "fuckton of MCD" nicht nur in Richtung mehrerer Einzelchips auslegen – sondern auch in Richtung einer großen Cache-Menge auf allerdings einem Einzelchip. Die in der Freitags-News dargebrachte Auflösung eines MCD bestehend aus mehreren Einzelchips ist damit keineswegs so sicher, wie dort notiert wurde – beide Möglichkeiten existieren weiterhin. Natürlich würde eine Aufsplittung in Einzelchips aus der Sicht einer höheren Yield-Rate in der Chipfertigung besser kommen und entspricht auch sonst AMDs Tendenz, die Chips so kleinteilig wie möglich aufzuteilen – aber es sind halt auch andere Auslegungen denkbar und damit nicht vom Tisch.

MCDs are the cache dies.
Two GCD and fuckton of MCD.
Quelle: Bondrewd @ Beyond3D-Forum [60] am 1. August 2021

Beispielsweise ergab sich aus der Foren-Diskussion ein interessanter Ansatzpunkt, wie man das GCD von Navi 31 doch noch für Navi 32 weiterverwenden könnte: Normalerweise gibt es für eine Salvage-Lösung keinerlei extra Chipnamen, sondern nur andere Chipversionen (Navi 31 XT, Navi 31 XL). Doch in diesem Fall könnte man eine Salvage-Lösung des Navi-31-GCDs mit einem eigenen, nur für Navi 32 verwendeten MCD kombinieren – und dann würde sich wiederum der extra Chipname "Navi 32" rechtfertigen, weil wenigstens zum Teil ein nirgendwo anders benutzter Chip (das N32-MCD) eingesetzt wird. Aus Sicht der Kostenlage erscheint diese These jedoch eher grenzwertig, denn damit würde man zwei GCDs um jeweils –33% beschneiden, nur um einen eigenen, etwas kleineren MCD einsetzen zu können. Den wenigsten Verschnitt hat nach wie vor die Auflösung von zwei unterschiedlichen GCDs bei Navi 31 & 32 sowie MCDs aus Einzelchips, womit die jeweiligen Spitzenlösungen gänzlich ohne deaktivierte Chipteile auskommen können.

An der grundsätzlichen Hardware-Power der drei Navi-3X-Chips ändern diese Diskussionen zur Auslegungen der Chip-Gestaltung im übrigen nichts – jene dienen eher dem besseren Verständnis, was AMD hierbei genau macht. Generell wird Navi 33 somit ein monolithischer Chip mit 5'120 FP32-Einheiten. Darüber gibt es dann nur noch Chiplets aus jeweils 2 GCDs und eben dem bewußten MCD. Dabei soll Navi 32 mit 10'240 FP32-Einheiten gegenüber Navi 33 die nominelle Hardware-Power glatt verdoppelt, während Navi 31 mit 15'360 FP32-Einheiten "nur" noch +50% auf Navi 32 oben drauf legt. Diese Aufteilung mag auf den ersten Blick wenig symetrisch aussehen, hat aber eventuell zwei Begründungen: Erstens könnten die MCM-Konstrukte nicht ganz so effektiv wie der monolithische Chip sein, womit man unter MCM-Bedingungen eventuell etwas mehr FP32-Einheiten für dieselbe Performance ansetzen muß.

	Navi 33	Navi 32	Navi 31
Bauform	monolithisch	2 GCD + MCD	2 GCD + MCD
FP32-Einheiten	5'120	10'240 (+100%)	15'360 (+50%)
Speicherinterface	128 Bit	192 Bit (+50%)	256 Bit (+33%)
Infinity Cache	128 MB	384 MB (+200%)	512 MB (+33%)
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Und zweitens ist es sogar ziemlich üblich, bei den kleineren Chips im Portfolio glatte Hardware-Verdopplungen anzusetzen, den absoluten Spitzenchip dann hingegen mit geringerem Abstand zum zweitkleinsten Chip auszuführen. Ein perfektes Beispiel hierfür ist nVidias Maxwell-Serie [68], wo zwischen GM206 und GM204 eine Verdopplung der FP32-Einheiten vorliegt, der für Ti- und Titan-Karten verwendete GM200-Chip hingegen nur +50% mehr FP32-Einheiten gegenüber dem GM204 aufweist. Sicherlich könnte man dies auch anders (mehr symetrisch) gestalten, aber dann müsste entweder der Spitzenchip in technisch schwierig zu beherrschende Größenklassen gehen – oder halt der zweitbeste Chip deutlich kleiner werden, welcher jedoch oftmals wichtig ist für den Wettbewerb der Grafikchip-Entwickler untereinander. AMDs Aufteilung der Navi-3X-Chips macht so gesehen sehr viel Sinn: Navi 33 dürfte grob die Performance von Navi 21 bieten, Navi 32 bringt die Generations-typische Performance-Verdopplung – und Navi 33 setzt dem ganzen (Titan-mäßig) einen oben drauf.

Nachtrag vom 12. August 2021

Twitterer 'Greymon55' hat mit zwei Tweets – No.1 [69] & No.2 [70] – interessante Hinweise auf die Ausgestaltung der RDNA3-Generation unterhalb von Navi 33 gegeben. Denn hierfür wird AMD augenscheinlich keine RDNA3-basierten Grafikchips auflegen – selbige sollen mit Navi 33 enden. Damit würde sich zumindest erklären, wieso schon vergleichsweise viel zu Navi 31, 32 & 33 bekannt ist, jedoch kein Sterbenswörtchen zu Navi 34 & Co. Die nachfolgende Navi-4X-Generation (auf Basis der RDNA4-Architektur [27]) soll dann hingegen mit höherer Anzahl an Grafikchips als Navi 3X antreten – sprich bei Navi 4X wird es dann wohl wieder explizite Mainstream- und Entry-Chips geben. Denkbar sogar, dass Navi 4X nochmals in der 5nm-Fertigung daherkommt – dann jedoch mit allen Chips unter 5nm und nicht einem Mix aus 5nm- und 6nm-Chips wie bei RDNA3 [4].

Navi4x has more chip models than Navi3x.
Quelle: Greymon55 @ Twitter [69] am 11. August 2021

Only N31-33 seems to be the RDNA3 core.
Quelle: Greymon55 @ Twitter [70] am 11. August 2021

Wie AMD das Marktsegment unterhalb Navi 33 (angeblich im 450-Dollar-Bereich unterwegs) innerhalb der vermutlichen "Radeon RX 7000" Serie bestücken wird, ist dagegen derzeit offen bzw. liegt im Feld der Spekulationen. Eine hierzu oftmals angedachte Auflösung wäre die 6nm-Neuauflage von RDNA2-Grafikchips [71] – folgend dem Trend, dass AMD die kleineren Chips dieser Grafikkarten-Generation wohl lieber in 6nm anstatt 5nm auflegt, wahrscheinlich um die zur Verfügung stehenden 5nm-Wafer anfänglich primär den eigenen Zen-4-Prozessoren zukommen zu lassen. Denkbar wäre an dieser Stelle aber auch die Weiterbenutzung der aktuellen 7nm-Technik, eventuell auch unter anderen Namen (aka "Rebrandings"). Ein Portfolio-Aufbau basierend auf Grafikchips unterschiedlicher Architektur- und Fertigungsstufen hat bei AMD durchaus Tradition – und damit spart man sich den einen oder anderen neu aufzulegenden Chip.

So oder so würde RDNA3 damit "nur" einen Aufsatz auf das RDNA2-Portfolio ergeben – Navi 21 würde durch Navi 33 ersetzt, oben drauf kommen dann Navi 32 & 31. Dies bedeutet primär, dass Radeon RX 6000 Grafikkarten basierend auf Navi 22/23/24 bestenfalls durch (somit nur leicht optimierte) 6nm-Varianten ersetzt werden, im schlechtesten Fall gibt es nur ein Rebranding innerhalb der Radeon RX 7000 Serie auf Basis desselben Chip-Unterbaus. Navi 22/23/24 bzw. eventuelle 6nm-Derivate davon dürften uns also vergleichsweise lange begleiten – bis weit in die 5nm-Generation hinein und damit über das Jahr 2022 hinaus. Augenscheinlich bringt erst die Radeon RX 8000 Serie auf Basis RDNA4 bzw. Navi 4X dann eine Ablösung dieser kleineren und mittleren RDNA2-Chips daher. Dies gilt natürlich nur, sofern sich dieses Gerücht, wonach es keine kleineren RDNA3-Chips unterhalb von Navi 33 gibt, letztlich halten läßt.

Radeon RX 6000		Radeon RX 7000
		Navi 31 geschätzt $1000-1500, möglicherweise Radeon RX 7900 Serie
		Navi 32 geschätzt $600-1000, möglicherweise Radeon RX 7800 Serie
Navi 21 $579-999, Radeon RX 6800/6900 Serien	➔	Navi 33 angeblich ~$450, möglicherweise Radeon RX 7700 Serie
Navi 22 $479, Radeon RX 6700 Serie	➔	Navi 22 (oder 6nm-Refresh von N22) geschätzt $350, möglicherweise Radeon RX 7600 Serie
Navi 23 $379, Radeon RX 6600 Serie	➔	Navi 23 (oder 6nm-Refresh von N23) geschätzt $250, möglicherweise Radeon RX 7500 Serie
Navi 24 geschätzt $200, möglicherweise Radeon RX 6500 Serie	➔	Navi 24 (oder 6nm-Refresh von N24) geschätzt $150, möglicherweise Radeon RX 7400 Serie
Anmerkung: rein spekulative Projektion, basierend auf Gerüchten & eigenen Annahmen

Nachtrag vom 19. August 2021

Eine recht weite Verbreitung findet derzeit eine Aussage seitems Greymon55 @ Twitter [72], welche nur in Verbindung mit der vorherigen Frage seitens 3DCenter @ Twitter [72] ;) zu verstehen ist. Dabei ging es um die letzte Woche skizzierte [73] Aufstellung der Radeon RX 7000 Serie mit wahrscheinlich nur drei RDNA3-Chips – und dem Rest des Portfolios dann entweder bestehend aus Rebrandings der Radeon RX 6000 Serie oder bestenfalls 6nm-Refreshs der bekannten Navi-2X-Chips. Laut dem Twitterer sollen es die Option der 6nm-Refreshes sein – was in jedem Fall der bessere Weg gegenüber der Weiterbenutzung der vorhandenen Grafikchips wäre. Unter der 6nm-Fertigung kann man zwar keine Wunderdinge aus den vorhandenen RDNA2-Designs holen, dürfte sich aber wenigstens ausreichend von der Radeon RX 6000 Serie absetzen können, um nicht für Verstimmung bei Fachpresse und Grafikkarten-Käufern zu sorgen.

For the rest of the Radeon RX 7000 portfolio, AMD thus seems to have two options:
1) 6nm refreshes of Navi 24, 23, 22
2) further use of Navi 24, 23, 22, possibly with new card names
Quelle: 3DCenter @ Twitter [74] am 16. August 2021

6nm refresh
Quelle: Greymon55 @ Twitter [72] am 16. August 2021

Klar muß aber auch sein, dass dies ein derzeit ungelegtes Ei darstellt: Über die kleineren Grafikchips für die Radeon RX 7000 Serie ist einfach noch nichts handfestes bekannt, mehr als eine grobe Richtung läßt sich dazu noch nicht angeben. Sinn macht diese gleichzeitige Benutzung der 5nm- und 6nm-Fertigung sowie der Mix aus RDNA2- und RDNA3-Technik für AMD vor allem dann, wenn man die Forschungs- und Entwicklungsausgaben sparsam halten will (weniger neue Chips) und gleichzeitig die Kapazitäten der 5nm-Fertigung primär den eigenen Zen-4-Prozessoren [75] zukommen lassen will. Im Sinne der aktuellen Ballung aller wichtigen AMD-Produkte auf allein der 7nm-Fertigung von TSMC ist dies kein verkehrter Gedanke – gerade da TSMC seine 7nm-Fertigung samt dem 6nm-Derivat nach der Einführung der 5nm-Fertigung natürlich nicht abrüsten wird, sondern jene noch viele Jahre mit großen Volumen aktiv bleiben wird. Darüber, dass die Mehrheit der NextGen-Grafikchips eben nicht aus der 5nm-Fertigung kommt, sondern vielmehr der 6nm-Fertigung, hofft AMD vermutlich eine Wiederholung der aktuellen Preis- und Liefersituation vermeiden zu können.

Nachtrag vom 16. September 2021

Von Twitterer Greymon55 [76] kommt eine neue Wasserstandsmeldung zur Performance der Lovelace [3]-basierten GeForce RTX 40 Serie – bezogen natürlich auf das jeweilige Spitzenmodell, nicht auf die komplette Serie. Hierfür dürften aktuelle Industrie-Gerüchte als Basis dienen – etwas anderes existiert derzeit mangels entsprechender Hardware sowie noch nicht. Danach wird eine Performance-Verdopplung gegenüber einer GeForce RTX 3090 durch eine kommende Lovelace-Spitzenlösung (auf AD102-Basis) als "konservativ" eingeschätzt – sprich, da soll dann noch Platz nach oben hin sein. Damit ist Faktor 2,0 eher als unterer Maßstab der Performance-Steigerung zu sehen, es könnte in der Realität dann auch leicht mehr werden – anzunehmenderweise vielleicht Faktor 2,2. Viel genauer läßt sich dies derzeit sowieso nicht sagen, da bei nVidia derzeit erst am reinen AD102-Chip gearbeitet wird, noch nicht an darauf basierenden Grafikkarten.

I think 2x 3090 is conservative.
Quelle: Greymon55 @ Twitter [76] am 11. September 2021

So könnte auch eine GeForce RTX 4090 auf AD102-Basis diverse Abspeckungen aus Salvage-Gründen tragen, welche dann wiederum negativ in diese Rechnung eingehen – derzeit aber natürlich noch nicht abzusehen sind, die Arbeit an konkreten Grafikkarten wird erst nach (erfolgreichem) Tape-Out und Validierungsphase beginnen (grob Frühling/Mitte 2022). Allerdings muß nVidia bei Lovelace auch nicht zwingend dem Schema der bisherigen nVidia-Grafikkarten folgen und könnte die GeForce RTX 4090 durchaus noch näher an den Vollausbau des AD102-Chips heranbringen – einfach weil AMD zuletzt für den nVidia-Geschmack zu nahe herangekommen ist und nVidia somit vom Start weg alles einsetzen muß, was man an Hardware-Power zur Verfügung hat. Dass genannte Performance-Plus von (konservativ) +100% bedeutet aber auch, dass nVidia entweder/oder aus Architektur und Chiptakt noch so einiges herausholen muß, denn bezüglich der reinen Hardware wird AD102 "nur" +71% mehr FP32-Einheiten gegenüber dem aktuellen GA102-Chip mitbringen.

Andererseits wechselt nVidia für die Lovelace-Generation wie bekannt von Chipfertiger Samsung wieder zu Chipfertiger TSMC – womit nach der Taktraten-mäßig eher wenig (gegenüber der Turing-Generation [77]) verbesserten Ampere-Generation [8] somit ein kräftiger Taktraten-Sprung winken sollte. Interessant ist allerdings an dieser Stelle durchaus, dass sich bei Performance & Terminen die beiden NextGen-Designs von AMD und nVidia immer mehr anzunähern scheinen: Mit den ersten aufkommenden Gerüchten erschien AMDs RDNA3-Ansatz sowohl mächtiger als auch früher am Start. Der prognostizierte Performance-Vorteil für AMD ist nunmehr geschrumpft (allerdings noch vorhanden), bei der Terminlage ist es gemäß der letzten Gerüchte [78] hingegen schon zu einem Gleichstand gekommen. Man will es nicht beschwören, aber dies folgt doch auffällig dem Schema von früheren AMD/nVidia-Generationen, wo AMD im frühen Gerüchte-Verlauf nahezu jedesmal deutlich höher eingeschätzt wurde, als was dann letztlich an realer Hardware-Power herausgekommen ist.

	AMD Navi 21 → Navi 31	nVidia GA102 → AD102
Architektur	augenscheinlich deutlich veränderte Architektur (nicht nur wegen MCM), Wegfall der CUs (WGPs als neue hauptsächliche Ordnungseinheit), anscheinend 4 → 6 Shader-Engines, anscheinend 128 → 256 FP32 pro WGP	vermutlich vergleichweise ähnliche Grundarchitektur, 7 → 12 Raster-Engines (GPC), erwartbarer Taktraten-Sprung wegen Wechsels von Samsung auf TSMC
FP32-Recheneinheiten	5'120 → 15'360 (+200%)	10'752 → 18'432 (+71%)
(hochgerechnete) Rohpower	21 TFlops → ~75-80 TFlops (+257-281%)	36 TFlops → ~80 TFlops (+122%)
Performance-Target	2,5 bis 2,7fache (+150-170%)	2,0 bis ~2,2fache (+100-120%)
Terminlage	angeblich Oktober 2022 [78]	angeblich Oktober 2022 [78]
Anmerkung: reine Wiedergabe von Gerüchten – keine offiziellen Daten

Nachtrag vom 17. September 2021

Ein weiterer Hinweis seitens Twitterer Greymon55 [79] zur Ausgestaltung der kommenden GeForce RTX 40 Serie dreht sich um das Speicherinterface des größten Lovelace-Chips AD102 bzw. die daraus folgenden Speicherinterfaces für die Desktop-Grafikkarten GeForce RTX 4080 & 4090: Jene werden mit 320 bzw. 384 Bit angegeben. Beides dürfte zum jetzigen Stand eher nur Vermutungen des Twitteres sein, da die konkrete Produktplanung bei nVidia derzeit noch in der Konzeptionsphase stecken wird – zuerst muß schließlich der AD102-Grafikchip zum Tape-Out und von dort erfolgreich zurückkommen. Allerdings dürfte die maximale Hardware des AD102-Chips natürlich schon in Stein gemeißelt sein, da so kurz vor Tape-Out in diesen Fragen dann keine Änderungen mehr vorgenommen werden (würde zusätzlich an Zeit kosten und somit alle Terminpläne über den Haufen werfen).

4080 should be 320bit, 384bit on 4090.
Quelle: Greymon55 @ Twitter [79] am 17. September 2021

Die eigentliche Information aus dieser Twitter-Aussage ist somit "nur" jene, dass auch der AD102-Chip wieder nur mit demselben Speicherinterface wie die letzten vorhergehenden Enthusiasten-Chips von nVidia antritt: 384 Bit. Dies ist keine ganz neue Information, sondern wurde schon vor einiger Zeit [20] von gleicher Quelle derart berichtet (und zudem von anderen Quellen bestätigt). Interessant ist das ganze in Verbindung mit zwei anderen Punkten: Erstens einmal wird auch von AMDs RDNA3-Chips [4] berichtet, dass jene nicht mit größeren Speicherinterfaces wie bisher antreten sollen (maximal 256 Bit). Und zweitens drängen neuere Spiele – wie derzeit "Deathloop" [80] – nunmehr eigentlich zu größeren Speichermengen, gerade für neue Grafikkarten-Generationen zum Ende des Jahres 2022. An der Leistungsspitze stehen AMD & nVidia zwar auch derzeit schon vernünftig bis gut da, aber im Mittelbau hakt es insbesondere bei nVidia – die 8 GB Speicher, welche beim GA104-Chip verbaut werden, sind (spätestens) Ende 2022 einfach zu wenig.

Die einfache Möglichkeit würde in einer Speicherverdopplung bestehen – was allerdings den Nachteil hat, dass man jene auf das ganze Programm anwenden muß, damit nicht Mittelklasse-Modelle mehr Speicher als Spitzenmodelle bekommen. nVidia würde somit bei Speichermengen von 16 GB (AD104) und 20/24 GB (AD102) herauskommen, was technisch alle Speichermengen-Probleme lösen würde und zudem gute Verkaufsargumente ergibt. Für AMD ergäbe dies allerdings die Problematik, dass man dann von der Speichermenge her zurückliegen würde – während hingegen eine Verdopplung auf AMD-Seite zu teilweise absurd hohen Speichermengen bis 32 GB führt. Insbesondere für AMD würde es daher größeren Sinn ergeben, wenn 1,5-GByte-Speicherchips verfügbar wären – dann könnte man einen Mehrspeicher anbieten, müsste dafür jedoch nicht in Extreme gehen. nVidia hingegen dürfte bei einer glatten Speicherverdopplung gegenüber der aktuellen Generation am besten aufgehoben sein, allenfalls das absolute Spitzenprodukt bräuchte diese nicht wirklich.

	Speicherinterface	Vorgänger	1,5-GB-Chips	Verdopplung	sinnvoll
AMD Navi 31	256 Bit GDDR6	16 GB	24 GB	32 GB	sinnvoll: 24 GB
AMD Navi 32	192 Bit GDDR6	12 GB	18 GB	24 GB	sinnvoll: 18 GB
AMD Navi 33	128 Bit GDDR6	8 GB	12 GB	16 GB	sinnvoll: 12-16 GB
nVidia AD102	384 Bit GDDR6X	12/24 GB	18/36 GB	24/48 GB	sinnvoll: 24 GB
nVidia AD104	256 Bit GDDR6X	8 GB	12 GB	16 GB	sinnvoll: 16 GB
nVidia AD106	192 Bit GDDR6	6/12 GB	9/18 GB	12/24 GB	sinnvoll: 12 GB

Nachtrag vom 24. Oktober 2021

Twitterer ExecutableFix [81] packt die Hardware-Daten der "Radeon Instinct MI250X" aus. Die größte Lösung basierend auf AMDs "Aldebaran" HPC-Chip soll mit 110 Clustern pro Chiplet (bestätigt auf Nachfrage) zu Taktraten von 1.7 GHz mit 128 GB HBM2e-Speicher auf einer TDP von 500 Watt antreten. Interessanterweise basiert der Aldebaran-Chip weiterhin auf der 7nm-Fertigung, stellt also noch keinen Vorgriff auf die 5nm-Fertigung dar. Die theoretischen Rechenleistungen betragen gemäß 47,9 TFlops FP32 und FP64 [82] sowie 383 TFlops FP16/BF16 [83]. Gegenüber dem vorhergehenden Arcturus-Chip gibt es also primär die Verdopplung der Cluster-Anzahl (in den realen Produkten nicht maximal ausgeführt) zuzüglich einer Fullrate-FP64-Power – und damit (dank höherer Taktrate) eine vierfache FP64-Performance. Wegen weiterhin der 7nm-Fertigung geht allerdings die TDP wie gesagt auf gleich 500 Watt hoch – wenngleich dies im HPC-Bereich weniger eine Rolle spielt, so lange nur die Performance stimmt.

	Vega	CDNA1	CDNA2
Chip	Vega 20, 7nm TSMC	Arcturus, 7nm TSMC	Aldebaran, 7nm TSMC
HPC-Lösung	Radeon Instinct MI60	Radeon Instinct MI100	Radeon Instinct MI250X
Bauform	monolithisch	monolithisch	MCM (2 Chiplets)
Cluster (CU)	64	120 (Chip: 128)	2x 110 (pro Chiplet: 128)
Taktrate	1800 MHz	~1500 MHz	~1700 MHz
FP16-Rechenleistung	29,5 TFlops	185 TFlops	383 TFlops
FP32-Rechenleistung	14,7 TFlops	23,1 TFlops	47,9 TFlops
FP64-Rechenleistung	7,4 TFlops	11,5 TFlops	47,9 TFlops

Wie beim Arcturus-Chip dürften auch Aldebaran einige elementare Teile eines Gaming-Grafikchips fehlen (denkbar: Rasterizer, TMUs, ROPs, Videoeinheit, Display-Kapazitäten), womit auch keine Zweitverwendung als Gaming-Grafikkarte möglich ist – im Gegensatz zu Vega 20, wo dies letztmalig bei AMDs HPC-Beschleunigern möglich war. In dieser Beziehung ist AMDs Auftrennung zwischen Gaming- und HPC-Bereich klarer als bei nVidia, wo innerhalb der Ampere-Generation [8] HPC-Chips (GA100) sowie Gaming-Chips (GA10x) sogar noch unterhalb demselben Architektur-Namen laufen. Allerdings fehlen dem GA100-Chip zumindest die RayTracing-Einheiten der Gaming-Chips, womit man selbigen nicht wirklich für Gaming-Zwecke zweitverwenden könnte. Ein denkbarer Zweitnutzen für alle diese HPC-Chips besteht allerdings im Cryptomining – realisiert erst kürzlich [84] mit der "CMP 170HX" auf GA100-Basis.

[23]

Nachtrag vom 5. August 2021
[85]