15

News des 14./15. Mai 2022

Laut Twitterer Kopite7kimi ist der Startschuß zu nVidias "GeForce RTX 40" Grafikkarten-Serie auf Basis der "Ada Lovelace" Grafikchips nunmehr sogar etwas früher als bislang gedacht zu erwarten – sogar schon zum Anfang des dritten Quartals. Dies könnte Juli bedeuten, dies kann auch noch der Anfang des Augusts sein, all zu sehr sollte man sich da besser noch nicht festlegen. Sicherlich handelt es sich bei diesem Termin auch erst einmal "nur" um die offizielle Vorstellung, der Release erster entsprechender Produkte kann dann sicherlich 1-2 Wochen danach erfolgen. Viel später als Mitte drittes Quartal ist dieser Marktstart dann aber auch nicht zu erwarten – sprich, nach diesen Angaben tritt die GeForce RTX 40 Serie wohl noch in diesem Sommer bis Spätsommer an.

Ada Lovelace will come out a little bit earlier. Keep patient.
Quelle:  Kopite7kimi @ Twitter am 26. August 2021
 
Q3 early
Quelle:  Kopite7kimi @ Twitter am 15. Mai 2022

Gänzlich überraschend ist dies nicht, denn die zuletzt häufiger genannten Daten zu einzelnen dieser Grafikkarten (zuletzt zu GeForce RTX 4070 & 4090) zeigen darauf hin, dass nVidia ziemlich weit ist mit der Chip-Validierung und sich schon in der Gestaltungs-Phase einzelner Grafikkarten befindet. Wenn man es mit der Ampere-Generation vergleichen will: Da gab es ähnlich konkrete Gerüchte erst zum Ende des Mai 2020, den ersten Marktstart dann mit der GeForce RTX 3080 zum 17. September 2020. Heuer nun ging es mit ähnlich detaillierten Grafikkarten-Angaben bereits Anfang April los – mehr oder weniger zwei Monate früher. Dies ist keine wirklich genaue Maßgabe, aber unterstützt zumindest den Punkt, dass "Ada" wohl früher im Jahr kommt, als dies seinerzeit bei "Ampere" der Fall war. Update: Der Twitterer nennt inzwischen "Mitte Juli" als Termin – auch wenn dies dann sicherlich nur der Vorstellungs- und nicht der Marktstart-Termin ist.

Interessant am Rande: Das im Jahr 2022 genannte erste konkrete Gerücht zu Ampere-Grafikkarten seitens der gleichen Quelle sagte GeForce RTX 3080 & 3090 bereits korrekt voraus – wenn man die FP32-Verdopplung einrechnet, die zu diesem Zeitpunkt noch nicht bekannt war. Denn die dort genannten FP32-Einheiten ergeben im alten Maßstab von 64 FP32-Einheiten pro Shader-Cluster genau die (korrekten) 68 Shader-Cluster für die GeForce RTX 3080 sowie (korrekten) 82 Shader-Cluster für die GeForce RTX 3090. Auch die für die GeForce RTX 3090 genannten 21 Gbps Speicher-Datenrate sind sinngemäß richtig: Die Karte taktet real zwar nur mit 19,5 Gbps, benutzt allerdings technisch durchgehend Speicher mit einer Spezifizierung für 21 Gbps. Anders formuliert: Twitterer "Kopite7kimi" hat zweifelsfrei tiefen Einblick in nVidia-Interna – auch wenn letztlich keiner der Leaker vor Fehlern, Fehldeutungen oder schlicht Planänderungen der Hersteller gefeit ist.

Nochmals von Kopite7kimi kommt eine genauere Erklärung für die kürzlich gemeldete "einfach zu erreichende" doppelte Performance von nVidias "Ada Lovelace". Es war schon klar, dass es sich hierbei nur um ein Vorserien-Produkt handeln konnte und dass mit dieser Aussage gemeint war, dass die finale Performance ein gehöriges Stück oberhalb dessen liegen sollte. Diese bestätigt der Twitterer nunmehr über eine Erklärung der genaueren Umstände dieser Performance-Messung: Danach soll diese basierend auf einer Abspeckung des AD102-Chips zu einer vergleichsweise niedrigen Taktrate abgehalten worden sein. Anders formuliert: Man dürfte den AD102-Chip auf einer für spätere Grafikkarten gedachten Hardware-Konfiguration zu einer vergleichsweise sicheren Taktrate betrieben haben. Und damit wird klarer, dass hier noch einiges an Potential offen ist und jene doppelte Performance dann vom finalen Produkt sicherlich deutlich übertroffen werden sollte.

It's quite simple to achieve 2x performance of RTX 3090.
Look forward to further optimization.

Quelle:  Kopite7kimi @ Twitter am 11. Mai 2022
 
I found that some friends didn't understand what I said.
I mean a low-frequency AD102 without a full-fat config.

Quelle:  Kopite7kimi @ Twitter am 13. Mai 2022

Wie deutlich dies wird, läßt sich aus diesen Aussagen allerdings nicht schlußfolgern. Man kann zwar annehmen, dass die genannte Salvage-Ausführung nicht zwingend eine starke Abspeckung bedeutet – schließlich ist auch die GeForce RTX 3090 technisch eine Salvage-Lösung (82 von 84 physikalisch vorhandenen Shader-Clustern), liegt aber letztlich nahe dran am Vollausbau. Aber bei der Taktrate kann "low" letztlich alles mögliche bedeuten, von einer tatsächlich niedrigen Taktrate nur für den Validierungs-Betrieb bis hin zu einer "vergleichsweise" niedrigen Taktrate, welche aber immer noch ein vernünftiges Ergebnis liefert. So oder so bleibt es damit dabei, dass der AD102-Chip letztlich klar oberhalb der doppelten Performance der GeForce RTX 3090 einordnen ist, die rein doppelte Performance sicherlich klar geschlagen werden sollte. Einzurechnen dabei wäre, dass dies nur auf den AD102-Chip zutrifft, da der Hardware-Sprung der kleineren Ada-Chips wie bekannt deutlich geringer ausfällt.

Twitterer Greymon55 deutet hingegen an, dass nach der Spezifikations-Änderung der RDNA3-Chips bei deren Recheneinheiten möglicherweise auch noch andere Speicherinterface bei Navi 3X anstehen. In dieser Frage sind sich einige Technik-affine Beobachter auffallend einig: Sobald Navi 31 tatsächlich 6 MCDs mit demzufolge 384 MB Infinity Cache hat, sollte auch das Speicherinterface diesem angepasst werden – auf augenscheinlich symetrische 384 Bit. Dies deutet darauf hin, dass es hierbei nicht zwingend nur um mehr Speicherbandbreite geht, sondern dass auch der Grafikchip-Aufbau diese Symetrie erzwingt. Navi 32 würde damit dann auf ein 256-Bit-Speicherinterface hochzustufen sein, zugleich steigen auch die (maximalen) Speichermengen an: Navi 31 könnte dann mit 24 GB antreten, Navi 32 hingegen mit 16 GB.

Maybe the memory interface configuration also needs to be updated.
Quelle:  Greymon55 @ Twitter am 10. Mai 2022
 
I'm sure there are 7 dies, but the details of these 7 dies need to be verified.
Quelle:  Greymon55 @ Twitter am 10. Mai 2022

Dies wäre für AMD in jedem Fall die bessere Wahl, weil dies besser zu nVidias Ada-Chips und deren maximalen Speichermengen passt. Zugleich eröffnet dies auch die Möglichkeit, Navi 33 auch mit 16 GB laufen zu lassen, ohne damit eine größere Speichermenge als beim größeren Navi-32-Chip zu haben. Leider gibt es dafür derzeit keinerlei Bestätigung – auch wenn sich dies durchaus plausibel anhört. Aber nachdem AMD augenscheinlich die Navi-3X-Spezifikationen gegenüber einem früheren Entwurf (der dann leakte und lange Zeit als "gesichert" galt) deutlich verändert hat, steht letztlich alles zu den Navi-3X-Spezifikationen weiterhin in Frage. Zugleich bestätigt der Twitterer die 7 Einzelchips bei Navi 31 – wofür sich nach wie vor mehrere Auslegungen finden lassen und in dieser Frage auch der Twitterer noch keine endgültigen Antworten hat. Es schwankt damit derzeit weiterhin zwischen einem GCD mit 6 MCDs und somit 384 MB Infinity Cache – oder zwei GCDs mit 4 MCDs und einem I/O-Chip, was dann allerdings auf nur 256 MB Infinity Cache hinauslaufen würde.

Denn normalerweise kann man sich recht sicher sein, dass jener Infinity Cache als "3D V-Cache" mit einer einheitlichen Größe von 64 MB hergestellt wird, weil dies vielfältige Verwendungsmöglichkeiten desselben Cache-Bausteins im CPU- und GPU-Bereich für AMD eröffnet. 100%ig sicher ist dies aber natürlich nicht, AMD könnte diesen Cache trotz vieler Ähnlichkeiten dennoch getrennt für CPU- und GPU-Bereich auflegen. Dies einmal nicht mit eingerechnet, ergeben sich schon allein aus der Auslegung der 7 Einzelchips für Navi 32 mehrere Abhängigkeiten im Grafikchip-Aufbau: Die Größe des Infinity Caches sowie des Speicherinterfaces und somit auch die maximale Speicherbestückung ändern sich hiermit. Die korrekte Auslegung dieser Frage ist also nicht rein akademisch, sondern ändert einiges in der Betrachtungsweise von Navi 31 (und nachfolgend auch Navi 32).

AMD Navi 31 Lösung #1  (1 GCD) Lösung #2  (2 GCD)
Einzelchips 7 = 1 GCD, 6 MCD 7 = 2 GCD, 4 MCD, 1 I/O
Hardware 1x 60 WGP (12'288 FP32) 2x 30 WGP (2x 6144 FP32)
Infinity Cache 384 MB 256 MB
Speicherinterface 384 Bit 256 Bit
max. Speicherbestückung 24 GB GDDR6 16 GB GDDR6
unter der Annahme, dass ein MCD immer 64 MB IF$ trägt