26

News des 26. April 2023

Laut AdoredTV @ YouTube arbeitet AMD mit Test-Prozessoren, welche nochmals größere Level2-Caches für Zen mit sich bringen sollen. Allerdings ist die konkrete Zen-Generation hierzu unbekannt – es könnte sich also um reine Forschungsarbeit auf Basis von Zen 4 handeln, als auch reale Versuche zugunsten von Zen 5. Augenscheinlich soll hiermit herausgefunden werden, was für Performance-Gewinne mittels vergrößerten Level2-Caches zu erreichen sind, denn zu den beiden Cache-Größen werden jeweils auch IPC-Gewinne unter Multithreading genannt. Im Singlethread-Bereich ergibt sich wohl kein Performance-Gewinn – was zusammen mit den erzielten Performance-Verbesserungen unter Multithreading (+4% bzw. +7%) andeutet, dass es hierbei schon in Grenzbereiche geht, wo kaum noch große Zugewinne möglich sind.

Test Chips with 2 MB L2 and 3 MB L2 Per Core
2 MB IPC ~4% (MT)
3 MB IPC ~7% (MT)
2MB+3MB IPC ~1 (ST)
Latency does *not* Increase

Quelle:  AdoredTV @ YouTube am 26. April 2023

Dennoch ergeben sich zwei Ansatzpunkte, um diese kleineren Performance-Gewinne mitzunehmen: Erstens einmal sind Taktraten ziemlich endlich, da ist nicht mehr viel herauszuholen bzw. dauert die Entwicklung (auf Basis heutiger Halbleitertechnik) einfach zu lange. Mehr Kerne sind im Consumer-Bereich auch weitgehend ausgereizt, womit der Weiterentwicklung der IPC wieder stärkere Bedeutung zukommt. Und zweitens werden mit jeder neuen Fertigungstechnologie die eigentlichen CPU-Kerne immer kleiner und damit schwerer zu kühlen (die Wattage pro mm² steigt damit schließlich) – womit mitwachsende Caches vonnöten sind, um wieder auf eine gewisse Chipfläche zu kommen. Üblicherweise lößt man dies mittels größeren Level3-Caches, aber wenn größere Level2-Caches auch noch Performance-Verbesserungen mit sich bringen, spricht auch nichts gegen diesen Weg.

Wie gesagt ist nicht sicher, ob AMD diese Verbesserung bei Zen 5 überhaupt ansetzt, das ganze sieht in der Tat eher nach einer praktischen Überprüfung der möglichen Vorteile aus. Für Zen 5 würde eine solche Vergrößerung des Level2-Caches (von bisher 1 MB per Kern bei Zen 4, mittels Zen 4 eben erst verdoppelt gegenüber Zen 3) terminlich vielleicht sogar schon zu knapp werden, denn bei einem sich herauskristallisierenden Launch-Termin Anfang 2024 müsste der Tape-Out von Zen 5 eigentlich jetzt schon über die Bühne gegangen sein (CPUs brauchen eine lange Validierungsphase, üblicherweise mehr als ein Jahr). Natürlich ist auch nicht klar, wie alt die Informationen dieses Leaks sind, alle Möglichkeit sind hier noch offen. Denkbarerweise sollte es in nächster Zukunft mehr Leaks und Infobröckchen hierzu geben, spätestens ab der Validierungsphase von Zen 5 (nach erfolgreichem Tape-Out) ist nicht mehr jeder Leak zu verhindern.

Ausgehend von einem Bericht des japanischen ASCII (maschinelle Übersetzung ins Deutsche) gibt es derzeit einige Meldungen, welche die Radeon RX 7800 XT mit der Hardware-Ausstattung von AMDs Profi-Lösung "Radeon Pro W7800" in Verbindung bringen. Allerdings wurde das im Original nicht wirklich gesagt – und dies funktioniert letztlich auch wegen des Chip-Unterschieds nicht: Die Radeon Pro W7800 basiert auf dem Navi-31-Chip und hat 70 Shader-Cluster, die Radeon RX 7800 XT wird hingegen auf Navi 32 basieren, welcher bei 60 Shader-Cluster endet. An dieser Stelle liegt im übrigen auch noch ein Mißverständnis seitens ASCII vor: Jene gehen von 4 Raster-Engines bei Navi 32 aus, was nicht zu 60 Shader-Clustern passt – denn 30 WGP sind keine durch 4 teilbare Zahl.

Navi 33 Navi 32 Navi 31
Gfx-ID gfx1102 gfx1101 gfx1100
Codename "Hotpink Bonefish" "Wheat Nas" "Plum Bonito"
Aufbau monolithisch Chiplet: 1x N32-GCD + 4x MCD Chiplet: 1x N31-GCD + 6x MCD
Chipfläche 204mm² (TSMC N6) ~200mm² GCD (TSMC N5) + 4x 37mm² MCD (TSMC N6) = ~348mm² ~300mm² GCD (TSMC N5) + 6x 37mm² MCD (TSMC N6) = ~522mm²
Hardware 2 Shader-Engines, 4 Shader-Arrays, 16 WGPs, 32 CUs, 4096 FP32-Einheiten 3 Shader-Engines, 6 Shader-Arrays, 30 WGPs, 60 CUs, 7680 FP32-Einheiten 6 Shader-Engines, 12 Shader-Arrays, 48 WGPs, 96 CUs, 12'288 FP32-Einheiten
Infinity Cache 32 MB 64 MB 96 MB
Speicherinterface 128 Bit GDDR6 256 Bit GDDR6 384 Bit GDDR6

Allerdings soll Navi 32 seit der Spezifikations-Aktualisierung vom letzten August nur noch mit 3 Raster-Engines erscheinen, was dann wiederum sehr gut zu genannten 60 Shader-Clustern passt. Hierzu ist eigentlich nicht mehr mit Überraschungen zu rechnen, die maximal 60 Shader-Cluster bei Navi 32 stehen prinzipiell fest. Die größere Frage ist sowie, wann AMD hiermit endlich zu Potte kommt – nachdem Navi 31 noch im letzten Dezember kam, Navi 33 zur CES im Januar zumindest vorgestellt wurde und von Navi 32 immer noch absolut nichts zu sehen ist. Selbstverständlich könnte AMD bei irgendwelchen Schwierigkeiten (temporär) den Navi-31-Chip für die Radeon RX 7800 XT verwenden. Dies dürfte dann aber dennoch in einer Hardware-Konfiguration geschehen, welche den späteren Einsatz von Navi 32 weiterhin ermöglicht – denn ganz ohne diesen mittleren Chip wird AMD die RDNA3-Ära sicherlich nicht bestreiten wollen.

Laut Twitterer T4CFantasy wird die GA104-basierte Ausführung der GeForce RTX 3060 mit leicht abweichenden Hardware-Spezifikationen betrieben: Zwar stimmen natürlich die 28 Shader-Cluster und das 192-Bit-Speicherinterfaces mit der normalen GA106-basierten Karten-Ausführung überein, aber bei der Anzahl der Raster-Engines sowie der (daran angebundenen) ROPs hat die GA104-Ausführung mehr zu bieten. Regulär sollten es 3 Raster-Engines samt 48 ROPs sein, bei der GA104-basierten Ausführung sind es hingegen 4 Raster-Engines und somit 64 ROPs. Weshalb nVidia diesen Unterschied macht, ist unklar – normalerweise sollte eine Hardware-Beschneidung so exakt möglich sein, dass absolute Hardware-Gleichheit trotz unterschiedlicher Chip-Basis herauskommt.

GeForce RTX 3060 12GB (GA106) GeForce RTX 3060 12GB (GA104)
gleiche Hardware 28 Shader-Cluster (3584 FP32), 192 Bit Speicherinterface, 12 GB GDDR6
abweichende Hardware 3 Raster-Engines, 48 ROPs 4 Raster-Engines, 64 ROPs

So steht die GA104-basierte Karten-Ausführung im "Verdacht", minimal schneller sein zu können – was natürlich aufgrund der inzwischen massenhaft verschiedener Versionen der GeForce RTX 3060 auch keinen großen Unterschied mehr macht, das ganze ist ein einziges großes Durcheinander an Spezifikationen und Chip-Versionen. Die konkrete Performance-Differenz könnte auch derart gering sein, dass jene unter den verschiedenen Werksübertaktungen der GeForce RTX 3060 glatt untergeht. Vor allem scheinen die Grafikkarten-Hersteller diese GA104-basierten Karten-Ausführungen nicht explizit zu kennzeichnen, womit man jene gar nicht gezielt erwerben kann. Augenscheinlich werden diese GA104-Chips einfach nach Gusto verwendet – womit GeForce RTX 3060 Karten mit selben Produktnamen und selber Produkt-Nummer sowohl GA106- als auch GA104-basiert in den Handel geliefert werden.