News des 7. Dezember 2023

Laut YouTuber Moore's Law is Dead soll AMDs frühe Ankündigung von "Hawk Point" aka der Ryzen 8000 U/HS Mobile-Serie Intel wohl einigen Wind aus den Segeln genommen haben für den nächste Woche anstehenden Launch von "Meteor Lake". Denn nachdem Intel-intern Meteor Lake wohl seine früheren Performance-Ziele verfehlt hat, soll das Intel-Marketing zwischenzeitlich auf die Strategie umgeschwenkt sein, speziell die KI-Performance von Meteor Lake zu promoten. Jene fällt allerdings mit ~10 TOPs nunmehr deutlich niedriger als bei AMDs Hawk Point (~16 TOPs) aus. Hieraus läßt sich durchaus ein Anreiz für AMD erkennen, die eigene Produkt-Vorstellung vorzuziehen vom ansonsten eigentlich zu erwartenden CES-Termin. Von diesem Marketing-Zweikampf abgesehen ist allerdings viel interessanter, wieso dies derart passierte (Zitat aus Hersteller-Kreisen):

In our final testing there's no appreciable CPU performance uplift with Meteor Lake over Raptor Lake, and thus you're going to see us lean into Al, Graphics, and Perf/Watt for marketing.
Look, I don't know what the exact percentage performance expectations were a year ago, but l can promise you that everyone I personally work with (including me) expected a general performance uplift to happen in addition to major efficiency improvements.
Actually, on that note, Al was only ever going to be a bonus selling point of MTL, and it's only in the past few months Intel suddenly told us to focus on that as the main selling point...
Quelle: Aussage aus Hersteller-Kreisen gegenüber Moore's Law is Dead, veröffentlicht am 7. Dezember 2023

Danach hat Meteor Lake zwar seine Effizienz-Vorteile gegenüber früheren Intel-Generationen erreicht (auf Basis erstmals Intel 4 gegen Intel 7), bietet jedoch keine absoluten Performance-Vorteile gegenüber Raptor Lake – obwohl dies früher sicherlich anders geplant gewesen war. Beispielsweise hatte MLID höchstselbst im Juni 2022 einen IPC-Gewinn von Meteor Lake von +12-21% vermeldet. Logisch, dass sich Intels Marketing angesichts des Fehlens dieser Performance-Gewinne dann andere Punkte zur Produkt-Bewerbung sucht, wobei die (angeblich) um +60-90% schnellere iGPU von Meteor Lake auch ein Kandidat hierfür sein könnte, aber wohl weit weniger Werbewert als ein mit "KI/AI" verbundenes Thema entwickelt. In dieser letztlich nur gleich hohen CPU-Performance von Meteor Lake dürfte auch der tiefere Grund verborgen liegen, wieso diese Intel-Generation einstmals mit vollem Produkt-Portfolio geplant war (incl. Desktop bis zum Core i9) und letztlich nunmehr rein ins Mobile-Segment geht, sogar außerhalb der HX-Modelle. Denkbarerweise wird die Performance-Skalierung von Meteor Lake immer schlechter, je mehr TDP man zugibt – so dass unter Desktop-Bedingungen vielleicht sogar nicht einmal die Raptor-Lake-Performance zu erreichen ist.

Damit kann Intel natürlich nicht antreten, ganz egal des technologisch hochwertigen Ansatzes und erstmaliger KI-Beschleunigung. Ergo musste Meteor Lake dorthin ausweichen, wo es noch verhältnismäßig stark ist – sprich ins Mobile-Segment. Dass Raptor Lake in Form seines Refrehs somit eine Ehrenrunde dreht, war somit augenscheinlich von Intel nicht geplant und musste erst recht spät entschieden werden – so spät, dass keine andere Möglichkeit als dieser Refresh noch rechtzeitig zu realisieren war. Selbst der originale Raptor Lake (letztlich auch nur ein Alder-Lake-Refresh) wurde spät dazwischengeschoben, da die Entwicklung von Meteor Lake wohl zu lange gedauert hatte. Letztlich hat man alle diese Entwicklungen anhand der Gerüchteküche live mitverfolgen können, wobei sicherlich nicht jede frühere Nachricht zur jetzt zu sehenden Auflösung passt. Den ersten Hinweis auf die Streichung von Desktop-Modellen bei Meteor Lake gab es im übrigen schon im Oktober 2022, was sich dann mit der Zeit und weiteren Gerüchtemeldung durchgesetzt hat.

Im selben Video stellen Moore's Law is Dead im übrigen noch eine Performance-Hochrechnung auf, welche "Phoenix" und "Hawk Point" vergleicht, sprich Ryzen 7000HS Mobile vs Ryzen 8000HS. Grundlage hierfür sind die AMD-eigenen Vergleiche gegenüber Raptor Lake Mobile, welche MLID dann mit den Ryzen 7000HS Benchmarks von Notebookcheck in Verbindung zu setzen versucht. Grundsätzlich kommt hierbei die Situation heraus, dass Hawk Point unter Gaming grob 10% schneller sein soll, unter Multithreading (Cinebench & Geekbench) hingegen +15%. Besonders realistisch ist dieses Ergebnis allerdings nicht, da das AMD-Silizium dasselbe ist, es keinen besseren Speichersupport bei Hawk Point gibt und auch die Taktraten 100%ig zur bisherigen Phoenix-APU passen. Mit Glück holt man über die bessere Silizium-Qualität der ein Jahr neueren Fertigung ein paar wenige Prozentpunkte heraus, aber auch eine absolute Performance-Gleichheit würde überhaupt nicht verwundern (außerhalb des Themas NPU, dort gibt es eine deutliche Taktraten-Steigerung). Demzufolge können die von MLID genannten Performance-Zuwächse von Hawk Point eigentlich nur Nonsens sein, auf Basis des gleichen Siliziums ist ohne Spezifikations-Änderung keine zweistellige Mehrperformance möglich.

Noch nachzutragen ist AMDs Vorstellung seiner ersten "Instinct MI300A & MI300X" HPC/AI-Beschleuniger auf Basis der CDNA3-Architektur. Die CDNA-Entwicklung stellte mal eine Ausgründung aus der früheren Vega-Architektur dar, hat sich inzwischen aber stark gewandelt und ist vor allem schon seit längerem nicht mehr zur Berechnung von Gaming-Grafik fähig, sondern agiert als reiner HPC/AI-Beschleuniger. Mittels der neuesten Generation versucht AMD insbesondere in letzterem Feld Boden gut zu machen und präsentiert hierfür ein wirklich dickes Stück Hardware in komplexem Aufbau: Die APU "Instinct MI300A" benutzt einen Interposer, vier I/O-Dies, sechs GPU-Dies und drei CPU-CCDs. Hierbei werden die CPU- und GPU-Dies durchgehend auf die I/O-Dies gestappelt, welche wiederum dem Interposer liegen und was somit (mit Interposer gerechnet) bis zu drei Lagen Chips übereinander ergibt. Beim reinen GPGPU-Beschleuniger "Instinct MI300X" entfallen die CPU-Dies und es kommen stattdessen zwei weitere GPU-Dies zum Einsatz.

	Instinct MI300A	Instinct MI300X
Chip-Daten	146 Mrd. Transistoren unter TSMC 5/6nm	153 Mrd. Transistoren unter TSMC 5/6nm
CPU-Part	3 CCDs mit insgesamt 24 CPU-Kernen nach Zen 4 @ 3.7 GHz	nicht vorhanden
GPU-Part	6 XCDs mit insgesamt 228 CUs (14'592 FP32) nach CNDA3 @ ≤2.1 GHz	8 XCDs mit insgesamt 304 CUs (19'456 FP32) nach CNDA3 @ ≤2.1 GHz
Infinity Cache	256 MB	256 MB
Speicherinterface	8 Stacks (8192 Bit) HBM3e @ 5,2 Gbps (5,3 TB/sec)	8 Stacks (8192 Bit) HBM3e @ 5,2 Gbps (5,3 TB/sec)
Speicherausbau	max. 128 GB HBM3e	max. 192 GB HBM3e
TDP	550W	750W
Peak-Rechenleistung	122 TFlops FP32, 61 TFlops FP64 (generell: 3/4 von MI300X)	163,4 TFlops FP32, 81,7 TFlops FP64, 2615 TOPs INT8, 2615 TFlops FP8, 1307 TFlops BF16, 1307 TFlops FP16, 654 TFlops TF32 (ohne Sparsity)

In beiden Varianten bedeutet dies den Verbau von jeweils um die 150 Mrd. Transistoren, was deutlich mehr ist als bei nVidias GH100-Chip (80 Mrd. Transistoren). Demzufolge versprechen auch viele der AMD-Performancefolien bedeutsame Performance-Vorteile gegenüber nVidia. Verglichen wird dabei allerdings regelmäßig mit nVidias H100-Lösung, nicht dem bereits angekündigen H200-Nachfolger (auf selber GH100-Basis allerdings). Im ganz groben Maßstab und unter Abrechnung von etwas Hersteller-Bias sollten die HPC/AI-Ansätze von AMD & nVidia in der selben Performance-Region herauskommen, AMD wahrscheinlich mit Vorteilen bei reiner HPC-Beschleunigung. Selbst dies dürfte für AMD jedoch komplett ausreichend sein, um sich einen guten Teil des derzeit reichlich vorhandenen HPC/AI-Kuchens sichern zu können. Denn nVidias HPC/AI-Beschleuniger sind wie bekannt schwer lieferbar, die Lieferzeiten gehen bis zu einem Jahr. Firmen, die auf diesem Gebiet investieren wollen, können gerade jetzt jedoch nicht so lange warten – und werden daher jede Alternative dankbar entgegennehmen. Laut Fudzilla wollen Meta, OpenAI und Microsoft die neuen Instinct-Beschleuniger nutzen, womit zukünftig wohl auch AMD auf steigende Umsätze in seiner DataCenter-Sparte hoffen kann. (Forendiskussion zum Thema)

Webweite Links

Files

"AMD CDNA3 Architecture" White Paper (PDF)
LibreOffice 7.6.4
ProgDVB 7.53.2
Signal Desktop 6.41

Grafikkarten

AMD: Neuer Adrenalin-Treiber senkt Idle-Stromverbrauch bei weiteren Radeon RX 7000 [PC Games Hardware]
Pioneers of Pagonia: Eindrücke und Benchmarks zur wuseligen Aufbaustrategie [ComputerBase]
GeForce RTX 4090 D: TDP 425W, no Overclock allowed [Harukaze5719 @ Twitter]
RTX 3050 6GB maybe between US$179-189 [Harukaze5719 @ Twitter]
nVidia lists RTX 5880 Ada GPU, presumably a downgraded replacement for the RTX 6000 Ada in China [Tom's Hardware]
Meta, OpenAI, and Microsoft snub nVidia [Fudzilla]