28

News des 28. Januar 2022

Laut dem üblicherweise mit akkuraten Vorab-Informationen glänzendem Twitterer Kopite7kimi erreicht nVidias kommender HPC-Chip "GH100" eine Chipfläche von etwas weniger als 1000mm² – sprich, irgendetwas zwischen 970 und 995mm² sind zu erwarten. Damit wird der GH100-Chips aus nVidias "Hopper"-Architektur nochmals etwas größer als die vorhergehenden HPC-Chips GA100 (826mm², Ampere), GV100 (815mm², Volta) und GP100 (610mm², Pascal). Allein mit dem Flächengewinn zwischen 7nm- und 5nm-Fertigung von TSMC von 82% mehr Packdichte ergibt sich die Chance auf etwas mehr als doppelt so viele Transistoren zwischen GH100 und GA100 – was einen ebenso großen Performance-Sprung (unter Idealbedingungen) auslösen könnte. Dies verwundert etwas angesichts der früheren, klaren Gerüchte über einen MCM-Ansatz bei "Hopper" (im Gegensatz zu nVidia Gaming-Lösungen bei "Lovelace") – denn mittels MCM könnte man richtig viel Mehrperformance auch mit zwei etwas kleineren Einzelchips erreichen.

GH100 has a huge single die of slightly less than 1000mm².
Quelle:  Kopite7kimi @ Twitter am 29. Januar 2022
 
GH100 does not have MCM, it's still monolithic.
Quelle:  Greymon55 @ Twitter am 29. Januar 2022
 
DO NOT overreact. We know the actual die size will be significantly smaller than the package size. But GH100>GA100 is confirmed.
Quelle:  Kopite7kimi @ Twitter am 29. Januar 2022
 
Let's look forward to Hopper with 48V power and 1xxxW consumption.
Quelle:  Kopite7kimi @ Twitter am 19. Oktober 2021

In diesem Zusammenhang kommt auch von Twitterer Greymon55 die neue Aussage, wonach der GH100-Chip weiterhin monolithisch antreten soll – wie gesagt im klaren Widerspruch zu früheren Gerüchten. Die weiteren Tweets von 'Kopite7kimi' hierzu lassen sich allerdings eher wieder in die andere Richtung hin deuten: Danach soll das Package sehr viel größer als der Einzelchip sein – was weiterhin den Verbau von zwei dieser Chips auf einem Package möglich macht. Genauso erscheint ein Stromverbrauch im Bereich oberhalb von 1000 Watt für den Einzelchip (immerhin unter der 5nm-Fertigung) nicht als besonders wahrscheinlich – im Verbund von zwei Chips hingegen sehr wohl denkbar. Zudem darf man annehmen, dass nVidia eigentlich kaum mit einer geringeren Chipfläche als AMD (mit 1580mm² bei zwei Aldebaran-Dies) antreten dürfte. Weiterhin gilt natürlich, dass keiner dieser HPC-Chips im Gaming-Segment zu erwarten ist, teilweise sogar dafür notwendige Features schon Chip-seitig fehlen.

Generation Fertigung Chip-Daten Packdichte
nVidia GP100 Pascal 16nm TSMC 15,3 Mrd. Transistoren auf 610mm² 25,1 Mio. Tr./mm²
nVidia GV100 Volta 12nm TSMC 21,1 Mrd. Transistoren auf 815mm² 25,9 Mio. Tr./mm²
AMD Vega 20 Vega 7nm TSMC 13,2 Mrd. Transistoren auf 331mm² 39,9 Mio. Tr./mm²
nVidia GA100 Ampere 7nm TSMC 54 Mrd. Transistoren auf 826mm² 65,4 Mio. Tr./mm²
AMD Arcturus CDNA1 7nm TSMC 25,6 Mrd. Transistoren auf 750mm² 34,1 Mio. Tr./mm²
AMD Aldebaran CDNA2 6nm TSMC 2x 29,1 Mrd. Transistoren auf 2x 717mm² 40,6 Mio. Tr./mm²
nVidia GH100 Hopper 5nm TSMC angeblich 970-995mm² (pro Die) ?

Zum Launch der GeForce RTX 3050 wäre noch der Punkt nachzutragen, dass laut einer Notiz bei Reddit auch in Deutschland tatsächlich kurz nach Launch vergleichsweise gutpreisige Angebote existiert haben: Eines für 289 Euro, eines für 319 Euro und zwei für 399 Euro. Alle diese Angebote sollen jedoch innerhalb einer Minute weggegangen sein – um danach nie wieder (zu diesem Preis) aufzutauchen. Damit ist es dann natürlich auch schwer, jene als Marktbeobachter zu erfassen – diese Angebote rechtzeitig zu erspähen, ist für Käufer wie Marktbeobachter reine Glückssache. Zugleich ist Reddit auch eine breite Fundgrube für (reale) Launchpreise zur GeForce RTX 3050 aus aller Welt: Hongkong mit $390, Tschechien mit 295 Euro für 8 Karten für das gesamte Land, Norwegen mit $450, Polen mit 550 Euro, Holland mit 550 Euro, Canada mit 540 CAD$, Großbritanien mit £399, Indien mit $550 und letztlich Rumänien mit 606-707 Euro, wobei diese "günstigsten" Modelle in Rumänien trotzdem verkauft wurden.

Twitterer Locuza hat einen ersten Vergleich der CPU-Kern-Größen von Apple vs Intel erstellt – im genauen natürlich von Apples M1 gegen Intels Alder Lake. Die (ohne Level2-Cache gemeinten) Angaben ergeben massive Größenunterschiede zwischen Apple und Intel – welche natürlich primär auf der Differenz in der Fertigungstechnologie basieren. Aber auch wenn man diese Differenz versucht herauszurechnen (genau geht dies natürlich nicht, da unterschiedliche Chipfertiger), erscheinen Intels CPU-Kerne um 20-40% größer als jene von Apple. Selbst bei den Effizienz-Kernen findet sich noch eine alternative Erklärung, denn selbige sind bei Apple noch klarer auf Klein-Aufgaben optimiert als bei Intel. Nichtsdestotrotz hat Apple am Ende den Chipfläche-sparenderen Ansatz hinbekommen – was bei vielen CPU-Kernen im Server- und HEDT-Segment dann durchaus relevant werden kann.

Apple Intel Intel @ 5nm
Fertigung TSMC N5 Intel 7 –50%
Performance-Kerne FireStorm: ~2,33 mm²/Kern Golden Cove: ~5,61 mm²/Kern geschätzt 2,8 mm²/Kern
Effizienz-Kerne Icestorm: ~0,62 mm²/Kern Gracemont: ~1,7 mm²/Kern geschätzt 0,85 mm²/Kern
gemäß den Ausführungen von Locuza @ Twitter (Kerne ohne L2-Cache)

Das Speicher-Standardisierungsgremium JEDEC verkündet die finale Spezifikation für HBM3-Speicher in Form eines Updates der allgemeinen HBM-Spezifikation. HBM3 bietet generell zwei erwähnenswerte Ansatzpunkte: Zum einen Taktraten bis zu 3200 MHz DDR (6,4 Gbps Datenrate) – was allerdings eher durch Fortschritte in der Fertigungstechnologie erreicht wird und prinzipiell gesehen auch mit HBM2 möglich wäre. Und zum anderen die Aufteilung des Speicherinterfaces in doppelt so viele Kanäle – was zwar nicht die gesamte Interface-Breite erhöht, aber einen feineren Zugriff ermöglicht und somit die vorhandene Bandbreite effektiver ausnutzt (ähnlich wie bei DDR5-Speicher). Bis auf diese einzelne technische Verbesserung ist HBM3 ansonsten HBM2(e) sehr ähnlich – und bringt somit im eigentlichen außer dem deutlich höheren Speichertakt auch keine ganz großen Impulse daher.

Taktrate Bandbreite
HBM1 500 MHz DDR (1 Gbps) 256 GB/sec an einem 2048-Bit-Interface
GDDR5 4500 MHz DDR (9 Gbps) 288 GB/sec an einem 256-Bit-Interface
GDDR5X 2850 MHz QDR (11,4 Gbps) 365 GB/sec an einem 256-Bit-Interface
HBM2 1250 MHz DDR (2,5 Gbps) 640 GB/sec an einem 2048-Bit-Interface
GDDR6 6000 MHz QDR (24 Gbps) 768 GB/sec an einem 256-Bit-Interface
GDDR6X 3000 MHz QDR+PAM4 (24 Gbps) 768 GB/sec an einem 256-Bit-Interface
HBM2E 1800 MHz DDR (3,6 Gbps) 920 GB/sec an einem 2048-Bit-Interface
HBM3 3200 MHz DDR (6,4 Gbps) 1638 GB/sec an einem 2048-Bit-Interface

Insofern ist fraglich, ob HBM-Speicher demnächst noch für Grafikchip-Projekte (außerhalb des HPC-Bereichs) in Frage kommt. Augenscheinlich muß jene Speicherart bedeutsame Nachteile aufweisen, denn AMD hat sich nach Fiji & Vega nicht mehr an HBM-basierten Gaming-Grafikkarten versucht, trotz dass der Vorteil bei der Speicherbandbreite jederzeit vorhanden war. Gern genannt werden an dieser Stelle Kosten-Faktoren, welche gegen HBM sprechen sollen – was mangels genauer Preislagen hierzu schwer belegbar ist. Denkbar ist aber auch ein Nachteil auf technischer Ebene, denn die AMD-Grafikkarten mit HBM-Speicher konnten eigentlich nie wirklich von ihrer überlegenen Speicherbandbreite profitieren, es reichte immer nur zu einem knappen Gleichstand. Womöglich ist das HBM-Interface für die vielen Klein-Daten bei der Grafik-Erstellung zu grob aufgebaut – und damit weniger effektiv als die deutlich kleineren GDDR-Interfaces. Im HPC-Bereich dürfte dies hingegen keine Rolle spielen, dort werden eher große Datenblöcke bewegt – und kann die nominell höhere HBM-Bandbreite dann auch effektiv ausgenutzt werden.