Laut dem üblicherweise mit akkuraten Vorab-Informationen glänzendem Twitterer Kopite7kimi erreicht nVidias kommender HPC-Chip "GH100" eine Chipfläche von etwas weniger als 1000mm² – sprich, irgendetwas zwischen 970 und 995mm² sind zu erwarten. Damit wird der GH100-Chips aus nVidias "Hopper"-Architektur nochmals etwas größer als die vorhergehenden HPC-Chips GA100 (826mm², Ampere), GV100 (815mm², Volta) und GP100 (610mm², Pascal). Allein mit dem Flächengewinn zwischen 7nm- und 5nm-Fertigung von TSMC von 82% mehr Packdichte ergibt sich die Chance auf etwas mehr als doppelt so viele Transistoren zwischen GH100 und GA100 – was einen ebenso großen Performance-Sprung (unter Idealbedingungen) auslösen könnte. Dies verwundert etwas angesichts der früheren, klaren Gerüchte über einen MCM-Ansatz bei "Hopper" (im Gegensatz zu nVidia Gaming-Lösungen bei "Lovelace") – denn mittels MCM könnte man richtig viel Mehrperformance auch mit zwei etwas kleineren Einzelchips erreichen.
GH100 has a huge single die of slightly less than 1000mm².
Quelle: Kopite7kimi @ Twitter am 29. Januar 2022
GH100 does not have MCM, it's still monolithic.
Quelle: Greymon55 @ Twitter am 29. Januar 2022
DO NOT overreact. We know the actual die size will be significantly smaller than the package size. But GH100>GA100 is confirmed.
Quelle: Kopite7kimi @ Twitter am 29. Januar 2022
Let's look forward to Hopper with 48V power and 1xxxW consumption.
Quelle: Kopite7kimi @ Twitter am 19. Oktober 2021
In diesem Zusammenhang kommt auch von Twitterer Greymon55 die neue Aussage, wonach der GH100-Chip weiterhin monolithisch antreten soll – wie gesagt im klaren Widerspruch zu früheren Gerüchten. Die weiteren Tweets von 'Kopite7kimi' hierzu lassen sich allerdings eher wieder in die andere Richtung hin deuten: Danach soll das Package sehr viel größer als der Einzelchip sein – was weiterhin den Verbau von zwei dieser Chips auf einem Package möglich macht. Genauso erscheint ein Stromverbrauch im Bereich oberhalb von 1000 Watt für den Einzelchip (immerhin unter der 5nm-Fertigung) nicht als besonders wahrscheinlich – im Verbund von zwei Chips hingegen sehr wohl denkbar. Zudem darf man annehmen, dass nVidia eigentlich kaum mit einer geringeren Chipfläche als AMD (mit 1580mm² bei zwei Aldebaran-Dies) antreten dürfte. Weiterhin gilt natürlich, dass keiner dieser HPC-Chips im Gaming-Segment zu erwarten ist, teilweise sogar dafür notwendige Features schon Chip-seitig fehlen.
Generation | Fertigung | Chip-Daten | Packdichte | |
---|---|---|---|---|
nVidia GP100 | Pascal | 16nm TSMC | 15,3 Mrd. Transistoren auf 610mm² | 25,1 Mio. Tr./mm² |
nVidia GV100 | Volta | 12nm TSMC | 21,1 Mrd. Transistoren auf 815mm² | 25,9 Mio. Tr./mm² |
AMD Vega 20 | Vega | 7nm TSMC | 13,2 Mrd. Transistoren auf 331mm² | 39,9 Mio. Tr./mm² |
nVidia GA100 | Ampere | 7nm TSMC | 54 Mrd. Transistoren auf 826mm² | 65,4 Mio. Tr./mm² |
AMD Arcturus | CDNA1 | 7nm TSMC | 25,6 Mrd. Transistoren auf 750mm² | 34,1 Mio. Tr./mm² |
AMD Aldebaran | CDNA2 | 6nm TSMC | 2x 29,1 Mrd. Transistoren auf 2x 717mm² | 40,6 Mio. Tr./mm² |
nVidia GH100 | Hopper | 5nm TSMC | angeblich 970-995mm² (pro Die) | ? |
Zum Launch der GeForce RTX 3050 wäre noch der Punkt nachzutragen, dass laut einer Notiz bei Reddit auch in Deutschland tatsächlich kurz nach Launch vergleichsweise gutpreisige Angebote existiert haben: Eines für 289 Euro, eines für 319 Euro und zwei für 399 Euro. Alle diese Angebote sollen jedoch innerhalb einer Minute weggegangen sein – um danach nie wieder (zu diesem Preis) aufzutauchen. Damit ist es dann natürlich auch schwer, jene als Marktbeobachter zu erfassen – diese Angebote rechtzeitig zu erspähen, ist für Käufer wie Marktbeobachter reine Glückssache. Zugleich ist Reddit auch eine breite Fundgrube für (reale) Launchpreise zur GeForce RTX 3050 aus aller Welt: Hongkong mit $390, Tschechien mit 295 Euro für 8 Karten für das gesamte Land, Norwegen mit $450, Polen mit 550 Euro, Holland mit 550 Euro, Canada mit 540 CAD$, Großbritanien mit £399, Indien mit $550 und letztlich Rumänien mit 606-707 Euro, wobei diese "günstigsten" Modelle in Rumänien trotzdem verkauft wurden.
Twitterer Locuza hat einen ersten Vergleich der CPU-Kern-Größen von Apple vs Intel erstellt – im genauen natürlich von Apples M1 gegen Intels Alder Lake. Die (ohne Level2-Cache gemeinten) Angaben ergeben massive Größenunterschiede zwischen Apple und Intel – welche natürlich primär auf der Differenz in der Fertigungstechnologie basieren. Aber auch wenn man diese Differenz versucht herauszurechnen (genau geht dies natürlich nicht, da unterschiedliche Chipfertiger), erscheinen Intels CPU-Kerne um 20-40% größer als jene von Apple. Selbst bei den Effizienz-Kernen findet sich noch eine alternative Erklärung, denn selbige sind bei Apple noch klarer auf Klein-Aufgaben optimiert als bei Intel. Nichtsdestotrotz hat Apple am Ende den Chipfläche-sparenderen Ansatz hinbekommen – was bei vielen CPU-Kernen im Server- und HEDT-Segment dann durchaus relevant werden kann.
Apple | Intel | Intel @ 5nm | |
---|---|---|---|
Fertigung | TSMC N5 | Intel 7 | –50% |
Performance-Kerne | FireStorm: ~2,33 mm²/Kern | Golden Cove: ~5,61 mm²/Kern | geschätzt 2,8 mm²/Kern |
Effizienz-Kerne | Icestorm: ~0,62 mm²/Kern | Gracemont: ~1,7 mm²/Kern | geschätzt 0,85 mm²/Kern |
gemäß den Ausführungen von Locuza @ Twitter (Kerne ohne L2-Cache) |
Das Speicher-Standardisierungsgremium JEDEC verkündet die finale Spezifikation für HBM3-Speicher in Form eines Updates der allgemeinen HBM-Spezifikation. HBM3 bietet generell zwei erwähnenswerte Ansatzpunkte: Zum einen Taktraten bis zu 3200 MHz DDR (6,4 Gbps Datenrate) – was allerdings eher durch Fortschritte in der Fertigungstechnologie erreicht wird und prinzipiell gesehen auch mit HBM2 möglich wäre. Und zum anderen die Aufteilung des Speicherinterfaces in doppelt so viele Kanäle – was zwar nicht die gesamte Interface-Breite erhöht, aber einen feineren Zugriff ermöglicht und somit die vorhandene Bandbreite effektiver ausnutzt (ähnlich wie bei DDR5-Speicher). Bis auf diese einzelne technische Verbesserung ist HBM3 ansonsten HBM2(e) sehr ähnlich – und bringt somit im eigentlichen außer dem deutlich höheren Speichertakt auch keine ganz großen Impulse daher.
Taktrate | Bandbreite | |
---|---|---|
HBM1 | 500 MHz DDR (1 Gbps) | 256 GB/sec an einem 2048-Bit-Interface |
GDDR5 | 4500 MHz DDR (9 Gbps) | 288 GB/sec an einem 256-Bit-Interface |
GDDR5X | 2850 MHz QDR (11,4 Gbps) | 365 GB/sec an einem 256-Bit-Interface |
HBM2 | 1250 MHz DDR (2,5 Gbps) | 640 GB/sec an einem 2048-Bit-Interface |
GDDR6 | 6000 MHz QDR (24 Gbps) | 768 GB/sec an einem 256-Bit-Interface |
GDDR6X | 3000 MHz QDR+PAM4 (24 Gbps) | 768 GB/sec an einem 256-Bit-Interface |
HBM2E | 1800 MHz DDR (3,6 Gbps) | 920 GB/sec an einem 2048-Bit-Interface |
HBM3 | 3200 MHz DDR (6,4 Gbps) | 1638 GB/sec an einem 2048-Bit-Interface |
Insofern ist fraglich, ob HBM-Speicher demnächst noch für Grafikchip-Projekte (außerhalb des HPC-Bereichs) in Frage kommt. Augenscheinlich muß jene Speicherart bedeutsame Nachteile aufweisen, denn AMD hat sich nach Fiji & Vega nicht mehr an HBM-basierten Gaming-Grafikkarten versucht, trotz dass der Vorteil bei der Speicherbandbreite jederzeit vorhanden war. Gern genannt werden an dieser Stelle Kosten-Faktoren, welche gegen HBM sprechen sollen – was mangels genauer Preislagen hierzu schwer belegbar ist. Denkbar ist aber auch ein Nachteil auf technischer Ebene, denn die AMD-Grafikkarten mit HBM-Speicher konnten eigentlich nie wirklich von ihrer überlegenen Speicherbandbreite profitieren, es reichte immer nur zu einem knappen Gleichstand. Womöglich ist das HBM-Interface für die vielen Klein-Daten bei der Grafik-Erstellung zu grob aufgebaut – und damit weniger effektiv als die deutlich kleineren GDDR-Interfaces. Im HPC-Bereich dürfte dies hingegen keine Rolle spielen, dort werden eher große Datenblöcke bewegt – und kann die nominell höhere HBM-Bandbreite dann auch effektiv ausgenutzt werden.