Laut Twitterer AGF soll nVidia noch einen weiteren Gaming-Grafikchip der Blackwell-Generation in Vorbereitung gehabt haben, welcher im Multichip-Ansatz und mit HBM-Speicher die absolute Leistungsspitze hätte erklimmen sollen. Dieses Projekt soll nunmehr jedoch abgesägt sein, da AMD seine eigenen HighEnd-Pläne innerhalb der RDNA4-Generation auf Eis gelegt hat. Logischerweise wird sich dieses Gerücht somit schlecht jemals nachprüfen lassen, denn Chipentwickler bestätigen eher selten nicht zu Ende realisierte Projekte. Denkbar ist das ganze aber allein durch den Punkt, dass der GB202-Chip nur +33% mehr Shader-Cluster mitbringen soll und nVidia damit automatisch im Risiko stand, dass AMD angenommen eines viel stärkeren Zugewinns an Recheneinheiten (ebenfalls im Multichip-Verfahren) diesem hätte nahekommen können.
Bad news. Top gaming Blackwell GPU should be monolithic again. As AMD RDNA4 won't compete, Nvidia ditched a crazy MCM monster with HBM that was considered for top SKU. In consequence, all CoWoS capacity will go to DC accelerators. Boring.
Quelle: AGF @ Twitter am 3. Oktober 2023
Die PC Games Hardware ist der Frage nachgegangen, ob Cyberpunk 2077 v2.0 auf Linux tatsächlich deutlich schneller läuft als auf Windows. Die entsprechend angestellten Benchmarks ergeben ein eindeutiges Bild zugunsten dieser Aussage, mit einem sogar überraschend hohen Performance-Plus auf Seiten von Linux, +16% bis +28% je nach Auflösung entsprechen letztlich einer ganzen Grafikkarten-Klasse. Über die Begründung für diesen hohen Unterschied kann man nur diskutieren, ein richtigen "rauchenden Colt" gibt es hierzu nicht. Zwar kann man Linux als weniger Speicher-fressend und generell effizienter arbeitend einordnen, aber normalerweise sollten dies keine derart großen Performance-Unterschiede provozieren, gerade nicht bei einem so Hardware-fordernden Spiele-Titel (welche üblicherweise streng an irgendeinem Hardware-Limit hängen).
Cyberpunk 2077 v2.0 | avg fps | min fps (P1) |
---|---|---|
Windows → Linux: FullHD/1080p | +28,2% | +22% |
Windows → Linux: WQHD/1440p | +15,8% | +19% |
Windows → Linux: 4K/2160p | +15,9% | +26% |
gemäß der Benchmarks der PC Games Hardware |
Twitterer All The Watts!! bringt aktualisierte Spezifikationen zu AMDs "Strix Point" Zen-5-APU daher. Neu gegenüber der bisherigen Gerüchtelage sind eine andere Wattbereichs-Eingrenzung, Angaben zum Level2-Cache und den offiziellen Speichertaktraten, ein nochmals größerer Level3-Cache sowie vor allem eine Größenangabe zum verwendeten Die: Immerhin 225mm² will AMD hierbei unter der N4P-Fertigung belegen, für eine APU ist dies verhältnismäßig viel. Die früheren Zen-basierten APUs lagen bei Chipflächen von 156-210mm², die 225mm² von "Strix Point" sind somit zwar nicht ganz außerhalb des Normalen liegend, aber dennoch ein Rekordwert. Für AMD ist die große Chip-Fläche besonders kritisch, denn zwei Drittel aller verkauften AMD-Prozessoren gehen ins Mobile-Segment, und an den dortigen OEM-Verträgen dürfte AMD nicht besonders viel verdienen.
STX
TSMC N4P 225mm²
4c Zen 5 L3: 16 MB L2: 4 MB
8c Zen 5C L3: 16 MB L2: 8 MB
8 WGP RDNA3+
64 AIE tile
DDR5-5600 / LPDDR5X-8533
28-35+ W
Quelle: All The Watts!! @ Twitter am 2. Oktober 2023
Ein sehr interessanter Artikel seitens Yosoygames widmet sich der Frage der korrekten Erstellung von Perzentil-Frameraten. Jene basieren bekannterweise auf der Idee, nicht den absoluten Minimum-Wert anzugeben, welcher erfahrungsgemäß über irgendwelche Engine-Schluckaufs zustandekommt und daher kein vernünftiger allgemeingültiger Maßstab ist, was im Bereich der niedrigsten Frameraten passiert. Daher wird üblicherweise jener Wert genommen, welcher in einer größenmäßigen Auflistung der Frametimes an 1% von unten her oder 99% von oben her steht, andere verwendete Varianten sind 0,1% / 99,9% oder auch 5% / 95%. Die Aussage von Yosoygames ist nunmehr, dass jene 0,1%, 1% oder 5% von den Benchmark-Tools oftmals an der falschen Stelle genommen werden: Man entnimmt jene aus einer Anzahl-basierten Auflistung der Frames – in deren Beispiel jenes Frame, welche bei 5% von unten auf einer mengenmäßigen Skala liegt.
Zielsetzung | mathematisches Modell | |
---|---|---|
durchschnittliche Framerate | insgesamter Performance-Eindruck | Anzahl aller aufgelaufenen Frame / benötigte Zeit |
(gewöhnliche) Minimum-Framerate | Aussage über die minimalste Spielbarkeit | Frametime des absolut niedrigsten Frames |
Perzentil-Framerate | Aussage über die tatsächliche minimale Spielbarkeit | Frametime des an x% (von unten her) liegenden Frames |
nVidia postuliert nun selber "Huang’s Law" als Nachfolger von "Moore’s Law", wobei der Begriff selber wohl schon vor Jahren seitens IEEE Spectrum kreiiert wurde. Gezeigt wird hierzu ein aktualisierter Chart der Performance-Entwicklung im Inference-Bereich, sprich dem Maschinenlernen. Jener Chart ergibt derzeit eine 1000fache Performance des aktuellen H100-Beschleunigers gegenüber dem Kepler-basierten "K20X" HPC-Beschleuniger, welcher im Jahr 2012 seine 3,94 INT8 TOPS (gegenüber den nunmehr 4000 INT8 TOPS von H100) aufbot. Entscheidender Punkt ist aber natürlich, dass die hierbei erreichten explosionsartigen Zuwächse primär über Unterstützung kleinerer Rechenformate sowie Aufgaben-angepasster Hardware erzielt wurden.
Die Aussagen von Twitterer & Leaker Kopite7kimi zum GB202-Chip beinhalteten zugleich auch Aussagen zur grundsätzlichen Hardware von "GB100", dem HPC/KI-Chip der kommenden Blackwell-Generation. Jene sind recht kurz gehalten: 8 GPC samt jeweils 10 TPC und ein 8192 Bit breites Speicherinterface (natürlich dann wieder für HBM-Speicher, bei dieser Interface-Breite). Sofern wiederum 2 Shader-Cluster pro TPC gelten, ergibt dies 160 Shader-Cluster – und damit einen verhältnismäßig kleinen Sprung gegenüber dem GH100-Chip (144 SM @ 6144 Bit). Natürlich muß dieses Prinzip von 2 Shader-Cluster pro TPC bei HPC-Blackwell nicht zwingend gelten, gleichfalls könnte nVidia die Shader-Cluster erneut aufblähen und mehr Fließkomma-, Integer- und Tensor-Einheiten integrieren.
GB100 will have a basic structure like 8*10.
Quelle: Kopite7kimi @ Twitter am 28. September 2023
GB100 8192-bit
Quelle: Kopite7kimi @ Twitter am 28. September 2023
Von YouTuber Moore's Law is Dead kommt der Leak zweier AMD-interner Präsentationsfolien, welche sich mit der Fortentwicklung der "Zen" Prozessoren-Architekturen beschäftigen. So zeigt eine "AMD x86 Core-Roadmap 2020-2024" die geplanten IPC- und Architektur-Verbesserungen für Zen 5 (Kern-Codename "Nirvana", CCD-Codename "Eldora") und Zen 6 (Kern-Codename "Morpheus", CCD-Codename "Monarch"), wärend eine weitere Folie den grundsätzlichen Aufbau eines Zen-5-Kerns wiedergibt. Die Terminangaben der Roadmap sind im übrigen eher schematisch zu sehen, jene sagen nichts zu den Releaseterminen verkaufsfertiger Produkte aus. Sofern nicht gerade aufwendig gefälscht, stammen beide Folien wohl von AMD und sind dort nur für den internen Gebrauch gedacht gewesen. Leider fehlt (bis auf das Jahr "2023") ein Hinweis auf deren (genaues) Alter, sprich ob die hiermit präsentierten Informationen überhaupt noch aktuell sind. Nichtsdestotrotz handelt es sich hierbei um Bestätigungen für einige herumschwirrende Gerüchtefetzen zu Zen 5/6, hinzukommend einige neue Informationen zu diesen zukünftigen Prozessoren-Architekturen von AMD.
Twitterer & Leaker Kopite7kimi hat die kürzlichen fernöstlichen Andeutungen zur Hardware von "Gaming-Blackwell" bestätigt sowie präzisiert: So soll der Consumer-Spitzenchip "GB202" derzeit mit einer Hardware-Konfiguration von 12x8 geplant sein, damit meinend die Anzahl der "Graphics Processing Cluster" (GPC) und 8 "Texture Processing Cluster" (TPC). Dies ergäbe für den gesamten GB202-Chip somit 96 TPCs – und insofern nVidia nichts am langjährigen Schema von "1 TPC = 2 SM" ändert, somit 192 Shader-Cluster insgesamt. Letzteres ist allerdings natürlich noch nicht ganz sicher, wegen des größeren internen Umbaus kann eine Änderung auch an dieser Stelle derzeit noch nicht gänzlich ausgeschlossen werden (ist also unwahrscheinlich, benötigt aber eine klare Bestätigung).
As I mentioned before, GA100 is 8*8, and GH100 is 8*9. GB100 will have a basic structure like 8*10. GB202 looks like 12*8.
Quelle: Kopite7kimi @ Twitter am 28. September 2023
GB100 8192-bit, GB202 512-bit.
Quelle: Kopite7kimi @ Twitter am 28. September 2023
YouTuber RedGamingTech liefert einen Spezifikations-Zwischenstand zur kommenden RDNA4-Generation – bei welcher wie bekannt die beiden Spitzen-Chips gemäß mehreren Quellen gestrichen worden sein sollen. In Folge dessen scheint AMD das Projekt neu ausgerichtet zu haben, so dass nicht die bislang verbliebenen Chips Navi 43 & 44 erhalten werden, sondern es nunmehr Navi 44 & 48 sein sollen. Hierfür rückt der YouTuber mit zwei verschiedenen Konfigurations-Varianten an, welche sich bei Breite des Speicherinterface und Menge des Infinity Caches unterscheiden (nicht aber bei der Anzahl der Shader-Cluster). Die zwei vorhandenen Varianten zeigen nebenbei auch darauf hin, dass diese Information noch nicht wirklich sicher ist, eventuell selbst AMD-intern noch gar nichts final entschieden wurde.
RDNA 4 Possible Config 1:
N48: 32 WGP, 48MB Infinity Cache, 192-bit GDDR7, PCIe Gen 5 x16
N44: 20 WGP, 32MB Infinity Cache, 128-bit GDDR7, PCIe Gen 5 x8
RDNA 4 Possible Config 2:
N48: 32 WGP, 32MB Infinity Cache, 128-bit GDDR7, PCIe Gen 5 x8
N44: 20 WGP, 24MB Infinity Cache, 96-bit GDDR7, PCIe Gen 5 x8
Quelle: RedGamingTech @ YouTube am 27. September 2023
Wie bekannt ist Intels "Meteor Lake" grundsätzlich nur für Notebook-Prozessoren gedacht – inklusive auch jener Desktop-Geräte, wo man üblicherweise Mobile-Prozessoren einsetzt (AiOs und Mini-PCs). Eine regelrechte Desktop-Ausführung (sprich gesockelte Modelle) ist hingegen wohl nicht geplant, resultierend aus dem Umstand, dass Meteor Lake hierfür die großen Dies fehlen, welche die ausreichende Anzahl an CPU-Kernen bieten. Bei "Alder Lake" und "Raptor Lake" hat Intel für denselben Bedarf an CPU-Kernen folgende Dies angesetzt: Ein großes Raptor-Lake-Die mit 8C+16E samt kleiner iGPU sowie ein mittelgroßes Alder-Lake-Die mit 6C+8E samt großer iGPU (nebst eventuell weiteren, noch kleineren Dies). Bei Meteor Lake wurde hingegen jenes große Die gestrichen und gibt es maximal das mittelgroße Die – welches wie gesagt auf 6 Performance- und 8 Effizienz-Kerne limitiert ist.
|