19

News des 19. Juli 2022

Twitterer 'Kopite7kimi' bringt weitere Ausführungen und Erklärungen zum kürzlich genannten TimeSpy-Wert der GeForce RTX 4090 daher: Gemäß des ersten Tweets geht der Twitterer davon aus, dass eine werksübertaktete Ausführung der GeForce RTX 4090 wohl 20'000 Grafik-Punkte im TimeSpy Extreme erreichen kann. Dies ist natürlich je nach der Klasse der Werksübertaktung keine große Kunst, zwischen 19'000 und 20'000 Grafik-Punkten liegen gerade einmal +5,3% Differenz. Nichtsdestotrotz dürfte hiermit eine der typischen Werksübertaktungen gemeint sein, welche mittlerweile nur noch grob +3% Mehrperformance erbringen. Dies deutet letztlich darauf hin, dass die nach unten gerundete Performance-Angabe von 19'000 Grafik-Punkten in Realität eigentlich einen Wert von ca. 19'300 Punkten anzeigen sollte (was die Performance-Differenz gegenüber der Vorgänger-Generation um 1-2% erhöhen würde).

I think an OC version of RTX 4090 from AIC can reach 20000pts in TSE Graphics. I will take it for granted.
Quelle:  Kopite7kimi @ Twitter am 19. Juli 2022
 
I know some people are disappointed with this score. Don't worry, it's just a very conservative score with low TGP, low frequency and L2 cut. 19000+ is just a beginning.
Quelle:  Kopite7kimi @ Twitter am 19. Juli 2022

Stichwort Performance-Differenz: Einige Leser & Beobachter sind durchaus enttäuscht ob der "nur" +79% gegenüber der GeForce RTX 3090 Ti – und bestehen auf der Performance der früheren Prognose von dem 1,9-2,5fachen. Allerdings galt jene (wie dort notiert) immer nur gegenüber der GeForce RTX 3090, zu welcher die GeForce RTX 4090 wenigstens +86% TimeSpy-Mehrperformance erreicht. Und zugleich wurde diese Prognose leicht auf das 1,8-2,3fache abgesenkt, als kürzlich die Information über die (relativ) niedrige Taktraten samt TDP der GeForce RTX 4090 daherkam. Kritisierbar ist hingegen, dass dieser erste Performance-Wert nur am klar unteren Rand der aktuellen Prognose herauskommt – und womöglich auch nur einen Bestcase abbildet. Unsere eigene Performance-Prognose war in der Tat zu vollmundig, zu sehr auf die reinen Hardware-Daten schauend, die in der Praxis anfallenden Abschläge gegenüber der Rohleistung nicht im notwendigen Maßstab beachtend.

Es bleibt zu hoffen, dass die reale Spiele-Performance nicht deutlich unterhalb dieses ersten Benchmark-Werts ausfällt, was natürlich bei synthetischen Benchmarks wie dem 3DMark13 TimeSpy immer passieren können. Noch etwas nach oben gehen könnte es hingegen durch Treiber-Verbesserungen (schließlich ist noch einiges Zeit bis zum Launch-Treiber) und durch den zweiten Tweet von Kopite7kimi, in welchem jener den TSE-Benchmark mit 19'000 Grafik-Punkten als "sehr konservativen Wert mit niedriger TDP, niedrigerer Taktfrequenz und beschnittenem Level2-Cache" bezeichnet. Die ersten beiden Punkte sind aufgrund der Hardware-Ansetzung der GeForce RTX 4090 zu erwarten – abzuwarten bleibt, was mit dem letzten Punkt des beschnittenen Level2-Caches gemeint ist. Üblicherweise passiert so etwas nur bei einem beschnittenen Speicherinterface – wovon derzeit bei der GeForce RTX 4090 noch nichts bekannt ist.

Ein weiterer Benchmark-Wert zum AD102-Chip kommt von AGF @ Twitter: Ausgemessen wurde hierbei der AD102-Chip im Vollausbau mit einem hohen Power-Limit, welcher unter Control auf 4K "Ultra" mit RayTracing und DLSS auf satte "160+ fps" kommen soll. Hierzu Vergleichswerte zu finden ist nicht einfach, weil sich natürlicherweise die Benchmark-Sequenzen unterscheiden werden (im Gegensatz zu synthetischen Tests, die an dieser Stelle einen Vorteil haben). So hat WCCF-Tech-Mitarbeiter Hassan Mujtaba @ Twitter schnell einmal 80 fps ausgemessen, bei TechPowerUp waren es jedoch nur 69 fps. Dies zeigt in jedem Fall einen Performance-Sprung auf das Doppelte oder mehr unter RayTracing samt DLSS an. Da beide Features zusammen vermessen wurden, läßt sich leider nicht erkennen, welches von beiden besonders gesteigert wurde.

Got first in game score. Full AD102 at "high power draw" (whatever does it mean, maybe OC?) in Control Ultra 4k RT + DLSS reaches 160+fps. Don't know which CPU, RAM, GPU clock, but it looks very high to me. What a 3090Ti does in this bench?
Quelle:  AGF @ Twitter am 19. Juli 2022
 
When I asked which setting, he said "everything cranked up to the max" so I guess DLSS quality?
Quelle:  AGF @ Twitter am 19. Juli 2022
 
I asked and got nothing but a winky smiley...
So I suppose a >600W monstrosity

Quelle:  AGF @ Twitter am 19. Juli 2022

Control @ 4K "Ultra" +RT +DLSS Hardware Perf. Quelle
Full AD102 @ high power draw AD102, 144 SM @ 384 Bit 160+ fps AGF @ Twitter
GeForce RTX 3090 Ti GA102, 84 SM @ 384 Bit 69-80 fps TechPowerUp & Hassan Mujtaba @ Twitter

Auch ist derzeit vakant, ob eine solche Grafiklösung (mit AD102 im Vollausbau auf hoher TDP) jemals den Consumer-Markt erreicht – augenscheinlich wurde hier "nur" das ausgemessen, was der AD102-Chip maximal kann. Eine später einmal antretende GeForce RTX 4090 Ti dürfte ihre Hardware-Daten jedoch primär aus den dann existierenden Notwendigkeiten heraus ableiten – konkret danach, wie stark AMDs Navi-31-Chip ausfällt. Dies kann auf einen AD102 im Vollausbau mit hoher TDP hinauslaufen – muß es aber gar nicht, dies ist noch komplett offen. Interessanterweise spricht nochmals AGF @ Twitter dann davon, dass nVidia tatsächlich drei AD102-basierte Grafikkarten vorbereitet, wovon zwei Gaming-Lösungen sein sollen. Dies zeigt sehr wohl auf eine substantielle Vorarbeit zu einer (später erscheinenden) GeForce RTX 4090 Ti hin (alternativ eine "ADA Titan").

From the very beginning, when NVIDIA received the first trays of dies, they started the binning. 3 AD102 die SKUs are being under qualification (one A/Quadro compute, two GeForce gaming) + 3 PCB designs
Quelle:  AGF @ Twitter am 19. Juli 2022

Twitterer Greymon55 bringt hingegen eine Chipfläche für das GCD von Navi 31 daher: 350mm² oder etwas größer soll es sein. Twitterer AGF fügt die Größe der MCDs mit 40mm² an, womit der Gesamtchip auf eine Chipfläche von ~590mm² kommen soll. Bei der Variante mit extra 3D V-Cache müsste man dann eigentlich noch die bis zu 6 Cache-Bausteine mitrechnen. Denn obwohl selbige in der Navi-31-Praxis in die Höhe gestappelt werden (werden auf den MCDs angebracht), belegen sie natürlich genauso Wafer-Fläche. Jene sind auf 6x ~20mm² zu schätzen, womit der Waferflächen-Einsatz bei Navi 31 mit 3D V-Cache auf ~710mm² steigen würde. Dennoch erscheint einigen Beobachtern die Chipfläche des reinen Navi-31-GCDs mit ~350mm² als vergleichsweise klein. Einzurechnen wäre, dass in diesem GCDs dann Speicherinterface und Infinity Cache fehlen werden – jenes ist bei Navi 31 in die MCDs ausgelagert.

GCD 350mm²+
Quelle:  Greymon55 @ Twitter am 19. Juli 2022
 
Navi31 = 1x350mm2 GDC + 6x40mm2 MCD = 590mm2. Matches rumored 600mm2 total die size.
Hopefully RDNA3 brings some major arch improvements, otherwise it will be tough against 610mm2 AD102 mono...
I still have hard time believing how "small" N31 is. Why AMD didn't go for the kill?

Quelle:  AGF @ Twitter am 19. Juli 2022

Bei Navi 21 machen diese Chipteile immerhin 28% der Chipfläche aus, Navi 21 ohne Speicherinterface und ohne Infinity Cache wäre also ~375mm² groß. Damit wäre die Chipfläche von Navi 31 jedoch immer noch nicht ausreichend gut erklärbar: Immerhin geht die Anzahl der FP32-Einheiten von 5120 auf gleich 12'288 (+140%) nach oben, Fertigungs-technisch steht zwischen beiden Grafikchips dagegen nur ein einfacher Fullnode-Sprung von 7nm auf 5nm. Vermutlich wird AMD eine Menge Optimierungs-Arbeit angesetzt haben, um dies zu erreichen. Die Frage nach dem "Warum" ist hingegen einfacher zu beantworten: AMD kann mittels (echten) MCM-Konstrukten mit 2 GCDs jederzeit jeden beliebigen Performance-Punkt erreichen. Relevanter dürfte für AMD jedoch sein, die limitierte Anzahl an 5nm-Wafern nicht mit zu großen Grafikchips zu belasten: Schließlich sollen aus dieser Fertigung auch die Ryzen-7000-Prozessoren sowie die wichtigeren (wie lukrativeren) Epyc-Prozessoren auf Zen-4-Basis kommen.

Und letztlich fehlt wohl noch Intel bei diesen Twitter-Festspielen (oder Twitter-Horrorshow, je nach Gusto): Laut Hardwareluxx-Mitarbeiter Andreas Schilling sind die Arc-Grafikchips stark auf rBAR angewiesen, um auf Touren zu kommen. Gemäß Intel-Aussagen soll diese in der Praxis schon zu beobachtende Eigenheit auf einer direkten Konzeption des Arc-Speichercontrollers zugunsten von größeren Datenblöcken basieren – womit jener dann bei den bisher üblichen kleineren Datenblöcken um so schwächer ist. Im genauen handelt es sich somit wohl um den ersten vom Start weg auf die Nutzung von rBAR optimierten Speichercontroller. Was günstig für die Zukunft ist, führt aktuell natürlich zu Problemen – und sicherlich liegt ein Teil der stark schwankenden Performance der Arc-Grafikkarten auch in diesem Punkt begründet.

Had a nice chat with some guys @IntelGraphics a few minutes ago: With the data available right now it looks like the Arc A380 is reliant to rBAR way more than other GPUs from AMD and NVIDIA. And there is a reason for this.
Quelle:  Andreas Schilling @ Twitter am 19. Juli 2022
 
The memory controller is very sensitive to CPU memory writes or rather is optimized for bigger chunks of data (with rBAR) in comparison to many smaller data pieces that must be processed without rBAR. Intel will try to optimize the data handling, but rBAR is the way to go.
Quelle:  Andreas Schilling @ Twitter am 19. Juli 2022

Als kurzfristige Gegenmaßnahme will Intel den Treiber entsprechend optimieren (Ironie: AMD & nVidia optimierten für den rBAR-Zustand, Intel für die Abwesenheit von rBAR). Langfristig dürfte man sich dies dann sparen können, wenn jedes neue Spiel automatisch mit rBAR daherkommt. Prinzipiell spielt hier die Zeit für Intel, denn von der Arc A-Serie erwartet man sich nunmehr sowieso keine Wunder-Dinge mehr, bei der nachfolgenden und erst 2023 antretenden "Battlemage"-Generation könnte der Spiele-Support von rBAR dann vielleicht schon zugunsten Intels umgeschlagen sein. Wieviel Intel durch seine Optimierung des Speichercontrollers auf rBAR gewinnt, bleibt natürlich unklar – und sollten AMD & nVidia mit ihren NextGen-Grafikkarten in dieser Frage (anzunehmenderweise) nachziehen, geht jener Effekt sicherlich in der Gesamtsumme der Performance-Steigerung der neuen Generation unter, wird sicherlich nur selten ausgemessen werden.