14

Weitere Berichte und Ursache-Hypothesen zum Stabilitäts-Problem von Raptor Lake

Die letzten Tage haben das Stabilitäts-Problem von Intels "Raptor Lake" Prozessoren wieder ins Blickfeld gerückt, verstärkt aus Sicht von Spiele-Entwicklern und Server-Betreibern: Jene finden mittels Bug-Auswertungen und Nutzer-Rückmeldungen erneut sehr deutliche Hinweise darauf, dass hier etwas bei "Raptor Lake" im argen liegt – und zwar speziell bei den K/KF/KS-Modellen und primär beim Core i9, mit einer klaren Abstufung jedoch letztlich auch beim Core i7. Weiterhin ist das ganze allerdings kein Massen-Phänomen, sondern betrifft in der Praxis nur eine Minderheit der jeweiligen Nutzer dieser Prozessoren. Dies muß aber auch nicht für alle Zeiten derart bleiben, denn dort, wo explizit auf diese Problematik hin getestet wird, kommen hohe Raten von 50-100% betroffener Prozessoren heraus. Dass das Problem in der Praxis nicht noch breiter auftaucht, könnte somit auch nur daran liegen, dass nicht jeder Anwender überhaupt eines der betroffenen Spiele nutzt bzw. eventuelle Crashes überhaupt der CPU zuordnet.

Interessant an den jüngeren Berichten ist, dass dort teilweise auch Stabilitäts-Probleme im Server-Einsatz auftauchten – wo nachweislich Profi-Mainboard verwendet wurden, welche teilweise auf sehr handzahmen Settings liefen. Dies hat die Diskussion über die Ursache der Stabilitäts-Problematik zuletzt in eine neue Richtung gelenkt: Weg von der alleinigen Verantwortung von auto-übertaktenden Mainboards des Retail-Segments hin zu einer hypothetischen Mitverantwortung im Bereich von Ring-Bus und Level3-Cache von Raptor Lake. Interessant sind hierzu entsprechende X-Threads seitens Sebastian Castellanos sowie des bekannten YouTubers Buildzoid, welche genau in diese Kerbe schlagen. Dabei weisst 'Sebastian Castellanos' auf den großen Taktratensprung des Ring-Bus bzw. Level3-Caches zwischen Alder Lake und Raptor Lake hin: Zwischen Core i7-12700K sowie i7-14700K ging selbiger von 3.6 auf 4.9 GHz nach oben.

Regarding recent Intel 13th/14th gen stability issues, I'm actually starting to believe that the issue is two-fold: unlocked power limits with high voltage/current draw AND Ring Bus/Last Level Cache instability.
 
Some instability issues may have been fixed by applying Intel default profiles which enforce strict voltage/current/power limits but as we've seen from @tekwendell's latest video, some CPUs are unstable even on server grade W680 mobos which already had those limits enforced. Which leads me to believe that another potential instability culprit on these CPUs is the Ring Bus/LLC circuitry. I think that Intel may have simply pushed them too hard with unlocked higher-end 13th/14th gen CPUs.
 
It's also well known that 13th/14th gen have higher Ring Bus/LLC clocks than their 12th gen counterparts. For example, my 14700K goes as high as 4.9 GHz whereas my 12700K used to max out at just 3.6 GHz. Couple that with the fact that 12th gen CPUs aren't pushed as hard as 13th/14th gen CPUs in both Ring Bus/LLC clocks AND core clocks, and the fact that they're nowhere near as unstable starts making sense.
 
Another potential problem for the Ring Bus/LLC in 13th/14th gen CPUs is the high core counts of CPUs like 13900K/14900K. It's well known that more cores = more ring stops = more stress on the Ring Bus circuitry. These CPUs are also pushed very hard in terms of clock speeds. This may explain why they're so overrepresented in game crashing telemetry, with CPUs like the 14700K/KF following them and with barely any reports from the i5 CPUs, which are clocked lower AND have fewer cores to stress the Ring Bus/LLC.

Quelle:  Sebastian Castellanos @ X am 13. Juli 2024 (inkl. angehängter Tweets)

Gesucht wird ja derzeit vor allem danach, wieso nur jene Raptor-Lake-Prozessoren eine derart auffällige Crash-Neigung haben – dafür muß ein entsprechend großer Hardware-Abstand gegenüber dem schließlich Architektur-gleichem "Alder Lake" existieren, welcher in diesem Fall tatsächlich vorliegend ist. Zudem würde ein (weiterhin hypothetisches) Problem mit Ring-Bus bzw. Level3-Cache von Raptor Lake auch gut erklären, wieso dies nur bei den schnellsten Modellen auftritt: Bei selbigen ist aufgrund der hohen Kern-Anzahl der Verkehr auf dem Ring-Bus am stärksten. Gleichzeitig nimmt die klar niedrigere TDP die non-K-Modelle wohl effektiv aus dem Spiel, jene erreichen kaum dieserart hohen Taktraten auf Ring-Bus bzw. Level3-Cache. Hiermit würde eine gute Erklärung dafür vorliegen, weshalb ausgerechnet die Core i7/i9 K/KF/KS-Modelle von Raptor Lake im Brennpunkt stehen, jedoch keine der anderen Raptor-Lake-Modelle.

'Buildzoid' fügt an dieser Stelle die weitere Vermutung an, dass möglicherweise die CPU-Versorgungsspannung für jenen Ring-Bus sowie Level3-Cache einfach zu hoch ist. Wenn angenommen 1.4V dafür zu viel sind, dann ist klar, wieso ausgerechnet der Core i9 so viel häufiger betroffen ist als der Core i7. Denn diese Intel-Prozessoren werden mit teils individuellen CPU-Spannungen ausgeliefert, da gibt es Exemplare mit weniger oder mehr defaultmäßiger CPU-Spannung (ergo auch Core i7 mit hoher sowie Core i9 mit niedriger Spannung). Stimmt diese These, müssten die zum Crash neigenden Raptor-Lake-Prozessoren stärker darauf hin kontrolliert werden, wie deren individuelle CPU-Spannung lautet bzw. ob hier eventuell besonders Spannungs-starke Prozessoren vorliegen. Auch dieser Effekt könnte dazu beitragen, gerade die non-K-Modelle vor dieser Stabilitäts-Problematik zu schützen, da jene aufgrund ihrer niedrigen TDP und damit niedrigeren Taktraten üblicherweise mit schwächerer CPU-Spannung laufen können.

Well my I guess now is that the ring/L3cache/uncore on 13th/14th gen doesn't appreciate getting hit with 1.4V+. Max boost vid for i9 K/KF is 1.4-1.5V (KS is even higher). Max boost vid for i7s is 1.3-1.4V. If my theory is correct. intel would basically have to shave like 500-300MHz of boost from the top end chips to get the chips back down to safe operating voltages.
"EDIT": you can get i7s with VIDs of 1.43V

Quelle:  Buildzoid @ X am 14. Juli 2024 (inkl. angehängter Tweets)

Nichtsdestotrotz bleibt es (derzeit) eine Hypothese, dass Ring-Bus bzw. Level3-Cache eine gewichtige Rolle für das Stabilitäts-Problem von Raptor Lake spielen. Da es trotz der "Intel Default Settings" weiterhin zu diesen Stabilitäts-Problemen kommt bzw. jene neuen BIOS-Settings nur einem gewissen Teil der betroffenen Nutzer geholfen haben, darf man die vorherigen Auto-Übertaktung der meisten Retail-Mainboards wohl nur noch als Problem-verschärfend, aber nicht eigentlich Problem-auslösend ansehen. Dies gilt genauso auch für alle anderen Hotfixes: Jene können helfen, führen jedoch nicht duchgehend zum Erfolg. Die eigentliche Problemursache kann nur Intel sicher ermitteln, woran man nunmehr allerdings auch schon einige Monate arbeitet – ohne bisher sichtbar vorangekommen zu sein.

Doch je länger dies dauert, um so größer wird der Verdacht, dass Intel die Wahrheit lieber nicht kundtun will – weil es vielleicht eine nicht fixbare Ursache hat, sprich auf einen Austausch der kompletten verkauften Charge hinauslaufen müsste. Eventuell war Intel bis zuletzt auch ganz zufrieden mit der aktuellen Situation, wo es einzelne Berichte hierzu in der Enthusiasten-Bubble gibt, die Massenmedien diese Problematik hingegen kaum aufgegriffen haben. Denkbarerweise hofft Intel auch darauf, dass das zweite Halbjahr 2024 genügend andere CPU-Themen bietet (Launches von Zen 5, Lunar Lake und Arrow Lake) und dass dies demzufolge medial untergeht, bis Raptor Lake dann von Arrow Lake abgelöst wird. Dem soll hiermit entgegnet werden, dass Intel sehr wohl weiterhin in der Pflicht ist, sich noch erschöpfend zu dieser Problematik zu erklären und dass bis es soweit ist, Raptor Lake in allen anstehenden Launch-Benchmarks als "unter Vorbehalt stehend" laufen muß.

Nachtrag vom 14. Juli 2024

Bis zum Arrow-Lake-Launch sollte Intel im übrigen (spätestens) eine Lösung für die Stabilitäts-Probleme von Raptor Lake präsentiert haben – da inzwischen schon die Befürchtung existiert, Intel könnte diese Problematik mit in seine nächste Prozessoren-Architektur hineinschleppen. Allerdings könnte es sich hierbei auch um eine spezifische Raptor-Lake-Problematik handeln, dies läßt jedenfalls die Fehler-Verteilung überaus stark vermuten. Derzeit gibt es auch keinerlei Berichte zu betroffenen Prozessoren der Architekturen "Alder Lake" wie "Meteor Lake", allerdings hingegen einen Hinweis seitens Alderon Games, welcher auf (in seltenen Fällen) betroffene Core i5-14600K sowie sogar Core i7-13700T (das auf 35W TDP abgesenkte Modell) hindeutet. Letzteres würde wiederum bedeuten, dass besonders hohe Taktraten kaum eine Grundvoraussetzung für das Auftreten dieser Problematik sein können, denn jener Core i7-13700T tritt mit einem Maximal-Takt von nur 4.9 GHz an (und dürfte aufgrund der TDP im Last-Zustand weit darunter arbeiten). Ein Punkt läßt sich allerdings sagen: Betroffen sind damit ausschließlich "echte" Raptor-Lake-Modelle, welche auch auf dem eigentlichen Raptor-Lake-Die basieren, sprich dem 8+16-Die von Raptor Lake.

Alle kleineren Modelle der 13. und 14. Core-Generation (Core i3/i5, aber ohne K/KF) werden schließlich immer noch aus verschiedenen Alder-Lake-Dies gewonnen, zielsicher zu erkennen am deutlich kleineren Level2-Cache (Alder Lake: 1.25/0.5 pro P/E-Kern, Raptor Lake: 2/1 MB pro P/E-Kern). Das Auftreten dieser Problematik auch bei diesen kleineren Raptor-Lake-Modellen spricht etwas gegen die These, dass es mit hohen Taktraten oder auch hohen CPU-Spannungen zu tun haben könnte. Andererseits dürften die Fehler-Fälle bei kleineren Raptor-Lake-Modellen auch in der Anzahl zu gering sein, um die Problematik zu erklären, sprich auch nur "Montags-Produktionen" sein. YouTuber Buildzoid geht hingegen weiterhin davon aus, dass die vergleichsweise hohen Betriebsspannungen eine große Rolle bei dieser Problematik spielen. In der Summe ist vor allem erstaunlich, dass die Community inzwischen weiter bei der Ursachenforschung zu sein scheint als denn Intel – was natürlich auch daran hängt, dass Intel nach der Bekanntgabe der "Intel Default Settings" (aktualisierte Form) inhaltlich gar nichts mehr hierzu gesagt hat.