23

Zu den hohen Ergebnis-Differenzen bei der Spiele-Performance von Ryzen 2000

Sowohl in unserem Forum als auch auf Reddit wird über die erheblichen Ergebnis-Differenzen in den Spiele-Benchmarks zu Ryzen 2000 diskutiert, welche sich bei der Zusammenfassung aller Testresultate zeigten. Konkret geht es hierbei um die erhebliche Abweichung der Testresultate von AnandTech gegenüber den anderen Hardwaretests: Die Werte von AnandTech sind auf den ersten Blick sichtbar sehr freundlich speziell zu Ryzen 2000, gegenüber dem allgemeinen Schnitt ergibt sich beim Ryzen 7 2700X eine Differenz von +21,4%, die Differenz zwischen dem niedrigsten (PCGH) und dem höchsten Wert (AnandTech) zum Ryzen 7 2700X liegt bei satten +32,8%. Dies ist selbst wenn man einrechnet, das bei eigentlich allen dieserart Benchmark-Auswertungen immer mal wieder erhebliche Ergebnis-Differenzen zu beobachten sind, schon ausgesprochen viel – was nachfolgend zu der Forderung geführt hat, die Testresultate von AnandTech wegzulassen bzw. alternativ sowohl das beste als auch das schlechteste Testresultat nicht zu beachten.

Spiele (1%Min@1080p) 7700K 8400 8600K 8700K 1600X 1800X 2600 2600X 2700 2700X
allgemeiner Index (7 Reviews) 93,1% 91,3% 95,1% 100% 82,7% 87,2% ~89% 92,3% ~89% 97,0%
ohne AnandT. (6 Reviews) 92,3% 90,9% 94,6% 100% 81,5% 85,7% ~86% 89,4% ~86% 93,8%
ohne AnandT. & PCGH (5 Reviews) ~93% 91,2% ~95% 100% ~82% 86,9% ~87% 90,4% ~87% 94,9%
Wertebasis dieser Aufstellung: siehe Launch-Analyse zu AMDs Ryzen 2000

Vorstehende Tabelle zeigt die Auswirkungen dieser Forderung auf den dann jeweils neu berechneten Performance-Index: Ohne die Testresultate von AnandTech geht es doch bemerkbar für den Ryzen 7 2700X von vormals 97,0% Spiele-Performance (der Core i7-8700K ist überall als "100%" gesetzt) auf nur noch 93,8% herunter – eine Differenz um immerhin 3 Prozentpunkte, hervorgerufen nur durch einen einzigen Hardwaretest. Nimmt man dagegen noch die Testresultate der PC Games Hardware heraus (folgend dem Gedankenmodell, immer das beste und das schlechteste Testresultat zu entfernen), geht der Index-Wert wieder auf 94,9% herauf, die Differenz zum allgemeinen Index sinkt auf 2 Prozentpunkte. Dies sind letztlich keine ganz großen Differenzen, aber in der Bewertung dennoch wichtig: Einen Ryzen 7 2700X auf 97,0% Spiele-Performance des Core i7-8700K ordnet man eben grob als gleichwertig ein – sind es dagegen nur 93,8%, sieht man eher den Unterschied zwischen beiden Werten & Prozessoren.

Im konkreten Fall sprach jedoch einiges dagegen, hierbei einzelne Testresultate von der Index-Bildung auszuschließen. Zum einen handelt es sich durchgehend um verläßliche Quellen, insbesondere im Fall von AnandTech – welche auch eine der wenigen Hardwaretester waren, welche ihren Patch-Status zu Meltdown & Spectre vorbildlich dokumentiert hatten bzw. alle Benchmarks nur mit vollständiger Fix-Lage angetreten sind. Zum anderen liegen in diesem Fall schlicht zu wenige Werte vor, um so einfach eine oder sogar mehrere Quellen von der Index-Bildung auszuschließen. Dies wäre kein Problem, wenn es (wie bei der Anwendungs-Performance) mehr als zwei Dutzend Wertequellen gäbe – wobei sich unter dieser hohen Anzahl einzelne Ausreißer dann auch viel besser egalisieren, sprich den insgesamten Index nur noch minimal beeinflußen.

Und letztlich sollte man es generell vermeiden, Meßreihen nach dem Maßstab zu entfernen, das einem die insgesamten Ergebnisse nicht gefallen – an dieser Stelle würde der Daten-Analyst einen zu hohen Einfluß auf den entstehenden Performance-Index erhalten. Von außen betrachtet ist es sowieso nicht einzusehen, ob hier jemand "falsch" oder "richtig" gemessen hat – und anhand der Ergebnisse darauf zu spekulieren ist reichlich vage. Dies ist etwas anderes, wenn eine Meßreihe in sich selber nicht konsistent daherkommt – beispielsweise mit wild springenden Ergebnissen oder absurd hohen Differenzen. Aber ansonsten sollte man sich doch stark zurückhalten, eine Index-Bildung nach dem Maßstab vorzunehmen, das etwas herauskommt, was man gern sehen möchte – dann könnte man sich schließlich das ganze Zahlenwerk am Ende auch sparen.

Unsere Index-Bildung erfolgt allein nur nach der Maßgabe, Quellen mit vielen Werten zu vielen Testobjekten zu bevorzugen: Ohne eine gewisse Anzahl an Einzeltests erfolgt gar keine Aufnahme in den Index, am Ende wird dann noch einmal leicht zugunsten jener Reviews mit besonders vielen Einzeltests gewichtet. Dies erfolgt allerdings ohne jeden Blick auf das herauskommende Endergebnis, sprich den veröffentlichten Index. Das dabei entstehende Endergebnis wird vielmehr unsererseits nachfolgend so akzeptiert, wie es eben herauskommt. Die ist schlicht die Erfahrung daraus, wie einfach ein solches Endergebnis mittels einer übermäßigen Gewichtung zugunsten einzelner Testergebnisse manipulierbar wäre. Es ist jedoch nicht die Aufgabe des Daten-Analysten, sich die Daten so lange zurechtzubiegen, bis ein dem eigenen Gusto passendes Endergebnis erscheint. Zudem stehen für alle, welche eventuell eigene Berechnungen durchführen wollen, die Index-Werte für jeden einzelnen Hardwaretest in unseren Artikeln veröffentlicht zur Verfügung – wer will, kann jederzeit auf Basis dieses Zahlenmaterials eigene Indizes aufstellen.

Wirklich gut lösbar ist die Problematik im übrigen nur mittels ausreichenden Zahlenmaterials. Meistens wird man ja zu einem Hardware-Launch mit Benchmark-Werten zugeschüttet, so dass dies keinerlei Problem darstellt. Bei Prozessoren-Tests zur Spiele-Performance gibt es jedoch als Ausnahme davon regelmäßig zu wenige Werte: Nur einzelne Webseiten stellen überhaupt Messungen zu 1%-Minimum-Frameraten (oder vergleichbares) auf, zudem wird hier zumeist nur mit vergleichsweise wenigen Einzeltests gearbeitet. Nur 4-6 Einzeltests sind allerdings regelmäßig nur dann ausreichend, sofern es sich um vergleichbare Hardware desselben Herstellers handelt – dann läßt sich selbst mit so wenigen Werten ein solider Index aufstellen. Bei Hersteller-übergreifenden Tests sollte man jedoch generell mindestens 8-10 Einzeltests ansetzen (mehr sind auch gern gesehen) – ansonsten haben einzelne Benchmarks ein zu hohes Gewicht und könnten daraufhin den Index eines Hardwaretests maßgeblich verzerren. Mehr Einzelbenchmarks pro Hardwaretest und mehr Hardwaretests, welche sich an solchen Benchmarks zu 1%-Minimum-Frameraten versuchen, würden ergo in Folge den Performance-Index wesentlich solider werden lassen.

Nachtrag vom 23. April 2018

Vom Planet 3DNow! kommt eine mögliche Erklärung für den Umstand der hohen Ergebnis-Differenzen bei der Spiele-Performance von Ryzen 2000. Danach hatten AnandTech bei ihren Benchmarks fälschlicherweise zuerst die BIOS-Option "Core Performance Boost" deaktiviert – weil sich diese nach der von Intel-Mainboards bekannten Option "MultiCore Enhancement" anhört, mittels welcher alle CPU-Kerne auf die höchste Turbo-Stufe übertaktet werden. Dies war allerdings ein Mißverständis, hinter "Core Performance Boost" verbirgt sich das Ryzen-2000-Feature "Precision Boost 2" – womit AnandTech einen Haufen Benchmarks umsonst gemacht hatten, dabei allerdings die Erfahrung gewonnen haben, wie einfach man diesbezüglich falsch liegen kann (die veröffentlichten Benchmarks basieren dann durchgegend auf dem korrekten BIOS-Setting). Die hierzu aufgestellte These wäre nun, das dies auch anderen Webseiten passiert sein könnte – ohne das es vor dem Artikelrelase entdeckt wurde. Dann wären (hypothetisch) also nicht die AnandTech-Benchmarks "falsch", sondern die der anderen Webseiten.

Einen Beweis dafür gibt es natürlich noch nicht – und letztlich müsste sich jede Webseite, welche am Ryzen-2000-Launch teilgenommen hat, diesbezüglich öffentlich bekennen. Da dies keine große Wahrscheinlichkeit hat, bleibt als einzige Möglichkeit, das sich AMD dahinterhängt, sofern man dort zu der Überzeugung kommt, das an dieser These etwas dran ist. AMD könnte die einzelnen Hardwaretester sicherlich dazu animieren, sich diesbezüglich zu offenbaren bzw. notfalls entsprechende Nachtests anzusetzen. Sofern an dieser Stelle Performance auf breiter Front liegengelassen wurde, würde sich dies für AMD regelrecht lohnen (wir würden in diesem Fall problemlos einen neuen Performance-Index aufstellen). Doch selbst wenn dies nicht passiert oder aber die ganze These auch einfach Nonsens ist: Zumindest sollten nun alle Hardwaretester bezüglich dieser Problematik sensibilisiert sein sowie zukünftig mehr Augenmerk auf solcherart BIOS-Optionen richten. Und die Mainboard-Hersteller könnten durchaus überlegen, BIOS-Optionen, welche sich auf offizielle Features beziehen, auch exakt so zu benennen – und nicht mit eigenen Namens-Kreationen zu versehen, die (wie in diesem Fall) zu Mißverständnissen führen.

Nachtrag vom 24. April 2018

In der Frage des Umstands der hohen Ergebnis-Differenzen bei der Spiele-Performance von Ryzen 2000 kommt von der PC Games Hardware noch einmal explizit der Hinweis, das man das entsprechende BIOS-Setting korrekt gesetzt hatte – wie auch, daß das ordnungsgemäße Funktionieren der Turbo-Funktion bereits im originalen Bericht untersucht wurde. Damit ergibt sich nunmehr die Situation, das augenscheinlich die beiden Quellen mit den (für AMDs Ryzen 2000) besten und schlechtesten Werten bei der Spiele-Performance vollkommen korrekt in ihren Benchmarks gearbeitet haben – wie dies von beiden Quellen im übrigen auch nicht anders zu erwarten war. In der letzten Berichterstattung unsererseits ist dies wohl nicht besonders gut rübergekommen, sollte jedoch unsererseits niemals anders klingen: Die These, das hier eine BIOS-Option eventuell falsch gesetzt worden war, ist halt nur eine These – und die aufgestellten Werte sind keineswegs ein Beweis oder Hinweis, das dies so gewesen ist.

Im Klartext: Die Wahrscheinlichkeit, das irgendwelche Benchmarks falsch durchgeführt wurden, war zwar da, war aber immer schon sehr gering – gerade bei speziell diesen Hardwaretest-Webseiten, welche hierbei überhaupt 1%-Minimum-Frameraten aufgestellt hatten. Die größere Wahrscheinlichkeit lag immer schon darin, das hier nur eine der üblichen Schwankungen zwischen verschiedenen Hardwaretests zu sehen ist, welche eigentlich bei jedem großen Launch in mal mehr und mal weniger deutlicher Form vorkommt. Jene Schwankungen wären letztlich besser ausgleichbar, wenn mehr Wertequellen vorhanden wären – was durchaus als Aufforderung an andere Hardwarestester begriffen werden darf, über die Aussagekraft ihrer Average-fps-Benchmarks nachzudenken, gerade wenn mit 1%-Minimum-Benchmarks eine entsprechende Alternative zur Verfügung steht. Auf die seitens der PC Games Hardware erwähnten erweiterten Benchmarks im PCGH-Heft kann dagegen leider unsererseits nicht eingegangen werden, so interessant jene auch sein mögen – die Heft-Form der PC Games Hardware wäre für uns schlicht nicht (rechtzeitig) beschaffbar. Davon abgesehen sollte man generell immer nur mit Quellen arbeiten, welche frei verfügbar sind, die vom Leser als auch selber nachprüfbar sind.

Nachtrag vom 2. Mai 2018

Der Tech Report hat noch einen extra Artikel mit Spiele-Benchmarks zu Ryzen 2000 im Vergleich zu Ryzen 1000 und Intels Coffee Lake aufgelegt – dessen Ergebnisse (auf der referenzmäßige Speichertaktung) wir hiermit aufgrund der geringen Anzahl solcherart Benchmarks sowie der damit einhergehenden Diskussion dem bisherigen Zahlenmaterial hinzufügen wollen. Die unter FullHD mit bester Grafikqualität entstandenen Messungen, von welcher nachfolgend die 1%-Minimum-Werte in einen Index überführt wurden, sehen beim Tech Report allerdings nicht gut aus für AMDs Ryzen-2000-Prozessoren: Sicherlich ist ein klarer Sprung gegenüber Ryzen 1000 zu sehen, aber gegenüber Intel liegt Ryzen 2000 beim Tech Report immer noch beachtbar zurück – in der Spitze bei -14% zwischen Ryzen 7 2700X und Core i7-8700K.

Spiele (1%Min@1080p) 7700K 8400 8600K 8700K 1600X 1800X 2600 2600X 2700 2700X
Technik KBL, 4C +HT, 4.2/4.5 GHz CFL, 6C, 2.8/4.0 GHz CFL, 6C, 3.6/4.3 GHz CFL, 6C +HT, 3.7/4.7 GHz, Zen, 6C +SMT, 3.6/4.0 GHz Zen, 8C +SMT, 3.6/4.0 GHz Zen+, 6C +SMT, 3.4/3.9 GHz Zen+, 6C +SMT, 3.6/4.2 GHz Zen+, 8C +SMT, 3.2/4.1 GHz Zen+, 8C +SMT, 3.7/4.3 GHz
AnandTech (4 Tests) 97,7% - - 100% 91,3% 97,5% 107,1% 111,5% 106,4% 117,8%
ComputerBase (6 Tests) 88% 92% - 100% 78% 82% 85% 87% 85% 93%
GameStar (6 Tests) 94,9% 88,0% - 100% - 93,0% - - - 99,2%
Golem (5 Tests) - - - 100% - 83,5% - - - 96,2%
PC Games Hardware (5 T.) 89,0% - 93,2% 100% 79,3% 80,4% - 84,8% - 88,7%
SweClockers (5 Tests) 97,2% 94,6% 97,2% 100% 86,0% 89,1% - 94,4% - 95,3%
TechSpot (6 Tests) 94,1% 91,5% 94,5% 100% - 87,6% - 85,1% - 91,0%
The Tech Report (5 Tests) 79,2% 87,3% - 100% 75,6% 78,9% - 81,3% - 86,0%
Performance-Index * 93,1% 91,3% 95,1% 100% 82,7% 87,2% ~89% 92,3% ~89% 97,0%
Listenpreis 339$ 182$ 257$ 359$ 219$ 349$ 199$ 229$ 299$ 329$
* originaler Performance-Index mit Stand zum Ryzen-2000-Launch, noch aufgestellt ohne die (neuen) Werte des Tech Reports

Diese Benchmarks des Tech Reports stellen damit die neuen niedrigsten Zahlen bei der Spiele-Performance von Ryzen 2000 ab – und bestätigen somit alle anderen Benchmark-Artikel, welche Ryzen 2000 in dieser Frage ebenfalls als nicht wirklich gleichwertig mit Intel angesehen haben. Damit werden die (vergleichsweise sehr hohen) Ergebnisse im AnandTech-Test einmal mehr in Frage gestellt – ohne das wir an dieser Stelle festlegen wollen (oder dies auch könnten), wer hier "richtig" oder "falsch" gemessen mag. Zu erinnern sei diesbezüglich daran, das die üblicherweise für diese Meßreihen genutzten 4-6 Einzeltests eigentlich klar zu wenig sind, um einen soliden Index aufzustellen – dafür bräuchte man eher 10-12 Einzeltests. Genauso würde sich ein solches Phänomen auch einfacher egalisieren lassen, wenn insgesamt mehr Hardware-Tests zu 1%-Minimum-Frameraten oder Frametimes zur Verfügung stehen würden – bei über 20 miteinander verrechneten Tests (wie bei der Anwendungs-Performance problemlos vorliegend) fällt der Effekt eines einzelnen Ausreißers dann schnell in den Bereich der Nachkommastelle.