30

News des 30. November 2023

Weit beachtet werden derzeit die (vermeintlich) guten Performance-Ergebnisse des chinesischen Prozessors Loongson 3A6000, welchen der Hersteller kürzlich vorgestellt hatte und was auch bei Bilibili mit einem eigenen Testbericht begleitet wurde. Hierbei gab es sicherlich das eine oder andere Achtungszeichen, wie den IPC-Test unter SPEC CPU 2006, bei welchem der chinesische Vierkern-Prozessor auf gleicher Taktrate (von 2.5 GHz) nur minimal hinter dem Core i5-14600K landete. Allerdings läuft jener Intel-Prozessor regulär auf bis zu 5.3 GHz und läßt sich in Richtung 6 GHz übertakten – während der Loongson 3A6000 regulär auf 2.5 GHz taktet und mit Luftkühlung auch nur minimal mehr schafft. Hier spiegelt sich teilweise die für Loongson benutzte 12nm-Fertigung wieder, teilweise ist das Prozessoren-Design einfach nicht für höhere Taktraten ausgelegt.

SPEC CPU 2006 Hardware INT/ST INT/MT FP/ST FP/MT
Loongson 3A6000 LA664-Architektur, 4C, 2.5 GHz 41,3 147 50,4 130
Loongson 3A5000 GS464V-Architektur, 4C, 2.5 GHz 27,6 76,5 28,7 76,6
Intel Core i3-10100 Comet Lake, 4C/8T, 3.6/4.3 GHz 47,2 152,1 56,8 151,6
gemäß der Benchmarks von Uncle Tom @ Bilibili unter "SPEC CPU 2006"

Die Benchmarks ohne Taktraten-Begrenzung bei den Intel-Prozessoren zeigen dann schnell auch ein deutlich niedrigeres Leistungspotential des Loongson 3A6000 an: Sicherlich heftig verbessert gegenüber dem eigenen Vorgänger 3A5000, aber dennoch nur in der Nähe des Niveaus eines Core i3-10100 aus der Comet-Lake-Generation herauskommend. Natürlich ist auch dies ein Achtungserfolg, immerhin hat jener Intel-Prozessor zusätzlich Hyperthreading sowie beachtbar mehr Takt auf seiner Seite – was der chinesische Prozessor nur durch eine höhere IPC (!) ausgleichen kann. In der Praxis bedeutet dies allerdings noch keinen echten Wettwerber gegenüber AMD und Intel unter regulären Bedingungen. Mit deren modernen Prozessoren kann sich Loogson nicht messen, auch eventuelle Loongson-Modelle mit mehr CPU-Kernen würden letztlich an dem Punkt scheitern, dass jene einen enormen Taktraten-Nachteil aufweisen.

Ein Erfolg ist der Loongson 3A6000 somit eher aus einem anderen Blickwinkel: Die Performance reicht aus für einfache Office-Computer, vor allem auch erzielt mit einem dafür passenden Stromverbrauch von ca. 40 Watt. Damit könnte sich China für dieserart IT-Gerätschaften notfalls unabhängig vom Westen machen, falls jener die Zügel seines Sanktionsregimes weiter anziehen sollte. Zugleich bietet die hiermit erreichte Performance-Stufe sicherlich das Sprungbrett zu mehr an. Da die Energieeffizienz nicht verkehrt aussieht, sollte man diese Entwicklung auch für Server-Prozessoren verwenden können – und zukünftig eines Tages vielleicht auch näher an die Performance der Consumer-Modelle von AMD & Intel herankommen. Das US-Sanktionsregime hat hier letztlich zu genau dem geführt, was aufmerksame Beobachter von Anfang an befürchtet hatten: Dass China selber entwickelt und herstellt, somit die bisher einzige große Abhängigkeit vom Westen (in Form von CPUs & GPUs) langfristig auflöst.

Heise führen genauer auf, was nVidia zugunsten einer "GeForce RTX 4090 D" für China unternehmen muß, um unterhalb der US-Sanktionsregularien zu landen. Dafür reicht es im konkreten Fall aus, die Rechenleistung um 10% zu reduzieren, was jetzt kein ganz großer Unterschied ist und beispielsweise mit dem Rückschritt von 128 auf 116 freigeschaltete Shader-Cluster zu realisieren wäre. Immer noch im Raum steht dagegen die weitere Möglichkeit, eine der fürs Gaming unwichtigen weiteren Rechenformate wirklich stark zu beschneiden, denn dies könnte in der angesetzten Insgesamtrechnung (alle Rechenleistungen aller Formate zusammengezählt) auch jene 10% einbringen. Laut Heise geht es hierbei um FP4/INT4, FP8/INT8 und FP16/INT16 – interessanterweise somit außerhalb des ansonsten üblichen FP32.

Stimmt die Aussage, dass nur die zusammengezählten Rechenleistungen zählen, könnte beispielsweise eine Reduzierung des im Gaming-Einsatz derzeit nicht verwendeten (?) FP4/INT4 eine Option sein, um die Sanktionsregularien zum umgehen, ohne die Anzahl der Shader-Cluster reduzieren zu müssen. Dies wäre vor allem für die Zukunft interessant, denn 116 Shader-Cluster sind in der Ada-Lovelace-Generation noch Spitze, dürften jedoch mit der kommenden Blackwell-Generation (maximal 192 Shader-Cluster) schon auf den zweitstärksten Grafikchip heruntergereicht werden. Funktioniert es nicht, die Rechenleistungen nur partiell herunterzustufen, wäre die auf dem chinesischen Markt lieferbare Gaming-Leistung somit fest limitiert. Die Rechenkraft chinesischer Gamer würde somit irgendwann deutlich stagnieren, was bei einem weltweiten Anteil an der Gamer-Gemeinde von einem Fünftel bis einem Viertel doch sehr spürbar für alle wäre, auch für die Spieleentwickler.