31

Performance von PCI Express 1.1, 2.0 & 3.0 sowie x4, x8 & x16 untersucht

Von TechPowerUp kommt mal wieder ein bemerkenswerter Artikel, welcher die PCI-Express-Skalierung mittels umfangreicher Benchmarks (21 Testtitel unter jeweils 3 Auflösungen) ausgemessen hat. Hierbei wurde alles von PCI Express 1.1, 2.0 und 3.0 sowie x4, x8 und x16 getestet, erreicht mittels Umschalten der PCI-Express-Modi im Mainboard-BIOS bzw. Abkleben der jeweiligen Pins am PCI-Express-Steckplatz selber. Die Benchmark-Auswertung definiert dann das höchstmögliche PCI Express 3.0 x16 mit 100%, wir geben in der nachfolgenden Tabelle dann jeweils den Verlust zu diesem Spitzenwert an (pro Auflösung). Die höhere Verluste ergeben sich dabei regelmäßig unter FullHD (oder kleineren Auflösungen), da dort die Frameraten logischerweise höher sind und damit für mehr fps auch mehr Geometrie und andere Daten über den Bus geschleust werden müssen.

Dies führt in der Praxis dazu, das sich im Extremfall einer besonders schwachen Anbindung mittels PCI Express 1.1 x4 unter FullHD schon sehr hohe Frameratenverluste von -29% (gegenüber PCI Express 3.0 x16) ergeben, während unter UltraHD dieselbe Technik-Konstellation bei einem klar geringeren Frameratenverlust von -17% herauskommt. Allerdings ist es kaum zu erwarten, das Grafikkarten, welche die UltraHD-Auflösung unter heutigen Spielen spielbar schaffen, auf so alten Mainboard eingesetzt werden. Selbst der Vergleich PCI Express 2.0 zu 3.0 dürfte heutzutage eher selten in der Praxis anzutreffen sein, da PCI Express 3.0 nun schon einigen Jahren im Markt steht (bei Intel seit Ivy Bridge in die CPU integriert). Eine vorstellbare Kombination von GeForce GTX 1080 und alter, dafür aber noch ausreichend schneller CPU wäre also ein hoch taktender Sandy-Bridge-Prozessor – wo üblicherweise ein PCI Express 2.0 x16 Steckplatz zur Verfügung steht, welcher bei nur -1% bis -2% Performanceverlust rangiert.

Wenn man hingegen wirkliche Altsysteme mit schwacher PCI-Express-Anbindung bemüht, funktioniert diese Rechnung und auch diese aufgestellten Benchmarks nicht mehr: Einen Core 2 Quad wird man sicherlich nicht mit einer GeForce GTX 1080 paaren – sondern natürlich mit einer passenderen Grafikkarte maximal aus dem Midrange-Bereich (eher kleiner). Dies ergibt logischerweise niedriger fps-Zahlen – und jene bedeuten wiederum weniger Last auf dem Bus und damit einen geringeren Performanceverlust durch die schwache PCI-Express-Anbindung. Gerade mit solcherart Alt-CPUs dürfte man viel eher an der Leistungsfähigkeit der CPU hängen als denn an der PCI-Express-Bandbreite. Heutzutage dürfte die PCI-Express-Bandbreite also kaum irgendwo als in der Praxis anzutreffendes Limit auftreten, trotz der teilweise hohen mit einer Spitzen-Grafikkarte wie der GeForce GTX 1080 demonstrierbaren Unterschiede.

PCI Express 1.1 PCI Express 2.0 PCI Express 3.0 PCIe 3.0 x4 via Chipsatz
FullHD x4 -29% -13% -4% -8%
x8 -13% -4% -0%
x16 -6% -1% 100%
WQHD x4 -24% -11% -4% -7%
x8 -11% -4% -0%
x16 -5% -2% 100%
UltraHD x4 -17% -8% -3% -5%
x8 -7% -2% -0%
x16 -3% -1% 100%

Zuzüglich den normalen Tests haben TechPowerUp noch einen extra Test mittels eines speziellen PCI Express 3.0 Steckplatzes aufgelegt, welcher physikalisch als x16 und elektrisch aber nur als 4x ausgeführt wurde. Dies entspricht nominell der Abklebe-Aktion, der Unterschied lag hier jedoch darin, das jener spezielle PCI-Express-Steckplatz über den Mainboard-Chipsatz angebunden war, demzufolge erst noch über das DMI-Interface zur Intel-CPU weitergeleitet werden musste. Die Bandbreite ist nominell dieselbe, aber hier treten natürlich Reibungsverluste auf, welche sich auch deutlich an den Benchmark-Werten zeigen: Der Performance-Verlust ist nahezu doppelt so hoch wie bei einem direkt an die CPU angebundenen PCI-Expres-Steckplatz.

Dies ist für zwei Dinge interessant: Erstens einmal lag hier immer ein kleiner Nachteil von AMDs Bulldozer-CPUs, welche noch über kein in die CPU selber integriertes PCI-Express-Interface verfügen (im Gegensatz zu den kommenden Ryzen-CPUs). Und zweitens deutet es an, das indirekte Verbindungen generell Performance kosten – was eine Erklärung dafür sein dürfte, wieso per Thunderbolt angebundene externe Grafik derart viel an Performance verliert, obwohl die dafür benutzte Bandbreite PCI Express 3.0 x4 entspricht (und damit gutklassig ist). Im Fall von Thunderbolt geht das ganze schließlich über gleich zwei Zwischenstationen auf die Reise: Vom PCI-Express-Interface der CPU zuerst zum Mainboard-Chipsatz, dort wird jenes PCI-Express-Signal auf Thunderbolt gepackt, nachfolgend im externen Gehäuse dann wieder entpackt und dem PCI-Express-Interface der Grafikkarte weitergegeben. Dies ist dann schon ein deutlicher Unterschied zum direkten Weg zwischen den PCI-Express-Interfaces nur von der CPU und der Grafikkarte.

Derzeit ist das ganze natürlich nur eine These, da schlicht noch zu wenige Benchmarks zum Fall externer Grafik vorliegen – interessant wäre hierbei insbesondere der Vergleich mittels eines MSI GS30 Notebooks, welches einen PCI Express x16 Stecker direkt nach außen führt (und sich damit wenigstens den Umweg über Thunderbolt spart). Aber für den Augenblick sieht es nicht besonders rosig für externe Grafik speziell unter dem Gesichtspunkt von HighEnd-Performance aus: Da die Thunderbolt-Konstruktion derartig viel an Performance kostet, sind Laptops mit integrierter Notebook-Grafiklösung seit nVidias Pascal-Generation tatsächlich sogar schneller. Und einen Preisvorteil haben die vielen angebotenen externen Gehäuse bislang auch nicht herausarbeiten können, dafür sind jene mit Preislagen zwischen 300-1000 Euro generell zu teuer angesetzt.