31

News des 31. August 2011

Endlich mal wieder einen neuen Test zur benötigten PCI-Express-Bandbreite von Grafikkarten gibt es bei der ComputerBase. Dieser bestätigt erst einmal, daß PCI Express 2.0 x8 (vergleichbar mit PCI Expres 1.0 x16) weiterhin eine absolut gangbare Lösung ohne bemerkbaren Performance-Nachteil ist – selbst mit zwei Grafikkarten verlor man damit nur zwischen 0,3 und 2,6 Prozent gegenüber PCI Express 2.0 x16 (eine x16/x4-Anbindung kostete dagegen deutlich an Performance). Interessant ist der ganze Test natürlich nur eher nach unten hin, um zu sehen, wie stark besonders schwache PCI-Express-Anbindungen limitieren, wie sie bei externen Grafikkarten üblich sind. Dabei stellte sich heraus, daß PCI Express 2.0 x4 zwar etwas Performance kostet (je nach Grafikkarte zwischen 4 und 7 Prozent), aber zu allermeist die Performance selbst von echten HighEnd-Grafikkarten nicht wirklich einbremst.

Der durchschnittliche Performanceverlust bei PCI Express 2.0 x1 lag dann mit zwischen 20 und 33 Prozent auch noch in einem Rahmen, wo man eine gute Spielbarkeit vermuten würde – in der Praxis traf man aber auf stark schwankende Einzelergebnisse: Einige Spiele reagierten nur sehr unterdurchschnittlich, waren also auch mit PCI Epress 2.0 x1 noch sehr gut nutzbar, andere brachen absolut überdurchschnittlich auf einstellige Frameraten ein. Demzufolge ist es in der Frage der benötigten PCI-Express-Bandbreite wohl sinnvoll, nicht nur einen durchschnittlichen Frameratenverlust anzugeben, sondern auch den maximal gemessenen Frameratenverlust – dieser illustriert die Problematik einer nicht ausreichenden PCI-Express-Anbindung vielleicht sogar eher als der reine Durchschnittswert. In der nachfolgenden Tabelle ist demzufolge in Klammern das jeweils schlechteste Einzelergebnis notiert:

PCI Express 2.0 x1 PCI Express 2.0 x4 PCI Express 2.0 x8 PCI Express 2.0 x16
vergleichbar mit AGP x2
PCI Express 1.0 x2
AGP x8
PCI Express 1.0 x8
PCI Express 3.0 x1
PCI Express 1.0 x16
PCI Express 3.0 x4
PCI Express 3.0 x8
Radeon HD 6850 Ø 80,0%
(44%)
Ø 95,7%
(48%)
Ø 98,3%
(86%)
100%
Radeon HD 6970 Ø 73,8%
(48%)
Ø 95,5%
(84%)
Ø 98,9%
(94%)
100%
Radeon HD 6970 CrossFire - - Ø 99,7%
(98%)
100%
GeForce GTX 460 Ø 74,3%
(8%)
Ø 96,1%
(92%)
Ø 98,8%
(93%)
100%
GeForce GTX 570 Ø 66,9%
(46%)
Ø 93,0%
(86%)
Ø 98,0%
(95%)
100%
GeForce GTX 570 SLI - - Ø 97,4%
(90%)
100%

Danach läßt sich sagen, daß PCI Express 2.0 x1 trotz scheinbar verkraftbarer durchschnittlicher Performanceverluste dann aber unter Einzelfällen deutlich zu wenig Bandbreite für eine moderne Performance- oder HighEnd-Grafikkarte aufweist. Unter PCI Express 2.0 x4 halten sich die maximalen Performanceverluste unter Einzelfällen dagegen im Rahmen, allenfalls die Radeon HD 6850 fällt hierbei etwas ab. Der unter PCI Express 2.0 x4 schon größer werdende Unterschied zwischen durchschnittlichen und maximalen Performanceverlust deutet aber schon darauf hin, daß man sich besser nicht mit einer noch kleineren Anbindung zufrieden geben sollte. Insbesondere das kommende PCI Express 3.0 dürfte schließlich die Frage aufwerfen, ob PCI Express 3.0 x1 (mit einer Bandbreite wie PCI Express 2.0 x2) nicht eventuell ausreichend für externe Grafiklösungen sein könnte – beim durchschnittlichen Performanceverlust könnte das vielleicht sogar funktioneren, aber die Einzelwerte dürften dann doch dagegensprechen.

SemiAccurate zeigen eine AMD-Folie mit (bekannten) Informationen zur ersten Bulldozer-Generation "Orochi" sowie neuen Informationen zur zweiten Bulldozer-Generation "Trinity". Danach soll die integrierte Trinity-Grafik immerhin bis zu 50 Prozent mehr Rechenleistung aufbringen als die integrierte Llano-Grafik – ein unerwartet kräftiger Zuwachs innerhalb nur eines Jahres. Eigentlich hätten wir erwartet, daß es AMD in dieser Frage derzeit erst einmal eher ruhig angehen läßt, nachdem die Llano-Grafik so deutlich vor der Intel-Grafik liegt, gleichzeitig die dafür benötigte Chipfläche (laut AMD-Angaben ca. 80mm² nur für die Grafik; bei Sandy Bridge sind es nur ca. 45mm²) auch schon ziemlich hoch ist und Trinity wie bekannt weiterhin im selben 32nm-Fertigungsverfahren aufgelegt werden soll. Andererseits könnte AMD diesen Schub an Rechenleistung natürlich auch mit einer schlicht höheren Taktrate (Richtung 900 MHz für die integrierte Trinity-Grafik) herausholen, man muß diese Zielsetzung nicht zwingend über mehr Recheneinheiten umsetzen.

Daneben bedingt die höhere (theoretische) Rechenleistung natürlich auch eine größere Speicherbandbreite, um nicht nur um GPGPU-Bereich eine höhere Performance auch in der Praxis zu erzielen, sondern eben auch im Spiele-Bereich. Hierbei hat AMD weit weniger Möglichkeiten, da Bulldozer Trinity vermutlich weiterhin maximal DDR3/1866 unterstützen wird – und selbst eine Unterstützung von DDR3/2133 würde keine Bandbreitensteigerung von 50 Prozent (gegenüber DDR3/1600) ergeben. Somit kann man ziemlich sicher diese 50 Prozent mehr Rechenleistung nicht mit 50 Prozent mehr Spieleleistung bei Trinity gleichsetzen, ein Praxisresultat im Rahmen von 30 bis 40 Prozent ist eher wahrscheinlich. Daß die Trinity-Grafik schon der "Radeon HD 7000" Serie angehören soll, muß im übrigen nichts bezüglich der zugrundeliegenden Architektur sagen – Namen sind nun einmal Schall und Rauch bei den Herstellern, ganz besonders bei integrierten Produkten, die häufig durch "kreative" Namensgebung hochgejazzt werden.

BSN berichten über die Ankündigung der 20nm-Fertigung bei GlobalFoundries für die Jahre 2013 (20nm-LPM, Low-Power Manufacturing) und 2014 (20nm-SHP, Super High Performance). Damit wird die langfristige Strategie von GlobalFoundries als Auftragsfertiger klarer: Man will sowohl die Fullnodes (32nm, 22nm, 16nm) als auch die Halfnodes (28nm, 20nm, 14nm) anbieten – was durchaus nicht ohne ist, denn Prozeßvorbereitung ist eine kapitalintensive Angelegenheit und andere Halbleiterfertiger konzentrieren sich deswegen gern nur auf die eine (Intel, nur Fullnodes) oder andere Schiene (TSMC, nur Halfnodes). Andererseits braucht GlobalFoundries zumindest derzeit wohl beide Strategien, da Hauptauftraggeber AMD seine Prozessoren generell in den Fullnodes fertigen läßt und eine zukünftige Grafikchip-Fertigung bei GlobalFoundries sich mit dem Hauptkonkurrenten TSMC messen muß, welcher nun einmal generell in Halfnodes fertigt.

Neben dem Nachteil der höheren Investitionskosten (welche sich natürlich amortisieren, wenn das Fertigungsverfahren erfolgreich ist) gibt es allerdings auch Vorteile einer solchen Strategie: Mehr verfügbare Fertigungsverfahren ziehen auch mehr potentielle Kunden an, welche GlobalFoundries schließlich langfristig aquirieren will. Und zudem ergibt sich auch die Möglichkeit, den einen oder anderen langlaufenden Chip auch mal nach seinem Debüt in der einen Fertigung auch noch einige Zeit später im nächstkleineren Fertigungsverfahren neu aufzulegen und damit nochmals kostengünstiger zu fertigen. Für diverse AMD-Prozessoren scheint es ja schon solcherart Überlegungen zu geben: Erstfertigung in 32nm – und dann Neuauflage in 28nm zu geringeren Kosten und geringerer Leistungsaufnahme. All dies steht und fällt natürlich damit, daß GlobalFoundries seine Terminpläne bei der Entwicklung & Evaluierung neuer Fertigungsverfahren auch einhält – ein gewisser Rückstand gegenüber Intel ist kaum verhinderbar, aber zumindest gegenüber anderen Auftragsfertigern wie TSMC darf man nicht zurückliegen.

Endlich mal wieder einen neuen Test zur benötigten PCI-Express-Bandbreite von Grafikkarten gibt es bei der ComputerBase. Dieser bestätigt erst einmal, daß PCI Express 2.0 x8 (vergleichbar mit PCI Expres 1.0 x16) weiterhin eine absolut gangbare Lösung ohne bemerkbaren Performance-Nachteil ist - selbst mit zwei Grafikkarten verlor man damit nur zwischen 0,3 und 2,6 Prozent gegenüber PCI Express 2.0 x16 (eine x16/x4-Anbindung kostete dagegen deutlich an Performance). Interessant ist der ganze Test natürlich nur eher nach unten hin, um zu sehen, wie stark besonders schwache PCI-Express-Anbindungen limitieren, wie sie bei externen Grafikkarten üblich sind. Dabei stellte sich heraus, daß PCI Express 2.0 x4 zwar etwas Performance kostet (je nach Grafikkarte zwischen 4 und 7 Prozent), aber zu allermeist die Performance selbst von echten HighEnd-Grafikkarten nicht wirklich einbremst.

Der durchschnittliche Performanceverlust bei PCI Express 2.0 x1 lag dann mit zwischen 20 und 33 Prozent auch noch in einem Rahmen, wo man eine gute Spielbarkeit vermuten würde - in der Praxis traf man aber auf stark schwankende Einzelergebnisse: Einige Spiele reagierten nur sehr unterdurchschnittlich, waren also auch mit PCI Epress 2.0 x1 noch sehr gut nutzbar, andere brachen absolut überdurchschnittlich auf einstellige Frameraten ein. Demzufolge ist es in der Frage der benötigten PCI-Express-Bandbreite wohl sinnvoll, nicht nur einen durchschnittlichen Frameratenverlust anzugeben, sondern auch den maximal gemessenen Frameratenverlust - dieser illustriert die Problematik einer nicht ausreichenden PCI-Express-Anbindung vielleicht sogar eher als der reine Durchschnittswert. In der nachfolgenden Tabelle ist demzufolge in Klammern das jeweils schlechteste Einzelergebnis notiert:





PCI Express 2.0 x1
PCI Express 2.0 x4
PCI Express 2.0 x8
PCI Express 2.0 x16





vergleichbar mit
AGP x2
PCI Express 1.0 x2
AGP x8
PCI Express 1.0 x8
PCI Express 3.0 x1
PCI Express 1.0 x16
PCI Express 3.0 x4
PCI Express 3.0 x8



Radeon HD 6850
Ø 80,0%
(44%)
Ø 95,7%
(48%)
Ø 98,3%
(86%)
100%



Radeon HD 6970
Ø 73,8%
(48%)
Ø 95,5%
(84%)
Ø 98,9%
(94%)
100%



Radeon HD 6970 CrossFire
-
-
Ø 99,7%
(98%)
100%



GeForce GTX 460
Ø 74,3%
(8%)
Ø 96,1%
(92%)
Ø 98,8%
(93%)
100%



GeForce GTX 570
Ø 66,9%
(46%)
Ø 93,0%
(86%)
Ø 98,0%
(95%)
100%



GeForce GTX 570 SLI
-
-
Ø 97,4%
(90%)
100%





Danach läßt sich sagen, daß PCI Express 2.0 x1 trotz scheinbar verkraftbarer durchschnittlicher Performanceverluste dann aber unter Einzelfällen deutlich zu wenig Bandbreite für eine moderne Performance- oder HighEnd-Grafikkarte aufweist. Unter PCI Express 2.0 x4 halten sich die maximalen Performanceverluste unter Einzelfällen dagegen im Rahmen, allenfalls die Radeon HD 6850 fällt hierbei etwas ab. Der unter PCI Express 2.0 x4 schon größer werdende Unterschied zwischen durchschnittlichen und maximalen Performanceverlust deutet aber schon darauf hin, daß man sich besser nicht mit einer noch kleineren Anbindung zufrieden geben sollte. Insbesondere das kommende PCI Express 3.0 dürfte schließlich die Frage aufwerfen, ob PCI Express 3.0 x1 (mit einer Bandbreite wie PCI Express 2.0 x2) nicht eventuell ausreichend für externe Grafiklösungen sein könnte - beim durchschnittlichen Performanceverlust könnte das vielleicht sogar funktioneren, aber die Einzelwerte dürften dann doch dagegensprechen.

SemiAccurate zeigen eine AMD-Folie mit (bekannten) Informationen zur ersten Bulldozer-Generation "Orochi" sowie neuen Informationen zur zweiten Bulldozer-Generation "Trinity". Danach soll die integrierte Trinity-Grafik immerhin bis zu 50 Prozent mehr Rechenleistung aufbringen als die integrierte Llano-Grafik - ein unerwartet kräftiger Zuwachs innerhalb nur eines Jahres. Eigentlich hätten wir erwartet, daß es AMD in dieser Frage derzeit erst einmal eher ruhig angehen läßt, nachdem die Llano-Grafik so deutlich vor der Intel-Grafik liegt, gleichzeitig die dafür benötigte Chipfläche (laut AMD-Angaben ca. 80mm² nur für die Grafik; bei Sandy Bridge sind es nur ca. 45mm²) auch schon ziemlich hoch ist und Trinity wie bekannt weiterhin im selben 32nm-Fertigungsverfahren aufgelegt werden soll. Andererseits könnte AMD diesen Schub an Rechenleistung natürlich auch mit einer schlicht höheren Taktrate (Richtung 900 MHz für die integrierte Trinity-Grafik) herausholen, man muß diese Zielsetzung nicht zwingend über mehr Recheneinheiten umsetzen.


AMD-Folie zu Bulldozer Orochi und Bulldozer Trinity

Daneben bedingt die höhere (theoretische) Rechenleistung natürlich auch eine größere Speicherbandbreite, um nicht nur um GPGPU-Bereich eine höhere Performance auch in der Praxis zu erzielen, sondern eben auch im Spiele-Bereich. Hierbei hat AMD weit weniger Möglichkeiten, da Bulldozer Trinity vermutlich weiterhin maximal DDR3/1866 unterstützen wird - und selbst eine Unterstützung von DDR3/2133 würde keine Bandbreitensteigerung von 50 Prozent (gegenüber DDR3/1600) ergeben. Somit kann man ziemlich sicher diese 50 Prozent mehr Rechenleistung nicht mit 50 Prozent mehr Spieleleistung bei Trinity gleichsetzen, ein Praxisresultat im Rahmen von 30 bis 40 Prozent ist eher wahrscheinlich. Daß die Trinity-Grafik schon der "Radeon HD 7000" Serie angehören soll, muß im übrigen nichts bezüglich der zugrundeliegenden Architektur sagen - Namen sind nun einmal Schall und Rauch bei den Herstellern, ganz besonders bei integrierten Produkten, die häufig durch "kreative" Namensgebung hochgejazzt werden.

BSN berichten über die Ankündigung der 20nm-Fertigung bei GlobalFoundries für die Jahre 2013 (20nm-LPM, Low-Power Manufacturing) und 2014 (20nm-SHP, Super High Performance). Damit wird die langfristige Strategie von GlobalFoundries als Auftragsfertiger klarer: Man will sowohl die Fullnodes (32nm, 22nm, 16nm) als auch die Halfnodes (28nm, 20nm, 14nm) anbieten - was durchaus nicht ohne ist, denn Prozeßvorbereitung ist eine kapitalintensive Angelegenheit und andere Halbleiterfertiger konzentrieren sich deswegen gern nur auf die eine (Intel, nur Fullnodes) oder andere Schiene (TSMC, nur Halfnodes). Andererseits braucht GlobalFoundries zumindest derzeit wohl beide Strategien, da Hauptauftraggeber AMD seine Prozessoren generell in den Fullnodes fertigen läßt und eine zukünftige Grafikchip-Fertigung bei GlobalFoundries sich mit dem Hauptkonkurrenten TSMC messen muß, welcher nun einmal generell in Halfnodes fertigt.

Neben dem Nachteil der höheren Investitionskosten (welche sich natürlich amortisieren, wenn das Fertigungsverfahren erfolgreich ist) gibt es allerdings auch Vorteile einer solchen Strategie: Mehr verfügbare Fertigungsverfahren ziehen auch mehr potentielle Kunden an, welche GlobalFoundries schließlich langfristig aquirieren will. Und zudem ergibt sich auch die Möglichkeit, den einen oder anderen langlaufenden Chip auch mal nach seinem Debüt in der einen Fertigung auch noch einige Zeit später im nächstkleineren Fertigungsverfahren neu aufzulegen und damit nochmals kostengünstiger zu fertigen. Für diverse AMD-Prozessoren scheint es ja schon solcherart Überlegungen zu geben: Erstfertigung in 32nm - und dann Neuauflage in 28nm zu geringeren Kosten und geringerer Leistungsaufnahme. All dies steht und fällt natürlich damit, daß GlobalFoundries seine Terminpläne bei der Entwicklung & Evaluierung neuer Fertigungsverfahren auch einhält - ein gewisser Rückstand gegenüber Intel ist kaum verhinderbar, aber zumindest gegenüber anderen Auftragsfertigern wie TSMC darf man nicht zurückliegen.