Launch-Analyse: AMD Bulldozer

Mittwoch, 12. Oktober 2011
 / von Leonidas
 

Fast drei Jahre nach der offiziellen Ankündigung bringt AMD heute mit Bulldozer eine regelrecht neue Prozessoren-Architektur für Performance- und HighEnd-Ansprüche in den Markt, welche die inzwischen altgediente K10.5-Architektur der Athlon-II- und Phenom-II-Prozessoren komplett ablösen und den Grundstein für die Mainstream-, Performance- und HighEnd-Prozessoren von AMD für die nächsten Jahre legen soll. Mittels Bulldozer bricht AMD deutlich mit dem Prinzip der K10.5-Prozessoren, deren Architektur sich über die nahe verwandeten K10-, K8- und K7-Modelle sogar bis ins Jahr 1999 zurückverfolgen läßt, und bringt erstmals seit über einer ganzen Dekade etwas grundsätzlich neues in diesem Marktsegment.

Die Marktsituation von AMD ist dabei ironischerweise gar nicht so viel anders wie beim seinerzeitigen Launch der K7-Architektur anno 1999: AMD war damals (mit den K6-Prozessoren) und ist heute (mit den Athlon-II- und Phenom-II-Prozessoren) deutlich zurückliegend gegenüber Intel, muß also mit der neuen Architektur einen deutlichen Schub bringen, um wieder mithalten zu können. Da so grundlegend neue Prozessoren-Architekturen nun auch nicht aller zwei Jahre vorgestellt werden, sondern – wie in diesem Fall zu sehen – durchaus auch einmal satte 12 Jahre benötigen, muß dieser Versuch zudem auch wenigstens grundsätzlich erfolgreich sein. Beim K7 (Athlon & Athlon XP) hatte AMD dies seinerzeit mit Bravour geschafft, bei Bulldozer wird man sehen müssen.

Das Grundprinzip der Bulldozer-Architektur stellen dabei die Rechenkerne in Modul-Bauweise dar, welche deutlich von allem abweichen, was AMD und Intel bisher fabriziert haben. Dabei fasst AMD zwei Rechenkerne zu einem Bulldozer-Modul zusammen und bietet gewisse Ausführungseinheiten (Fließkomma-Einheit) und gewisse Pipeline-Schritte (Fetch-Einheit, Dekoder, Level1- und Level2-Caches) nur noch einfach an, shart diese Einheiten also zwischen den zwei Rechenkernen eines Bulldozer-Moduls.

Vom Betriebssystem werden dann natürlich zwei physikalische Rechenkerne pro Bulldozer-Modul erkannt, da die hierfür maßgeblich relevanten Integer-Recheneinheiten weiterhin doppelt vorliegen. Trotzdem ist das ganze ein gewisses Spardesign, da sich auf gleichem Takt (und gleicher Anzahl an Ausführungseinheiten) ein Bulldozer-Modul nicht mit einem regulär aufgebautem Zweikerner messen kann. AMD führt hiergegen als Argument ins Feld, daß der zweite Rechenkern im Bulldozer-Modul gerade einmal 12 Prozent mehr an Transistoren und 20 Prozent mehr an Chipfläche kostet, dafür aber gute 80 Prozent mehr Performance (unter auf Multithreading ausgelegten Anwendungen) einbringt.

Allerdings hat AMD auch innerhalb der Rechenkerne abgespeckt: Die durchaus mächtige Fließkomma-Einheit liegt wie gesagt nur einfach pro zwei Rechenkerne (pro einem Bulldozer-Modul) vor, die Integer-Einheit wurde gegenüber den bisherigen K7/K8/K10/K10.5-Designs um eine ALU-Einheit erleichtert, es werden damit maximal zwei Ops pro Takt und Kern erreicht. Damit liegt Bulldozer dann nicht nur gegenüber dem AMD-eigenem Vorgänger in Form der K10.5-basierten Prozessoren zurück, sondern auch gegenüber allen modernen Intel-Designs, wo es immer drei Integer-Einheiten pro Rechenkern gibt (maximal drei Ops pro Takt und Kern).

Jetzt ist natürlich fraglich, ob die dritte Integer-Einheit wirklich benötigt wird, wenn man davon ausgehen kann, daß heutige Prozessoren in der Praxis nur eine Auslastung von einer Ops pro Takt und Kern erreichen – effektiv ist die dritte Einheit angesichts dieser Ausgangslage augenscheinlich nicht. Aber: Wenn man eine hohe Pro/MHz-Performance anstrebt, dann sind auch solch eigentlich uneffektiven Einheiten wichtig, damit überall im Design noch das eine oder andere Prozent an mehr Rechenleistung pro Takt und Kern herausgeholt wird. Bulldozer bietet dagegen auch in dieser Frage ein ziemliches Spardesign: Sowohl die Anzahl der Ausführungseinheiten pro Rechenkern ist niedriger, der Level1-Cache kleiner und auch die Latenzen & Bandbreite der Level1- sowie Level2-Caches weniger gut als bei früheren AMD-Designs und als bei Intel.

(alles pro Kern) AMD K10.5 AMD Bulldozer Intel Sandy Bridge
Pipeline-Länge 17 Stufen deutlich mehr als 17 Stufen weniger als 16 Stufen
Dekoderkapazität bis zu 3 Ops
(drei komplexe)
für zwei Kerne: bis zu 4 Ops
(vier komplexe)
bis zu 4 Ops
(eine komplexe und drei einfache)
Integer-Einheiten 3x ALU, 2x L/S 2x ALU, 2x L/S 3x ALU, 2x L/S
Fließkomma-Einheiten 2+1 (ADD, MUL, MISC), max. 128 Bit Befehlsbreite für zwei Kerne: 2xFMA, max. 256 Bit Befehlsbreite 2+1 (ADD, MUL, MISC), max. 256 Bit Befehlsbreite
Level1 Befehls-Cache 64 kB, 2fach assoziativ, 256 Bit Bandbreite für zwei Kerne: 64 kB, 2fach assoziativ 32 kB, 8fach assoziativ
Level1 Daten-Cache 64 kB, 2fach assoziativ, 256 Bit Bandbreite 16 kB, 4fach assoziativ 32 kB, 8fach assoziativ
Level2-Cache 512 kB, 16fach assoziativ, 256 Bit Bandbreite für zwei Kerne: 2 MB, 16fach assoziativ 256 kB, 8fach assoziativ
Level3-Cache für vier/sechs Kerne: 6 MB, 48fach assoziativ für acht Kerne: 8 MB, 64fach assoziativ für vier Kerne: 6 MB, 12fach assoziativ
Fertigung Vierkerner: 0,758 Milliarden Transistoren auf 258mm² Die-Fläche in 45nm bei GlobalFoundries
Sechskerner: 0,904 Milliarden Transistoren auf 346mm² Die-Fläche in 45nm bei GlobalFoundries
Achtkerner: 1,2 Milliarden Transistoren auf 315mm² Die-Fläche in 32nm bei GlobalFoundries Vierkerner: 1,16 Milliarden Transistoren auf 216mm² Die-Fläche in 32nm bei Intel

Damit – und mit der auf deutlich über 17 Stufen verlängerten Pipeline (eine genaue Angabe bleibt AMD leider schuldig) – wird klar, in welche Richtung AMDs Bulldozer-Architektur ursächlich geht: Deutlich mehr Taktrate statt deutlich mehr Pro/MHz-Leistung. Dies ist etwas entgegen der vorherigen Erwartungen, welche aufgrund des hohen Rückstands der bisherigen AMD-Prozessoren in der Frage der Pro/MHz-Leistung deutliche Verbesserungen an genau dieser Stelle erwartet haben – aber nun gut, dies ist die Entscheidung von AMD.

Problematisch mt einem solchen Weg wird es aber immer, wenn man bei einem auf hohe Taktraten ausgelegtem Design dann nicht wirklich auf Taktrate kommt. Ausgehend von AMDs K10.5-Vierkerner und deren ca. 20 bis 30prozentigem Rückstand zu Intels Sandy Bridge bei der Pro/MHz-Leistung müsste AMD mit Bulldozer (bei angenommen gleicher Pro/MHz-Leistung wie beim K10.5, was angesichts der technischen Vorzeichen schwer erreichbar erscheint) dann mit ca. 30 Prozent mehr Takt gegenüber Sandy Bridge daherkommen, um diese Intel-Prozessoren zu erreichen. Dies wären immerhin ca. 4.5 GHz Takt (noch ohne jede Turbo-Modi), welchen Bulldozer derzeit allerdings nur im Übertaktungsbetrieb erreicht.

Takt Technik Preis
FX-8150 3.6 GHz
(TurboCore: 3.9/4.2 GHz)
8 Kerne (4 Module), 8 MB Level2-Cache, 8 MB Level3-Cache, 2200 MHz Northbridge-Takt, DDR3/1866, 125 Watt TDP 245$
ab 229 Euro
FX-8120 3.1 GHz
(TurboCore: 3.4/4.0 GHz)
8 Kerne (4 Module), 8 MB Level2-Cache, 8 MB Level3-Cache, 2200 MHz Northbridge-Takt, DDR3/1866, 95 und 125 Watt TDP 205$
ab 190 Euro
FX-8100 2.8 GHz
(TurboCore: 3.1/3.7 GHz)
8 Kerne (4 Module), 8 MB Level2-Cache, 8 MB Level3-Cache, 2000 MHz Northbridge-Takt, DDR3/1866, 95 Watt TDP ?
(Release später)
FX-6100 3.3 GHz
(TurboCore: 3.6/3.9 GHz)
6 Kerne (3 Module), 6 MB Level2-Cache, 8 MB Level3-Cache, 2000 MHz Northbridge-Takt, DDR3/1866, 95 Watt TDP 165$
ab 162 Euro
FX-4170 4.2 GHz
(TurboCore: 4.2/4.3 GHz)
4 Kerne (2 Module), 4 MB Level2-Cache, 8 MB Level3-Cache, 2200 MHz Northbridge-Takt, DDR3/1866, 125 Watt TDP ?
(Release später)
FX-B4150 3.8 GHz
(TurboCore: 3.9/4.0 GHz)
4 Kerne (2 Module), 4 MB Level2-Cache, 8 MB Level3-Cache, 2200 MHz Northbridge-Takt, DDR3/1866, 95 Watt TDP ?
(Release später)
FX-4100 3.6 GHz
(TurboCore: 3.7/3.8 GHz)
4 Kerne (2 Module), 4 MB Level2-Cache, 8 MB Level3-Cache, 2000 MHz Northbridge-Takt, DDR3/1866, 95 Watt TDP 115$
ab 114 Euro
Der erste TurboCore-Takt gibt den maximalen Takt unter Belastung aller Rechenkerne an, der zweite TurboCore-Takt den maximalen Takt unter Belastung der Hälfte der Rechenkerne.

Bulldozer hat nun in der Realität der heutigen Benchmarks das Problem, daß nicht nur die benötigte Taktrate fehlt, sondern auch noch die Leistung pro Takt und Kern niedriger als beim Phenom II liegt – und zwar so viel niedriger, daß ein Achtkern-Bulldozer größtenteils seine doppelte Kernanzahl nur dafür benötigt, um überhaupt die Performance einer Vierkern-CPU der Phenom-II-Reihe zu erreichen. Würden wir heute Tests von Vierkern-Bulldozer-Prozessoren vorliegen haben, würde dieser Punkt noch augenscheinlicher werden – derzeit kann man dies nur aus den bisherigen Ergebnissen von Achtkern-Bulldozer-Prozessoren interpolieren.

CB: Applikationen HT4U: Applikationen CB: Spiele (LowQuality) HT4U: Spiele (LowQuality)
AMD FX-8150
8 Kerne, 3.6 GHz + TC
100% 100% 100% 100%
AMD Phenom II X4 975
4 Kerne, 3.6 GHz
73% 81% 98% 101%
AMD Phenom II X6 1100T
6 Kerne, 3.3 GHz + TC
85% 90% 99% 102%
Intel Core i5-2300
4 Kerne, 2.8 GHz + TM
  96%   127%
Intel Core i5-2400
4 Kerne, 3.1 GHz + TM
98%   132%  
Intel Core i5-2500K
4 Kerne, 3.3 GHz + TM
105% 111% 139% 144%
Intel Core i7-2600K
4 Kerne + HT, 3.4 GHz + TM
115% 124% 144% 148%

Bulldozer hat gemäß dieser doch recht eindeutigen Benchmarks (welche sich durch viele andere der heutigen Testberichte bestätigen lassen) seinen klaren Stärken in der Anwendungs-Performance, wo ein FX-8150 gegenüber einem Core i5-2500K nur um 5 bis 10 Prozent zurückliegt. Je stärker sich dabei der Fokus auf Multimedia-Anwendungen verschiebt (welche üblicherweise über eine gute Multithreading-Unterstützung verfügen), um so besser kommt der FX-8150 weg – im Idealfall kann für ein reines Arbeitssystem mit starkem Einsatz von für Bulldozer passender Software der FX-8150 sogar die bessere Wahl gegenüber einem Core i7-2600K sein, welcher in der durchschnittlichen Anwendungsperformance ansonsten schon ganz gut mit 15 bis 25 Prozent vor dem FX-8150 rangiert.

Bei der Rohperformance unter Spielen (sprich unter LowQuality) sieht es dagegen desaströs aus für Bulldozer: Auf gleichem Takt ist ein vierkerniger Phenom II genauso schnell – genauso wie ein sechskerniger Phenom II mit etwas weniger Takt. Dabei hat der FX-8150 gerade im Vergleich mit dem Phenom II X4 975 auf 3.6 GHz Nominaltakt immerhin noch sein TurboCore-Feature. Nicht auszudenken, was hier herauskommt, wenn man einen Bulldozer-Vierkerner ohne TurboCore auf gleichem Nominaltakt gegen einen Phenom II X4 stellen würde – vermutlich würde Bulldozer in diesem Vergleich der reinen Rechenleistung pro Takt und Kern um 10 bis 20 Prozent hinter die alte K10.5-Architektur zurückfallen.

Sicherlich muß zu diesen LowQuality-Spielebenchmarks einschränkenderweise dazugesagt werden, daß unter Gamer-üblichen Settings mit hohen Auflösung und dem gleichzeitigem Einsatz von Anti-Aliasing die Benchmark-Resultate üblicherweise Grafikkarten-limitiert sind und dann zwischen Bulldozer und Sandy Bridge kein Unterschied mehr existiert. Die Rohperformance unter Spielen ist aber dennoch eine interessante Größe: Sie zeigt erstens an, was herauskommt, wenn kaum gut optimierbarer und oftmals auf nur wenige Rechenkerne ausgelegter Programmcode ausgeführt wird. Und zweitens haben diese Benchmark-Resultate natürlich auch eine praktische Bedeutung für CPU-limitierte Spiele und für Spiele mit einem gewissen Anteil an CPU-Limitierung.

In vielen Spielen ist es schließlich so, daß eine gewisse CPU-Leistungsklasse benötigt wurd, um gerade HighEnd-Grafikkarten bestmöglich ausfahren zu können – dafür eignet sich Bulldozer nun genauso wie die bisherigen AMD-Prozessoren überhaupt nicht. Mit einer Mainstream- oder Performance-Grafikkarte wird Bulldozer wohl keinen Unterschied ausmachen, aber wenn es um die perfekte CPU-Spieleunterstützung für eine HighEnd-Grafikkarte geht, kommen weiterhin nur Prozessoren von Intel in Frage.

Dies wirft Bulldozer für die Masse der Anwender – deren Leistungsbedarf nun einmal vorwiegend im Spielebereich zu suchen ist – maßgeblich zurück, viel mehr als Mainstream-Niveau ist für Bulldozer nicht drin. Damit wird auch die im HighEnd-Bereich eher verschmerzbar klar höhere Leistungsaufnahme von Bulldozer ein größeres Problem: Im Mainstream-Bereich benutzt man ungern CPUs, die ihre TDP von 125 Watt auch wirklich ausreizen (und anscheinend sogar noch ein Quentchen mehr verbrauchen als spezifiziert) – vor allem dann, wenn die Konkurrenz ihre TDP von 95 Watt klar unterbietet und reale Vorteile von zwischen 75 und 85 Watt (!) bei der Leistungsaufnahme des kompletten Systems unter Volllast offeriert (75 bis 85 Watt zwischen Systemen mit Core i5-2500K und FX-8150, bei kleineren Modellen wird diese Differenz geringer sein).

Selbst mit Übertaktung kann AMD letztlich nichts ändern bzw. geht diese Rechnung eher ins Gegenteil auf: Zwar sind die Bulldozer-Modelle durchgehend ungelockt, während bei Intel hierfür im passenden Preisbereich nur der Core i5-2500K zur Verfügung steht. Dafür ist der relative Übertaktungsgewinn bei Intel sogar etwas besser als bei AMD, selbst wenn Bulldozer die nominell höheren Taktraten (nahe 5 GHz) erreicht. Ein gewisser Vorteil ergibt sich zugunsten von Bulldozer nur bei den kleineren Modellen, wo Bulldozer seine durchgehende Übertaktungsfähigkeit hat und Intel im selben Preisbereich keine K-Modelle offeriert. Dies ist aber die einzige Schiene, wo AMD mit Bulldozer heute einen klaren Vorteil bietet.