Launch-Analyse: AMD Kaveri

Donnerstag, 16. Januar 2014
 / von Leonidas
 

Mit der Kaveri-Architektur schickt AMD ab diesem Januar die nunmehr dritte APU-Architektur für Mainstream-Prozessoren nach Llano und Trinity & Richland (technisch dasselbe) in den Markt. Wiederum gilt AMDs Zielsetzung hierbei dem Mainstream-Markt, welcher sich größtenteils aus OEM-Aufträgen für Komplett-PCs und Notebooks des normalen Preisbereichs speist. Die Bedingungen hierfür lauten demzufolge nicht größtmögliche Performance auf der CPU-Seite, sondern ein guter Performance-Mix von CPU und iGPU, gepaart mit guten Verbrauchswerten – und natürlich ein schlagkräftiger Preis in diesem äußerst preissensitivem Markt.

Bei den letzten zwei bzw. drei Versuchen ist AMD ein Markterfolg jeweils nur teilweise gelungen: Obwohl technisch schon immer gut und ab Trinity auch teilweise Intels Angeboten überlegen, stellte sich nie der große Durchbruch für AMDs APU-Ansatz her. Dies liegt sicherlich auch daran, daß Intel bei den meisten Geräteherstellern einfach viel fester im Sattel sitzt als AMD, zum Teil aber auch an kleinen Fehlern AMDs, welche das ansonsten runde Gesamtbild der AMD-APUs etwas eingetrübt haben. Vor allem die gegenüber den vergleichbaren CPUs von Intel viel höhere Leistungsaufnahme wäre hierbei zu nennen – zum anderen aber auch gewisse Einschränkungen bei der reinen CPU-Performance. Ob AMD dies mit Kaveri nunmehr besser machen kann, soll mit nachfolgender Auswertung der zum Launch aufgestellten Testartikel ermittelt werden.

Als Ansatzpunkte für positive Verbesserungen hat AMDs Kaveri-Architektur drei große Punkte aufzubieten: Erstens die Verbesserung der CPU-Architektur durch den Wechsel von den Piledriver- zu den Steamroller-Rechenkernen der Bulldozer-Architektur. Zweitens der komplette Ersatz der integrierten Grafiklösung durch den Wechsel von der VLIW4-Architektur zur GCN-Architektur, womit dann auch die Nebenpunkte HSA und Mantle ermöglicht werden. Und drittens der Wechsel von der 32nm-SOI-Fertigung auf die 28nm-Bulk-Fertigung von GlobalFoundries.

Llano Trinity Richland Kaveri
Fertigung 32nm SOI GlobalFoundries 32nm SOI GlobalFoundries 32nm SOI GlobalFoundries 28nm Bulk GlobalFoundries
Die-Daten 1,45 Mrd. Transistoren auf 228mm² Die-Fläche 1,3 Mrd. Transistoren auf 246mm² Die-Fläche 2,41 Mrd. Transistoren auf 245mm² Die-Fläche
CPU-Unterbau 4 Husky-Rechenkerne der K10.5-Architektur 4 Piledriver-Rechenkerne der Bulldozer-Architektur 4 Steamroller-Rechenkerne der Bulldozer-Architektur
CPU-Takt maximal 3.0 GHz maximal 4.2 GHz (unter TurboCore) maximal 4.4 GHz (unter TurboCore) maximal 3.7 GHz (unter TurboCore)
Grafikeinheit 400 VLIW5 Shader-Einheiten (20 TMUs, 8 ROPs) mit maximal 600 MHz Takt 384 VLIW4 Shader-Einheiten (24 TMUs, 8 ROPs) mit maximal 800 MHz TurboCore-Takt 384 VLIW4 Shader-Einheiten (24 TMUs, 8 ROPs) mit maximal 844 MHz TurboCore-Takt 512 (1D) Shader-Einheiten (32 TMUs, 8 ROPs) mit maximal 720 MHz TurboCore-Takt
Speicherinterface 128 Bit DDR3, maximal DDR3/1866 128 Bit DDR3, maximal DDR3/1866 128 Bit DDR3, maximal DDR3/2133 128 Bit DDR3, maximal DDR3/2133
Featureset SSE4a, DirectX 11.0 SSE4a, AVX 1.1, FMA3/4, DirectX 11.0 SSE4a, AVX 1.1, FMA3/4, GCN 1.1, DirectX 11.2b, HSA, Mantle, TrueAudio
Sockel FM1 FM2 FM2 FM2+
Launch 14. Juni 2011 Mobile: 15. Mai 2012
Desktop: 2. Oktober 2012
Mobile: 12. März 2013
Desktop: 5. Juni 2013
Desktop: 14. Januar 2014

Der Wechsel zu einem neuen Fertigungsverfahren erbringt sogar den augenscheinlichsten Fortschritt, denn AMD ist es gelungen, die von 1,3 Mrd. Transistoren bei Trinity & Richland auf 2,41 Mrd. Transistoren bei Kaveri enorm gesteigerte Tranistoren-Menge auf der nahezu selben Die-Fläche (246mm² zu 245mm² bei Kaveri) unterzubringen. Die Transistorendichte stieg somit um satte 85% – für einen "Halfnode"-Sprung von 32nm auf 28nm ungewöhnlich viel und primär dadurch zu erklären, daß GlobalFoundries die 28nm-Fertigung speziell auf die Bedürfnisse von Grafikchips optimiert hat, um die vielen Transistoren der Kaveri-iGPU möglichst platzsparend unterzubekommen. Zu erwähnen wäre noch, daß GlobalFoundries das ganze offiziell "28nm SHP" nennt, wobei "SHP" nur "Super High Performance" bedeutet und keinerlei technische Abkürzung darstellt.

Hier ergibt sich im übrigen durchaus die Chance, daß GlobalFoundries in Zukunft auch andere AMD-Prozessoren mit iGPU oder gar AMD-Grafikchips unter 28nm herstellt – oder zumindest die jetzt gemachten Erfahrungen mitnimmt, um dann später unter 20nm verstärkt anzugreifen und Grafikchip-Auftragsfertiger TSMC eventuell einige Aufträge abzunehmen. Gleichzeitig bedeutet diese Entwicklung bei GlobalFoundries aber auch, daß deren 28nm-Fertigung nun eher suboptimal für große HighEnd-Prozessoren im FX- und Opteron-Bereich ist, womit jene auch weiterhin in 32nm hergestellt werden. Somit machen wirklich neue FX- und Opteron-Prozessoren für AMD erst dann Sinn, wenn GlobalFoundries endlich die 20nm-Fertigung (für große Chips, nicht für ARM-Kleinchips) bieten kann, weil sich erst dann ein ernsthafter Vorteil gegenüber 32nm & 28nm ergibt.

In der Frage der CPU-Architektur setzt AMD bei Kaveri erstmals die zweite Bulldozer-Ausbaustufe "Streamroller" ein, welche neben einigen eher kleinen Verbesserungen den markanten Punkt der zwei Integer-Dekoder pro Steamroller-Modul (mit zwei Rechenkernen) mitbringt. Faktisch verfügt damit jeder Rechenkern wieder über seinen eigenen Integer-Dekoder – bei Fließkomma-Operationen bleibt es allerdings beim geteilten Dekoder pro Modul. Diese Änderung sollte die Auslastung der Integer-Einheiten deutlich steigern können, in einigen theoretischen Testern wird dies durch enorme Performancesprünge auch sehr gut sichtbar. Über die gesamte Bandbreite an RealWorld-Benchmarks betrachtet sind die Auswirkungen dieser Veränderung wie auch der anderen kleinen Verbesserungen der Steamroller-Architektur jedoch bei weitem nicht so groß und liegen unterhalb von 10% Pro-MHz-Performancegewinn.

Als durchaus behindernd für die CPU-Performance von Kaveri kommen die etwas niedrigeren Taktraten hinzu, welche sich laut AMD durch die hohe Transistorenmenge unter der neuen 28nm-Fertigung ergeben: Richland taktet bis zu 4.4 GHz (unter TurboCore), Kaveri dagegen nur bis maximal 4.0 GHz (unter TurboCore). Hier verliert AMD nahezu alle Vorteile der höheren Pro-MHz-Performance von Kaveri gleich wieder, womit im Endeffekt von Kaveri kaum eine bessere CPU-Performance gegenüber Richland zu erwarten ist. Einzig und allein unter Spielen könnten die Verbesserungen der CPU-Architektur vielleicht stärker durchschlagen als unter Anwendungs-Benchmarks (da Spiele mit ihrem sehr gemischten Code die höchsten Anforderungen an die Flexibilität einer CPU stellen und die Änderungen von Steamroller genau in diese Richtung gehen) – dies wäre dann separat zu überprüfen.

Die größte Architektur-Änderung von Kaveri liegt zweifelos in der integrierten Grafik, welche von den bisherigen VLIW5- (Llano) und VLIW4-Ansätzen (Trinity & Richland) weggeht hin zu einer modernen GCN-basierten Grafik-Architektur. Deren Feature-Niveau liegt im übrigen auf Sea-Islands-Level (wie beim Bonaire-Chip von Radeon HD 7790 & R7 260/X), beinhaltet also schon die volle Hardware-Unterstützung für DirectX 11.2 "Tier 2". Damit ergibt sich auch die Unterstützung von AMDs Mantle-API sowie von AMDs TrueAudio-Technologie.

Bezüglich der GPU-Recheneinheiten ging AMD weiter voran und bietet nun sogar gleich 512 Shader-Einheiten – zum Vergleich, die frühere Mainstream-Grafikkarte Radeon HD 7750 hat nur genauso viel zu bieten. Auch gegenüber den bisherigen APUs von AMD ist dies ein großer Schritt nach vorn, Trinity & Richland mussten jeweils mit 384 Shader-Einheiten (auf VLIW4-Basis) auskommen. Bei den iGPU-Taktraten gibt es allerdings einen deutlichen Rückschritt: Denn während Richlands iGPU noch mit maximal 844 MHz antrat, sind es bei Kaveri nunmehr nur maximal 720 MHz. Dies zieht den Rohleistungs-Vergleich deutlich nach unten, nominell verfügt Kaveri nur über 13,7% mehr iGPU-Rechenleistung.

In einem solchen Rohleistungsvergleich lassen sich natürlich keinerlei Achitektur-Verbesserungen abbilden – und hier dürfte bei Kaveri durch die GCN-basierte Grafiklösung der Hauptgewinn liegen. Die Kaveri-iGPU sollte einfach viel effizienter mit ihrer Rohleistung umgehen können als die Richland-iGPU und daher selbst bei ähnlicher Rechenleistung mehr fps auf den Monitor bringen. Limitiert könnte das ganze allein von der Speicheranbindung werden, denn jene hat sich gegenüber Richland nicht weiterentwickelt: Es wird weiterhin ein (mit dem CPU-Part geshartes) DualChannel 64 Bit DDR Speicherinterface geboten, auf dem auch weiterhin offiziell maximal DDR3/2133 eingesetzt werden darf. Natürlich dürften alle Retail-Mainboards für Kaveri höhere Speichertaktungen unterstützen – aber bei OEM-Systemen muß man damit rechnen, daß auf jenen maximal DDR/2133 und eher sogar noch niedrigere Speichertaktungen zum Einsatz kommen werden.

Als gewisser Ausgleich mag das HSA-Feature gelten, welches bei Kaveri den gleichzeitigen Zugriff von CPU und iGPU auf denselben Speicherbereich ermöglicht und dadurch einige Speicheroperationen einsparen kann – extrem nutzvoll bei Systemen mit schwacher Speicherbandbreite wie eben diesen APUs. Allerdings steht HSA – welches primär zur Nutzung der iGPU auch für CPU-Aufgaben gedacht ist – noch ganz am Anfang seiner Entwicklung und gibt es derzeit kaum Software, welche hiervon wirklich profitiert. Dies dürfte sich aufgrund der Langsamkeit der Software-Entwicklung bei grundsätzlichen Dingen wie HSA auch nicht so schnell ändern. HSA ist, auch wenn von AMD deutlich in den Vordergrund gestellt, derzeit eher als klares Zukunftsfeature zu betrachten, welches zur Lebenszeit von Kaveri dieser APU wohl kaum etwas einbringen wird.