Launch-Analyse: AMD Radeon HD 7970

Donnerstag, 22. Dezember 2011
 / von Leonidas
 

Nach langer Zeit des Wartens bringt AMD heute kurz vor Jahresschluß 2011 mit der Radeon HD 7970 auf Basis des R1000/Tahiti-Chips noch die erste Grafikkarte der 28nm-Generation heraus, welche gleichzeitig auch die erste Grafikkarte nach DirectX 11.1, die erste Steckkarte nach PCI Express 3.0 sowie die erste Grafikkarte nach AMDs neuer "Graphics Core Next" Grafikchip-Architektur darstellt. Was AMD mit dieser neuen Architektur bzw. der Radeon HD 7970 Grafikkarte an Änderungen zu bieten hat und wo sich die Radeon HD 7970 bei der Spiele-Performance gegenüber den gestandenen 40nm-basierten Grafikkarten einordnet, werden wir nachfolgend Schritt für Schritt ausbreiten.

Auf die neue 28nm-Chipfertigung im Grafikchip-Bereich wurde nun wirklich sehnsüchtig gewartet, da sich das Performancepotential der 40nm-Lösungen doch erschöpft hatte und es in den letzten Monaten demzufolge kaum noch Innovationen im Grafikkarten-Bereich gegeben hatte. Die 28nm-Fertigung ermöglicht nun erstmals wieder einen größeren Leistungssprung – wenngleich dieser in der Praxis doch geringer ist als mancher Optimist gern hätte. Zwar haben AMD und nVidia mit ihren früheren Grafikchips immer wieder eine Performanceverdopplung zwischen zwei vollen Fertigungsschritten (wie derzeit zwischen 40nm und 28nm) erzielen können, dies ging jedoch in den letzten Jahren eindeutig auch immer mit einer Erhöhung der Verlustleistung einher.

Bereinigt um den Faktor der Verlustleistung war durch einen vollen Fertigungsschritt dagegen niemals eine Performanceverdopplung möglich. Auch zwischen der 40nm- und der 28nm-Fertigung liegt nur eine Platzersparnis, welche für ca. 70% bis 80% mehr Transistoren genutzt werden kann. Wollte man zwischen 40nm und 28nm eine Performanceverdopplung anpeilen, müßte man mit höheren Taktraten oder/und mehr Die-Fläche antreten – was dann wiederum die Verlustleistung nach oben ziehen würde. Problematischerweise ist dies beim heutigen Stand der Grafikchips kaum noch möglich, die HighEnd-Lösungen verbrauchen allesamt schon 200 Watt und mehr unter Spielen – hier sind kaum noch Spielräume für weitere Steigerungen der Verlustleistung vorhanden.

Damit wird die Grafikchip-Evolution ganz automatisch etwas ausgebremst: Man kann beim Wechsel der Fertigungstechnologie eben nur noch den Vorteil der größeren Transistorenmenge auf der gleichen Die-Fläche mitnehmen – welche aber allein niemals für eine Performanceverdopplung sorgen kann. Zwischen der 40nm- und der 28nm-Fertigung sind es wie gesagt runde 70% bis 80% mehr Transistoren bei gleicher Die-Fläche – und selbst die sorgen natürlich nicht automatisch für eine Mehrperformance von 70% bis 80%. Man sollte jedenfalls von der 28nm-Fertigung keineswegs eine sofortige Performanceverdopplung erwarten, gerade mit der ersten 28nm-Generation wird der Performancegewinn weit niedriger im Rahmen von rund 50% Mehrperformance liegen. Der Rest der ohne weitere Steigerungen der Verlustleistung maximal möglichen rund 80% Mehrperformance wird dann den 28nm-Refreshlösungen vorbehalten bleben.

Die lange Vorrede hilft bei der grundsätzlichen Einordnung des R1000/Tahiti-Chips: AMD setzt bei diesem 4,3 Milliarden Transistoren an und verbraucht damit nur 365mm² Die-Fläche, dies sind 63 Prozent mehr Transistoren auf einer um 6 Prozent kleineren Chip-Fläche gegenüber dem RV970/Cayman-Chip der Radeon HD 6900 Serie. AMD geht damit weiterhin nicht den Weg der besonders großen HighEnd-Chips – vielmehr ist der R1000/Tahiti nur genauso groß wie nVidias letzte Performance-Chips GF104 (365mm²) und GF114 (358mm²). Da AMD in den R1000/Tahiti-Chip zudem auch noch die stark auf GPGPU-Zwecke orientierte "Graphics Core Next" Grafikchip-Architektur integrierte, ist kaum zu erwarten, daß die 63 Prozent mehr Transistoren vollständig performancewirksam unter Spielen werden können. Allein schon aus dieser Ansetzung heraus ist vom R1000/Tahiti-Chip eine Mehrperformance (bei unveränderter Verlustleistung) von "nur" grob 50 Prozent zu erwarten – viel mehr ist angesichts der nach wie vor maßvollen Chip-Größe einfach nicht realistisch.

erste 40nm-Generation zweite 40nm-Generation erste 28nm-Generation
AMD HighEnd RV870/Cypress
2154 Mill. Transistoren auf 334mm²
Spieleverbrauch 158W (HD5870)
RV970/Cayman
2640 Mill. Transistoren auf 389mm²
Spieleverbrauch 205W (HD6970)
R1000/Tahiti
4312 Mill. Transistoren auf 365mm²
nVidia Performance GF104
1950 Mill. Transistoren auf 365mm²
Spieleverbrauch 123W (GTX460)
GF114
1950 Mill. Transistoren auf 358mm²
Spieleverbrauch 153W (GTX560Ti)
nVidia HighEnd GF100
3040 Mill. Transistoren auf 526mm²
Spieleverbrauch 249W (GTX480)
GF110
3040 Mill. Transistoren auf 520mm²
Spieleverbrauch 238W (GTX580)

Die maßvolle Ansetzung beim R1000/Tahiti-Chip setzt sich bei der Anzahl der Hardware-Einheiten fort: AMD verbaut 2048 (1D) Shader-Einheiten, 128 Textureneinheiten und 32 Raster Operation Units an einem 384 Bit DDR Speicherinterface – was mehr ist als beim RV970/Cayman-Chip mit 1536 VLIW4 Shader-Einheiten, 96 Textureneinheiten und 32 Raster Operation Units an einem 256 Bit DDR Speicherinterface, aber eben auch nicht überwältigend mehr. Dies sind gerade einmal 33 Prozent mehr Rechen- und Texturiereinheiten sowie ein um 50 Prozent breiteres Speicherinterface – ausgehend davon wird der R1000/Tahiti-Chip sowohl einen gewissen Mehrtakt als auch den Effizienzgewinn durch die GCN-Architektur benötigen, um überhaupt das vorgenannte Performanceziel von grob 50 Prozent Mehrperformance erreichen zu können.

Radeon HD 6970 Radeon HD 7970 GeForce GTX 580
Chipbasis AMD RV970/Cayman, 2,64 Milliarden Transistoren in 40mn auf 389mm² Chip-Fläche AMD R1000/Tahiti, 4,312 Milliarden Transistoren in 28nm auf 365mm² Chip-Fläche nVidia GF110, 3,05 Milliarden Transistoren in 40nm auf ca. 520mm² Chip-Fläche
Technik DirectX 11, 2 Raster Engines, 1536 VLIW4 Shader-Einheiten, 96 TMUs, 32 ROPs, 256 Bit DDR Interface (bis GDDR5) DirectX 11.1, 2 Raster Engines, 2048 (1D) Shader-Einheiten, 128 TMUs, 32 ROPs, 384 Bit DDR Interface (bis GDDR5) DirectX 11, 4 Raster Engines, 512 (1D) Shader-Einheiten, 64 TMUs, 48 ROPs, 384 Bit DDR Interface (bis GDDR5)
Taktraten 880/2750 MHz 925/2750 MHz 772/1544/2000 MHz
Speicherausbau 2048 MB GDDR5 3072 MB GDDR5 1536 MB GDDR5
PCI Express PCI Express 2.0 PCI Express 3.0 PCI Express 2.0
Layout DualSlot DualSlot DualSlot
Kartenlänge 275mm 281mm 267mm
Stromanschlüsse 1x 6pol. + 1x 8pol. 1x 6pol. + 1x 8pol. 1x 6pol. + 1x 8pol.
TDP/MGCP 250W 250W 247W
Idleverbrauch 22W 14W 31W
Spieleverbrauch 205W 211W 238W
Preislage 270-300 Euro rund 500 Euro 390-420 Euro

Durch den etwas höheren Chiptakt zwischen Radeon HD 6970 und 7970 steigt der Unterschied bei der Rechen- und Texturierleistung dann auf 40 Prozent, durch den identischen Speichertakt bleibt der Unterschied bei der Speicherbandbreite dagegen bei 50 Prozent und damit exakt der reinen Verbreitung dieses Interfaces. Zusätzlich steigt die ROP-Leistung noch um nominell 5 Prozent – in diesem Fall allein durch den höheren Chiptakt, da AMD die Anzahl der ROPs beim R1000/Tahiti-Chip gleichgelassen hat (was nichts aussagen muß, denn solange die ROP-Power beim Vorgängerchip nicht limitiert, muß man beim R1000/Tahiti nicht zwingend etwas daran verbessern).

Rohleistungs-Vergleich Radeon HD 6950, 6970 & 7970

Gerade zwischen Radeon HD 6950 & 6970 sowie Radeon HD 7970 muß aber klar sein, daß dieser Rohleistungs-Vergleich nun noch nicht einmal Hersteller-intern besonders aussagekräftig ist, da hier unterschiedliche Grafikchip-Architekturen im Spiel sind: Bei der Radeon HD 6900 Serie die prinzipielle R600-Architektur mit den weniger effektiven VLIW4 Shader-Einheiten und bei der Radeon HD 7970 die GCN-Architektur mit den sehr effektiven 1D Shader-Einheiten. Der Wert der maximal erreichbaren Rechenleistung ist zwar nicht regelrecht falsch – der Unterschied liegt dann darin, was in der Praxis an wirklichem Durchsatz erzielbar ist.

Denn hier haben die 1D Shader-Einheiten von GCN, welche nVidia im übrigen schon seit dem G80-Chip der GeForce 8800 GTX verwendet, ihre Vorteile: Sie lassen sich immer zu nahezu 100 Prozent auslasten, zumindest sofern so viel Rechenleistung gerade angefordert wird. Der VLIW-Ansatz ermöglicht zwar recht viele Shader-Einheiten auf engem Raum unterzubringen, allerdings lassen sich diese VLIW-basierten Shader-Einheiten bedingt durch eventuelle Datenabhängigkeiten der Shader-Berechnungen untereinander nicht perfekt auslasten – bei VLIW5 rechnet man mit nur 70 Prozent Auslastung und bei VLIW4 mit 80 Prozent Auslastung unter realen Szenarien.

VLIW5 VLIW4 "Graphics Core Next" Architektur
SIMD-Einheit 16 VLIW5 Shader-Prozessoren = 80 insgesamte Shader-Einheiten 16 VLIW4 Shader-Prozessoren = 64 insgesamte Shader-Einheiten 16 "1D" Shader-Prozessoren = 16 insgesamte Shader-Einheiten
"Compute Unit" (CU) - - 4x SIMD-Einheit = 64 insgesamte Shader-Einheiten
theoretische Rechenleistung 2 Flops pro einzelner Shader-Einheit 2 Flops pro einzelner Shader-Einheit 2 Flops pro einzelner Shader-Einheit
praktische Auslastung ca. 70% ca. 80% nahe 100%

Trotzdem sollte man den VLIW-Ansatz nicht verdammen: Eingerechnet den geringeren Silizium-Aufwand der einfacheren VLIW-basierten Shader-Einheiten und der damit möglichen höheren Einheitenanzahl dürfte es wahrscheinlich so sein, daß der VLIW-Ansatz rein für den Spielebereich gesehen sogar effektiver ist, weil sich so die benötigte Rechenleistung einfacher erreichen läßt. Zugunsten des Spieleeinsatzes sind die 1D Shader-Einheiten der Radeon HD 7970 im Zusammenhang mit der GCN-Architektur keine wirklich zwingende Verbesserung – AMD hat diese grundsätzliche Änderung primär dazu vorgenommen, um mit der 28nm-Generation sowie zukünftigen Grafikkarten mehr im GPGPU-Segment ausrichten zu können.

Zurückkommend auf die reale Rechenleistung der Radeon HD 7970 läßt sich jedenfalls sagen, daß durch die 1D Shader-Einheiten die Effizienz gegenüber den VLIW4 Shader-Einheiten der Radeon HD 6900 Serie um ca. 20 bis 25 Prozent steigt, was die nur mittelprächtige Steigerung der Einheiten-Anzahl durchaus wieder aufwiegt. Oder anders formuliert: Wäre AMD beim VLIW4-Ansatz geblieben, hätte man runde 2500 VLIW4 Shader-Einheiten aufbieten müssen, um die reale Rechenleistung der Radeon HD 7970 zu erreichen. So gesehen sind die "nur" 2048 (1D) Shader-Einheiten der Radeon HD 7970 also doch eine vernünftige Hausnummer und kaum eine Bremse bei der letztlich damit erzielbaren Spieleperformance.

Vor allem aber werden damit die Shader-Einheiten von AMD vergleichbar mit denen von nVidia – diese laufen zwar (derzeit noch) auf dem doppelten Chiptakt, womit nVidia nur die Hälfte an Shader-Einheiten gegenüber AMD benötigt, aber immerhin. Ganz grob gesehen entsprechen die 2048 (1D) Shader-Einheiten des R1000/Tahiti-Chips ergo 1000 (1D) Shader-Einheiten von nVidia, welche auf dem doppeltem Chiptakt antreten. Und nVidia hat derzeit noch keinen Grafikchip, welcher auch nur in die Nähe von 1000 (1D) Shader-Einheiten geht, die beste Lösung in Form des GK110-Chips bietet gerade einmal 512 (1D) Shader-Einheiten auf.

Die neuen 1D Shader-Einheiten des R1000/Tahiti-Chips organisiert AMD in "Compute Unit" genannten Shader-Clustern zu jeweils 64 Shader-Einheiten und vier Textureneinheiten. Hinzu kommt eine Scalar Unit, welche auch diverse Spezialfunktionen übernehmen kann – ob diese auch performancewirksam wird, wie bei den Special Function Units (SFUs) von nVidia, ist allerdings unklar. Zu erwähnen wäre noch, daß die Performance unter doppelter Rechengenauigkeit ("DoublePrecision") beim R1000/Tahiti-Chip wie schon bei seinem Vorgänger bei einem Viertel des Wertes unter einfacher Rechengenauigkeit ("SinglePrecision") liegt.