Erste Spezifikationen zur Radeon HD 6700 Serie

Mittwoch, 15. September 2010

/ von Leonidas

In einem chinesischen Forum ist eine AMD-Präsentationsfolio mit angeblichen Spezifikationen zum Barts-Grafikchip aufgetaucht, AMDs kommender neuer Performance-Lösung aus der Southern-Islands-Generation. Derzeit ist deren Echtheit natürlich fraglich – diese könnte potentiell seitens einiger Spaßvögel oder auch direkt durch AMD als bewußte Falschinformation in die Welt gesetzt worden sein, insofern lassen sich die Aussagen dieser Präsentationsfolie derzeit noch nicht auf die Goldwaage legen. Wir wollen uns diese Folie und deren Informationen aber dennoch ansehen, schließlich besteht mindestens genauso gut die Chance, daß die dort notierten Angaben korrekt sind.

Wie bekannt will AMD die Southern-Islands-Generation (die sich unter Umständen "Northern Islands" nennt – aber Namen sind Schall und Rauch) schon Ende Oktober vorstellen und bis zum Jahresende anscheinend vollständig in den Markt bringen. Ergo ist jetzt durchaus die Zeit, wo erste Spezifikationen zu den geplanten Grafikkarten-Serie in Präsentationsform bei den einzelnen Grafikkarten-Herstellern und auch großen OEMs herumfliegen, womit sie außerhalb der Hallen von AMD sind und damit auch schon mal "entfleuchen" können. Ebenfalls typisch für die jetzige Zeit ist, daß noch nicht alle Angaben in Stein gemeißelt sind – wie beispielsweise, daß sich AMD laut obiger Folie noch einen gewissen Taktspielraum bei "Barts Pro" gibt oder daß die TDP-Angaben derzeit nur eher grob sind (weil an den Referenzboards noch gebastelt wird).

Zudem fehlt in obiger Folie noch der Name der Grafikkarten-Generation – wir gehen ja von "Radeon HD 6700" für die Barts-basierenden Lösungen aus und hoffen dabei, daß die Gerüchte über eine Umbenennungsaktion bei AMD falsch sind. Aber auch dies passt in die zeitliche Perspektive, daß AMD derzeit dabei sein dürfte, die Taktraten zu finalisieren, letzte Arbeiten an den Referenzboards vorzunehmen und sich langsam die Marketing-Strategie auf Basis der hauseigenen Performance-Vorhersagen herausbildet. Demzufolge sind auch die in der Folie angesagten Taktraten sicherlich noch nicht als gänzlich "final" anzusehen, aber in diese Richtung wird es gehen.

Und damit zum Kern der Sache: Wenn wir die Folie mal als wirklich von AMD stammend ansehen wollen, dann ergeben sich jede Menge Informationen über die neue Performance-Generation von AMD, welche offenbar gegen die GeForce GTX 460 von nVidia antreten soll. So wird der Barts-Chip als Nachfolger des RV840/Juniper-Chips mit 960 Shader-Einheiten und 48 TMUs an einem 256 Bit DDR Speicherinterface mit 32 ROPs antreten. Dies ist bei den Shader-Einheiten und TMUs "nur" ein Zugewinn um jeweils 20 Prozent in der Einheitenanzahl, allerdings wird das Speicherinterface und damit die Anzahl der (gerade fürs Anti-Aliasing wichtigen) ROPs glatt verdoppelt.

Chip	Technik
AMD RV840/Juniper	1 Raster-Engine, 10 Shader-Cluster mit insgesamt 800 Shader-Einheiten und 40 TMUs an einem 128 Bit DDR Speicherinterface (bis GDDR5) und 16 ROPs
AMD RV870/Cypress	1 Raster-Engine mit verdoppelter Rasterizer-Power, 20 Shader-Cluster mit insgesamt 1600 Shader-Einheiten und 80 TMUs an einem 256 Bit DDR Speicherinterface (bis GDDR5) und 32 ROPs
AMD Barts	1 Raster-Engine mit verdoppelter Rasterizer-Power, 12 Shader-Cluster mit insgesamt 960 Shader-Einheiten und 48 TMUs an einem 256 Bit DDR Speicherinterface (bis GDDR5) und 32 ROPs
AMD Cayman	derzeitiger Wissensstand: 1920 Shader-Einheiten mit wahrscheinlich 96 TMUs, 256 Bit DDR Speicherinterface (bis GDDR5) und wahrscheinlich 32 ROPs

Zwar galt der RV840/Juniper-Chip nicht als besonders an seinem nur 128 Bit DDR breiten Speicherinterface hängend, nutzte dort aber auch gleich bis zu 2400 MHz schnellen GDDR5-Speicher. Eine weitere Steigerung der Speicherbandbreite wäre dann – ohne eine Verbreiterung des Speicherinterfaces – nur mit noch schnellerem GDDR5-Speicher möglich gewesen, was allerdings vermutlich nicht in die Preisvorstellung zu dieser Grafikkarten-Serie passt. Mit dem breiteren Speicherinterface kann AMD nun "normal" getakteten GDDR5-Speicher zu einem vernünftigen Einkaufspreis ansetzen und hat trotzdem noch einen heftigen Schub bei der Speicherbandbreite, was der nur mäßig gewachsenen Anzahl an Recheneinheiten etwas auf die Sprünge helfen sollte.

Die "nur" 960 Shader-Einheiten des Barts-Chips gegenüber den 800 Shader-Einheiten des RV840/Juniper-Chips liegen nur am unteren Ende der bisherigen Voraussagen (welche bis auf 1280 Shader-Einheiten hinaufgingen), sind aber möglicherweise auch ausreichend für AMDs Zielsetzung mit dem Barts-Chip. Im Gegensatz zu nVidia will AMD möglicherweise gar keinen Performance-Chip, der so nah am HighEnd-Chip dran ist wie derzeit der GF104 (GeForce GTX 460) am GF100 (GeForce GTX 470 & 480) – den großen Zwischenraum füllt AMD anscheinend lieber mit abgespeckte Versionen des HighEnd-Chips, um somit zum einen dessen Ausbeute hochzuhalten und zum anderen auch auf gewisse Produktionsstückzahlen für den HighEnd-Chip zu kommen.

Zudem kommen zu den 20 Prozent mehr Recheneinheiten ja auch andere Performance-steigendere Effekte hinzu: Zuerst wäre hier das verdoppelte Speicherinterface (samt verdoppelten ROPs) zu nennen, welches trotz des etwas niedrigeren Speichertakts für rund 75 Prozent mehr Speicherbandbreite und 100 Prozent mehr ROP-Leistung steht (da die ROPs mit Chiptakt laufen, kommen diese sogar etwas besser weg). Dann sind die generellen Verbesserungen an der Raster-Engine samt Tesselations-Einheit von Southerns Islands, welche für eine bessere Auslastung der Recheneinheiten sorgen soll. Interessant hierzu ist die Bemerkung in der Folie, Barts würde auf der "Cypress Dual Engine Architecture" basieren – der RV870/Cypress-Chip hat nämlich schon eine Raster-Einheit mit teilweise doppelt ausgelegten Einheiten und damit eine bessere Raster-Power als die kleineren AMD-Chips.

Zugewinn von Barts XT gegenüber Radeon HD 5770
(nominelle) Rechenleistung	20%
Texturierpower	20%
ROP-Leistung	100%
Speicherbandbreite	75%

Völlig unklar ist gemäß dieser Folie aber, ob AMD nun wirklich die prognostizierten 4-D VLIW Shader-Einheiten bei Southern Islands einsetzt. Auf den ersten Blick sieht es weiterhin nach 5-D VLIW Shader-Einheiten aus, die im 16er Verbund (insgesamt 80 Shader-Einheiten) zusammen mit 4 TMUs einen Shader-Cluster bilden. Die eigentlich für Souther Islands prognistizierten 4-D VLIW Shader-Einheiten hätten (normalerweise) ein Aufbrechen dieser Anordnung vonnöten gemacht hin zu Shader-Clustern mit insgesamt 64 Shader-Einheiten (16 Stück 4-D VLIW Shader-Einheiten) samt 4 TMUs, dies würde aber eine gänzlich andere Anzahl an TMUs und Shader-Clustern bei einem Chip mit insgesamt 960 Shader-Einheiten bedeuten (nämlich 60 TMU & 15 Shader-Cluster).

Da dem nicht so ist, ist zumindest die Anzahl der Shader-Einheiten und TMUs pro Shader-Cluster gleich geblieben (80 Shader-Einheiten und 4 TMUs in einem Shader-Cluster). Die Theorie der 4-D VLIW Shader-Einheiten ist damit allerdings trotzdem noch verbindbar – wenn AMD die Wavefrontsize von bisher 16 auf 20 verändert hat. Mit der "Wavefrontsize" wird die Menge an Befehlen bezeichnet, die ein AMD-Chip gleichzeitig an seine Shader-Einheiten weitergibt – zur sinnvollen Auslastung der Rechenwerke muß diese Wavefrontsize irgendwie in die Anzahl der letztlich vorhandenen Shader-Einheiten hineinpassen (also die Shader-Einheiten ein Vielfaches von 16 ergeben). AMD hat hierbei bisher konstant mit einer Wavefrontsize von 16 gearbeitet und eine Änderung dieser Wavefrontsize würde auch deftige Umbauarbeiten an vielen Teilen des Chips bedeuten, weswegen man einer solchen Änderung bisher keine großen Chancen eingeräumt hat.

Nichtsdestotrotz ist dies möglich und AMD könnte durchaus die 4-D VLIW Shader-Einheiten auch mit diesem Aufbau des Barts-Chips verbinden. Dann würde ein Shader-Cluster schlicht aus 20 Stück 4-D VLIW Shader-Einheiten samt 4 Textureneinheiten bestehen. In gewissem Sinne wäre dies sogar der bessere Ansatz, weil unter Beibehaltung einer Wavefrontsize von 16 bei 4-D VLIW Shader-Einheiten fast unweigerlich die Anzahl der Textureneinheiten pro Shader-Einheit steigen würde, was allerdings bei den aktuellen AMD-Chips kaum mehr an Performance bringt (ein Chip mit 1600 Shader-Einheiten wie der RV870/Cypress hätte dann 100 anstatt 80 Shader-Einheiten), sondern nur die Chipfläche unnötig vergrößert. So gesehen könnten die Umbauarbeiten zugunsten einer anderen Wavefrontsize sogar günstiger sein als die größere Chipfläche durch mehr Textureneinheiten, die dann aber oftmals nur unproduktiv rumliegen.

Da wir nun aber nicht wirklich wissen, ob AMD tatsächlich die 4-D VLIW Shader-Einheiten beim Barts-Chip bzw. der Southern-Islands-Generation generell ansetzt, läßt sich derzeit auch nicht sagen, ob die Shader-Einheiten selber einen Performance-Effekt haben werden – oder ob nur deren veränderte Anzahl eine Rolle spielt. Dies ist derzeit noch die große Unbekannte zum Barts-Design bzw. zur Southern-Islands-Generation generell. Trotzdem sollten höhere Anzahl an Recheneinheiten, verdoppeltes Speicherinterface und neuer Rasterizer die Barts-Performance in etwa um 30 bis 40 Prozent über die Performance von RV840/Juniper heben – vielleicht sogar etwas mehr, wenn AMD tatsächlich die effizienteren 4-D VLIW Shader-Einheiten verbaut.

Der nachstehende Rohleistungs-Vergleich gibt gewisse Grundzüge zur durch die Barts-Grafikkarten zu erwartenden Performance wieder. Diesem Vergleich fehlt allerdings die wichtige Komponente der veränderten Raster-Engine, welche für eine bessere Auslastung der Recheneinheiten sorgt und daher aus der gleichen Rohleistung mehr Performance herausholen kann. Dieser Effekt ist vorher schwer zu schätzen – vorstellbar ist irgendetwas in Richtung 20 Prozent, denn für weniger als für 10 Prozent mehr lohnt sich der dafür notwendige Umbau des Frontends des Grafikchips sicherlich nicht.

Rohleistungs-Vergleich Radeon HD 4890, 5750, 5770, 5830, 5850 & Barts Pro/XT

Rechen wir den Vorteil der besseren Effizienz mal ein, dann kann man den "Barts Pro" (wahrscheinlich Radeon HD 6750) wie eine Radeon HD 5770 mit heftig mehr Speicherbandbreite und ROP-Power betrachten. Dies reicht sicherlich aus, um sich ausreichend klar vor die Radeon HD 5770 zu positionieren – ob es allerdings reicht, um die GeForce GTX 460 768MB abzufangen, wie mit dieser Karte geplant, bliebe abzuwarten. Dies wird in jedem Fall zu diesen Taktraten knapp, denn es wären ausgehend von der Performance der Radeon HD 5770 noch runde 20 Prozent zu überbrücken – ob dies allein die höhere Speicherbandbreite und die ROP-Power hinbekommen, muß erst noch bewiesen werden. Grob gesehen ordnen wir die Performance der kommenden Radeon HD 6750 mal zwischen Radeon HD 5770 und GeForce GTX 768MB liegend ein.

"Barts XT" (wahrscheinlich Radeon HD 6770) scheint hingegen die einfachere Aufgabe zu haben: Diese Karte soll die GeForce GTX 460 1024MB abfangen und bietet dafür in etwa die Rohleistung der Radeon HD 5830 zu einer höheren Effizienz und einer deutlich höheren ROP-Leistung auf. Damit sind die ca. 10 Prozent, die man ausgehend von der Radeon HD 5830 benötigt, um auf die Performance der GeForce GTX 460 1024MB zu kommen, sicherlich zu erreichen und wahrscheinlich sogar überbietbar. Wenn man es sich genau ansieht, kann eine solche Radeon HD 6770 unter Umständen sogar der Radeon HD 5850 nahekommen: Bei Speicherbandbreite und ROP-Leistung liegt man jeweils vorn – und den um 28 Prozent betragenden Rückstand bei der Rechen- und Texturierleistung kann unter Umständen die höhere Effizienz wieder etwas wettmachen. Es dürfte wohl nicht ganz reichen, um die Performance der Radeon HD 5850 durchgehend zu erreichen, so wird es für die Radeon HD 6770 wohl eine Performance irgendwo zwischen GeForce GTX 460 1024MB und Radeon HD 5850 werden.

Und genau dieser Ausgang dürfte AMD wohl ziemlich glücklich machen – nVidias sehr erfolgreichem GF104-Chip etwas gleichwertiges entgegenstellen zu können, ohne dafür den (aus AMD-Sicht teuren) HighEnd-Chip RV870/Cypress verschwenden zu müssen. So gesehen muß nochmals gesagt werden, daß diese Präsentationsfolie trotz der geringer als vorab angenommenen Anzahl der Shader-Einheiten durchaus stimmig ist, denn genau für den Preisbereich von 130 bis 200 Euro sieht AMD üblicherweise seine Performance-Chips vor und genau dieses Preisniveau scheint mit den Barts-Lösungen erreichbar zu sein. Auch wenn man sich Barts hätte "größer" vorstellen können, dürfte der Chip in dieser Ausführungen exakt das erreichen, was sich AMD als Ziel gesetzt hat. Der ganz große Wurf wie zwischen RV7xx- und RV8xx-Generation geschehen war sowieso niemals zu erwarten, schließlich steht AMD für Southern Islands keine neue Fertigungstechnologie zur Verfügung und hatte die RV8xx-Generation die Meßlatte schon ziemlich hoch angesetzt.

Nachtrag vom 19. September 2010

Zu den Spezifikationen zur Radeon HD 6700 Serie wäre noch ein Gedanke hinzuzufügen: Die Anzahl der zu den Barts-Lösungen genannten Hardware-Einheiten und auch die Nennung von "based on the Cypress Dual Engine Architecture" lassen die Möglichkeit offen, der Barts-Chip könnte eventuell auf Basis der Evergreen-Architektur entstanden sein. Sprich: Als AMD erkannte, daß die geplante Northern-Islands-Generation in 32nm nicht realisierbar war, weil der 32nm-Prozeß seitens TSMC gestrichen wurde und der nachfolgende 28nm-Prozeß erst tief im Jahr 2011 zur Verfügung stehen würde, hat man unter Umständen allein für den HighEnd-Bereich eine Northern-Islands-nahe Abwandlung in 40nm in Form des Cayman-Chips geplant – aber die kleineren Chips der Southern-Islands-Generation der Einfachheit halber auf Basis der Evergreen-Architektur aufgesetzt.

Dies wäre schon allein vom Entwicklungsaufwand her besser zu realisieren – noch dazu, wo die Southern-Islands-Generation schließlich eine "Einschub-Generation" ist, für welche AMD nicht so viel Entwicklungszeit zur Verfügung stand wie normalerweise üblich. Zudem müsste AMD dann bei den kleineren Chips nicht mit höheren Die-Flächen durch die Veränderungen der neuen Architektur kämpfen und könnte – wie bisher – die Die-Flächen (bis auf den HighEnd-Bereich) schön klein halten. Dies wäre ein einfacher Weg zu mehr Performance innerhalb der 40nm-Fertigung, ohne deswegen den 40nm-Prozeß so auszureizen wie es nVidia derzeit tut. Und letztlich würde eine solche Auflösung sogar zu den jüngsten Umbenennungs-Gerüchten passen – zwar nicht ganz perfekt, aber die Basis wäre identisch und innerhalb der Gerüchteküche kann schon einmal etwas deutlich anders herauskommen als ursprünglich gemeint. Aber: Das vorstehende ist schlicht nur ein Gedankengang, welcher möglich ist, aber für den es dato keine stichhaltigen Belege gibt.