16

News des 16. Dezember 2011

Es gibt zu nVidias Kepler-Plänen eine neue, entscheidende Information: Der "Hotclock" scheint offensichtlich komplett wegzufallen – darunter ist zu verstehen, daß nVidia die reinen Shader-Einheiten bei den GPU-Designs seit dem G80-Chip mit der doppelten Taktrate befeuerte. Dies machte es notwendig, die Shader-Einheiten speziell für diese hohen Taktraten zu designen, was sie auch voluminöser gemacht haben dürfte. Andererseits konnte man damit mit der Hälfte der Shader-Einheiten antreten, welche bei einem normalen Takt notwendig gewesen wären – und dies dürfte auch wieder Transistoren gespart haben. Vermutlich war aber das Hotclock-Design schlicht deswegen nicht mehr durchzuhalten, weil nVidia unter 28nm ein Frequenzziel von klar über 1 GHz Chiptakt hat und dann die Shader-Einheiten klar über 2 GHz Shader-Takt hätten aushalten müssen. Ohne den Hotclock wird nVidia allerdings natürlich deutlich mehr Shader-Einheiten verbauen müssen als bisher bei nVidia-Chips üblich, was alle vorherigen Kepler-Vorhersagen komplett über den Haufen wirft.

Trotzdem ist natürlich eine neue Prognose möglich, basierend auf den drei vorliegenden Informationen: Keine Hotclocks mehr, Frequenzziel klar über 1 GHz und die Rechenleistung des GK104-Chips weit über 2 TFLOPs. Erreichbar ist dies mit 1024 Shader-Einheiten auf 1200 MHz Chiptakt – wenn der Chiptakt näher an der 1000-MHz-Marke liegt, sinkt die Rechenleistung, bleibt aber immer noch über den genannten 2 TFlops. An dieser Stelle kann man natürlich auch etwas über seine eigene Prognose erschrocken sein: 1024 Shader-Einheiten bei einem Performance-Chip von nVidia klingen im Vergleich zu den bisherigen nVidia-Chip abartig viel. Aber ohne verdoppeltem Shader-Takt und mit dem angegebenen Frequenzziel kann die Prognose gar nicht anders lauten – entweder stimmen die vorliegenden Informationen nicht oder es werden in der Tat irgendwo in der Nähe von 1000 Shader-Einheiten beim GK104-Chip.

Fermi-Refresh (GeForce 500 Serie) Kepler (GeForce 600 Serie)
GF110 (GeForce GTX 570/580/590)
3 Milliarden Transistoren auf 530mm² Die-Fläche in 40nm
Fermi-Architektur mit 4 Raster Engines
16 Polymorph Engines mit 16 Tesselations-Einheiten
512 (1D) Shader-Einheiten
64 Textureneinheiten (TMUs)
48 Raster Operation Units (ROPs)
384 Bit DDR Speicherinterface (bis GDDR5)
maximaler Takt: Chip 772 MHz, Shader 1544 MHz, Speicher 2000 MHz
maximale Rechenleistung: 1,58 TFlops (SP)
maximale Speicherbandbreite: 192 GB/sec
GK100
Kepler-Architektur mit komplett veränderten Shader-Einheiten (keine Hotclocks mehr, d.h. Shadertakt = Chiptakt)
geschätzt ~1500 (1D) Shader-Einheiten
geschätzt 512 Bit DDR Speicherinterface (bis GDDR5)
Performance: noch zu unsicher für eine Prognose, aber sicherlich überhalb des Niveaus der GeForce GTX 590
Launch: zweites Quartal 2012
GF114 (GeForce GTX 560/Ti)
1,95 Milliarden Transistoren auf 358mm² Die-Fläche in 40nm
Fermi-Architektur mit 2 Raster Engines
8 Polymorph Engines mit 8 Tesselations-Einheiten
384 (1D) Shader-Einheiten
64 Textureneinheiten (TMUs)
32 Raster Operation Units (ROPs)
256 Bit DDR Speicherinterface (bis GDDR5)
maximaler Takt: Chip 822 MHz, Shader 1644 MHz, Speicher 2000 MHz
maximale Rechenleistung: 1,26 TFlops (SP)
maximale Speicherbandbreite: 128 GB/sec
GK104
angeblich etwas geringere Die-Size als beim GF114
Kepler-Architektur mit komplett veränderten Shader-Einheiten (keine Hotclocks mehr, d.h. Shadertakt = Chiptakt)
geschätzt ~1000 (1D) Shader-Einheiten
Speicherinterface unklar, 256 bis 384 Bit DDR sind möglich
Taktziel: gerüchteweiser klar über 1000 MHz
maximale Rechenleistung: gerüchteweiser "weit über 2 TFLOPs"
Performance: angeblich etwas schneller als die GeForce GTX 580
Launch: Anfang/Mitte erstes Quartal 2012

Bei einem so kompletten Wechsel des Chip-internen Aufbaus gehen wir zudem davon aus, daß sich nVidia komplett andere Shader-Cluster ausdenkt als bei GF100/GF110 (32 Shader-Einheiten und 4 TMUs in einem Cluster) und GF104/GF114 (48 Shader-Einheiten und 8 TMUs in einem Cluster). Einzurechnen wäre hierbei auch, daß nVidia durch das hohe Taktratenziel sowieso sehr viel an Texturierpower hinzugewinnt (zwischen 40 und 50 Prozent allein durch die höhere Taktrate). Denkbar wäre also ein Modell von 48 Shader-Einheiten und nur 4 TMUs in einem Shader-Cluster, damit würde eine vernünftige Anzahl an Textureneinheiten (80 bis 88) für einen 28nm Performance-Chip herauskommen. Eine Lösung ohne Steigerung der Anzahl der Textureneinheiten – bei einem Modell von 64 Shader-Einheiten und nur 4 TMUs in einem Shader-Cluster – ist aber auch nicht unmöglich. Damit würde nVidias Performance-Chip wieder auf 64 Textureneinheiten kommen, hätte aber immerhin die Leistungssteigerung durch die klar höhere Taktrate.

Durch den Wegfall der Hotclocks bei der Kepler-Generation verändert sich demzufolge auch die Prognose für den später im zweiten Quartal 2012 zu erwartenden HighEnd-Chip GK100: Wenn man beim GK104 von rund 1000 Shader-Einheiten ausgehen kann, dürften es beim GK100 dann rund 1500 davon werden – mit dementsprechend höherer Anzahl an Textureneinheiten und einem breiteren Speicherinterface. Eine glatte Verdopplung der Einheiten-Anzahl zwischen Performance-Chip und HighEnd-Chip ist dagegen nicht möglich, dafür ist das GK104-Design schon viel zu voluminös und sind beim GK100 dann auch noch die vielen Transistoren für GPGPU-Zwecke einzurechnen. Aber auch bisher war es bei nVidia schon so, daß der HighEnd-Chip bestenfalls 50 Prozent mehr Recheneinheiten gegenüber dem Performance-Chip trug – die Prognose von rund 1500 Shader-Einheiten beim GK100 ausgehend von den rund 1000 Shader-Einheiten beim GK104 ist also nur folgerichtig.

Derweil bringt AMD dem Grafikkarten-Enthusiasten ein kleines Weihnachtsgeschenk, indem der Launch der Radeon HD 7970 auf den 22. Dezember vorgezogen wurde – die Radeon HD 7950 verbleibt dagegen beim ursprünglichen Launchdatum am 9. Januar 2012. Allerdings sollen die Liefermengen der Radeon HD 7970 noch in diesem Jahr laut HT4U arg begrenzt sein, eine echte Verfügbarkeit wird sich erst ab dem 9. Januar ergeben. HT4U berichten zudem, daß AMD die Radeon HD 7950 für abweichende Taktraten, andere Kühlung und Platinendesigns freigegeben hat, an dieser Karte dürfen und werden sich die Grafikkartenhersteller also austoben können. Die zuletzt zur Radeon HD 7970 gemeldeten Hardware-Daten von 2048 (1D) Shader-Einheiten, 128 Textureneinheiten und 32 ROPs an einem 384 Bit DDR Speicherinterface mit 3 GB GDDR5-Speicher bestätigen sich derzeit immer mehr. Die Chiptaktrate soll im übrigen bei 925 MHz liegen, womit die Radeon HD 7970 auf eine Rechenleistung von 3,79 TFlops kommt – 40 Prozent mehr als bei der Radeon HD 6970. Zusammen mit den 40 Prozent mehr Texturierpower, einem 50 Prozent breiterem Speicherinterface und den Effizienzverbesserungen der GCN-Architektur kann das angepeilte Performance-Ziel von 50 Prozent mehr als bei der GeForce GTX 580 durchaus erreichbar sein.

Northern Islands
(Radeon HD 6000 Serie)
Southern Islands
(Radeon HD 7000 Serie)
RV970/Cayman
2,64 Milliarden Transistoren auf 389mm² in 40nm
VLIW4-Architektur mit 2 Raster Engines
1536 VLIW4 Shader-Einheiten
96 Textureneinheiten (TMUs)
32 Raster Operation Units (ROPs)
256 Bit DDR Speicherinterface (bis GDDR5)
maximaler Takt: Chip 880 MHz, Speicher 2750 MHz
maximale Rechenleistung: 2,7 TFlops (SP)
maximale Speicherbandbreite: 176 GB/sec
R1000/Tahiti
geschätzt 4,5 Milliarden Transistoren auf rund 380mm² in 28nm
GCN-Architektur
bestätigt 2048 1D Shader-Einheiten
bestätigt 128 Textureneinheiten
anscheinend 32 Raster Operation Units
bestätigt384 Bit DDR Speicherinterface (bis GDDR5)
maximaler Takt: Chip 925 MHz, Speicher angenommen 2500-2750 MHz
maximale Rechenleistung: 3,79 TFlops (SP)
maximale Speicherbandbreite: 240-264 GB/sec
Radeon HD 6950
Performance-Index 220%, Spieleverbrauch 163W
Radeon HD 7950
R1000/Tahiti-Abspeckung mit wahrscheinlich geringerer Anzahl an Hardware-Einheiten und geringeren Taktraten; Taktraten, Lüfterdesign und Platinendesign sind seitens AMD freigegeben, so daß es hier viele Hersteller-Varianten geben dürfte
Performance-Index angenommen 270% bis 310%
Launch: 9. Januar 2012
Radeon HD 6970
Performance-Index 240%, Spieleverbrauch 205W
Radeon HD 7970
R1000/Tahiti-Vollausbau mit 925 MHz Chiptakt und noch unbekanntem Speichertakt, 3 GB GDDR5-Speicher
Performance-Index geschätzt 340% bis 380%
Launch: 22. Dezember 2011
Radeon HD 6990 (DualChip)
Performance-Index 380%, Spieleverbrauch 331W
Radeon HD 7990 (DualChip)
Vergleichswerte: GeForce GTX 580 Performance-Index 280% & Spieleverbrauch 238W, GeForce GTX 590 Performance-Index 380% & Spieleverbrauch 358W

Damit würde die Radeon HD 7970 dann sogar leicht schneller als die DualChip-Lösungen Radeon HD 6990 und GeForce GTX 590 ausfallen. Abzuwarten bleibt aber natürlich, ob dieses Performanceziel auch durchgängig erreicht werden kann – oder nur in einzelnen Benchmarks diese hohe Mehrperformance herauskommt. Als Beispiel hierfür mögen die von AMD prognostizierten Performancegewinne unter Tesselations-abhängigen Benchmarks stehen, wo die Radeon HD 7970 gegenüber ihrem Vorgänger laut AMD wirklich gut mit Performancegewinnen zwischen 60 und 140 Prozent abschneidet – in der Praxis zählen aber nur die Resultate unabhängiger Hardware-Tests und nicht das, was AMD in seinen Präsentationsfolien so alles von sich gibt. Von diesen Präsentationsfolien gibt es im übrigen noch mehr – Donanim Haber haben ein paar davon (leider zumeist unbedeutende, nur die letzte bestätigt die 2048 Shader-Einheiten und das 384 Bit DDR Speicherinterface), beim Bilderhoster Abload gibt es dagegen ein kummuliertes Thumbnail-Bild aller Präsentationsfolien zur Radeon HD 7970. Zu erkennen ist zwar wenig, aber in den nächsten Tagen dürfte sicherlich die eine oder andere Folie noch im Großformat bekannt werden – und selbst wenn nicht, wäre es bis zum 22. Dezemeber nun auch keine beachtbare Wartezeit mehr.

Zu erwähnen wäre noch, daß AMD mit der Radeon HD 7000 Serie ein neues Feature namens "ZeroCore Power Technology" einführt, welches eine faktische Abschaltung des Grafikchips unter einer äußerst geringen Energieaufnahme von unter 3 Watt ermöglicht. Dafür wird dann nur noch PCI Express mit Strom versorgt und lauscht die Karte an diesem Interface auf ihren Aufwachbefehl. Nutzvoll ist dies unter zwei Situationen: Zum einen Systeme mit mehr als einer Grafikkarte wie CrossFire-Systeme oder auch Multimonitor-Systeme, wo aktuell nicht benötigte Grafikkarten sich wirklich schlafenlegen können, anstatt im Idle-Modus doch noch ein wenig Energie zu verbraten. Und zum anderen Systeme mit integrierter Grafiklösung, wo die extra Grafikkarte nur für Spiele herangezogen wird und sich ansonsten auch richtig schlafenlegen kann, während die integrierte Grafik den Windows-Betrieb schultert. Die 3-Watt-Angabe bei der Radeon HD 7970 hat somit aber eben nichts mit der wirkliche Idle-Stromaufnahme zu tun, diese dürfte weiterhin höher im Bereich irgendwo bei 20 Watt liegen.