Launch-Analyse: nVidia GeForce GTX Titan

Freitag, 22. Februar 2013
 / von Leonidas
 

Eine sehr lange Zeit musste gewartet werden – nun ist sie endlich da, nVidias eigentliche HighEnd-Lösung der Kepler-Generation. Denn entgegen dem bisherigen Release-Verlauf (mit dem GK104-Chip der GeForce GTX 680 zuerst) und auch des nVidia-Marketings handelt es sich bei der "GeForce GTX Titan" auf Basis des GK110-Chips nicht um eine "Profi-Lösung heruntergeschraubt für den Gamer-Markt", sondern eigentlich nichts anderes als das, was nVidia mit den früheren Chips G80 (484mm² Chipfläche), GT200 (576mm²), GF100 (529mm²) & GF110 (520mm²) bereits in den letzten Grafikchip-Generationen durchgehend anbot: Konsequentes HighEnd am oberen Ende der technischen Machbarkeit.

Daraus resultiert auch sofort, daß der GK110-Chip wieder in seiner komplett eigenen Liga spielt – kein anderer Grafikchip der 28nm-Generation kommt auch nur in die Nähe seiner Chipfläche von gleich 561mm² bzw. der Transistoren-Anzahl von 7,1 Milliarden. Ein direkter Vergleich mit den schnellsten AMD-Lösungen verbietet sich demzufolge (eigentlich), denn AMDs schnellster Chip in Form des R1000/Tahiti geht weit sparsamer mit der Chipfläche (365mm²) als auch der Transistoren-Anzahl (4,3 Mrd.) um. Der GK110-Chip steht in dieser Frage allein auf weiter Flur und wird aufgrund dieser hohen Hardware-Ansetzung natürlich keine Schwierigkeiten haben, den absoluten Performance-Thron im SingleChip-Segment zu erringen.

Technologisch gesehen basiert der GK110-Chip allerdings immer noch auf der originalen Kepler-Generation (sofern nVidia überhaupt jemals vorhaben sollte, der Kepler-Refreshgeneration irgendwelche Architektur-Änderungen zu verpassen). So gibt es weiterhin nur das Featurelevel DirectX 11.0 – was im Sinne des Absolutheits-Anspruchs von GeForce GTX Titan dann doch etwas schmerzen könnte – sowie keinerlei weiteren Architektur-Änderungen gegenüber den bisherigen Kepler-Chips abseits der aber sowieso nur dem GK110-Chip zustehenden extra Transistoren für GPGPU-Belange. Hierzu zählt die deutlich höhere DoublePrecision-Leistung des GK110-Chips sowie ein größerer Level2-Cache und die Erhöhung der Register-Zugriffe, wobei nur die beiden letzteren Features auch im Spieleinsatz eine Zweitverwendung finden können.

nVidia GK104 nVidia GK110
grundlegende Technik (im Vollausbau) DirectX 11.0, 4 Raster-Engines, 1536 Shader-Einheiten, 128 TMUs, 32 ROPs, 256 Bit DDR Speicherinterface DirectX 11.0, 5 Raster-Engines, 2880 Shader-Einheiten, 240 TMUs, 48 ROPs, 384 Bit DDR Speicherinterface
SP/DP-Verhältnis 1:24 1:3
Level1-Cache pro SMX 64 kB 64 kB
Daten-Cache pro SMX 48 kB 48 kB
Level2-Cache insgesamt 512 kB 1536 kB
Register pro SMX 65536 65536
Register-Zugriffe pro Thread 63 255

Davon abgesehen handelt es sich beim GK110-Chip schlicht um einen hochgepumpten GK104-Chip: Basierend auf denselben Shader-Clustern (SMX) wie in der kompletten Kepler-Generation mit jeweils 192 (1D) Shader-Einheiten und 16 Textureneneinheiten (TMUs) gibt es schlicht anstatt 8 SMX nunmehr deren 15 SMX (nur 14 davon aktiv bei GeForce GTX Titan), anstatt 4 Raster-Engines deren 5, anstatt 4 ROP-Partitionen deren 6 und anstatt eines 256 Bit DDR breiten Speicherinterfaces ein 384 Bit DDR breites. Irgendwelche Effizenzverbesserungen oder echte Architektur-Änderungen sind hingegen nicht bekannt, die speziellen Profi-Features des GK110-Chips sind zumeist nur bei Programmierung über Cuda ansprechbar und damit für den Gaming-Einsatz fast ausschließlich uninteressant. Ernsthaft Performance-wirksam könnte allerhöchstens der schon genannte größere Level2-Cache sein.

nVidia GK110 Block-Diagramm
nVidia GK110 Block-Diagramm
nVidia GK110 Shader-Cluster (SMX)
nVidia GK110 Shader-Cluster (SMX)

Die GeForce GTX Titan ist dann nochmals eine leicht andere Geschichte, da nVidia zuerst einen der 15 Shader-Cluster deaktivierte – und danach auch noch die DoublePrecision-Performance mittels eines deutlich niedrigeren Takts beschnitten hat. So laufen bei der GeForce GTX Titan die DoublePrecision-Einheiten per default nur mit 1/8 des Chiptakts, womit die Karte (in diesem Zustand) eine DoublePrecision-Leistung nur wenig mehr als bei einer (diesbezüglich sehr schwachen) GeForce GTX 680 aufbietet. Den Takt der DoublePrecision-Einheiten kann man zwar im Controlpanel der nVidia-Treiber verändern und auf den vollen Chiptakt bringen – mit allerdings dem Nachteil, daß der Chip somit klar wärmer wird und daher sowohl seinen Boost-Takt generell nicht mehr ausspielen kann als auch sich eventuell sogar unterhalb der nominellen Chip-Taktfrequenz heruntertaktet.

Gleichzeitig tritt die GeForce GTX Titan aber auch mit deutlich höheren Taktraten gegenüber den Profi-Varianten des GK110-Chips an: Während eine Tesla K20X nur 735 MHz Chiptakt sowie 2600 MHz Speichertakt aufweist, kommt die GeForce GTX Titan mit 837 MHz nominellem Takt, 876 MHz durchschnittlichem Boost-Takt und einem Speichertakt von gleich 3000 MHz daher. Gleichzeitig steigt die TDP der Karte nur unwesentlich von 235 Watt bei der Tesla K20X auf nunmehr 250 Watt bei der GeForce GTX Titan an.

AMD Radeon HD 7990 GeForce GTX 690 GeForce GTX Titan
Chipbasis 2x AMD R1000/Tahiti, 2x 4,3 Mrd Transistoren in 28nm auf 2x 365mm² Chipfläche 2x nVidia GK104, 2x 3,54 Mrd. Transistoren in 28mn auf 2x 294mm² Chipfläche nVidia GK110, 7,1 Mrd. Transistoren in 28nm auf 561mm² Chipfläche
DirectX-Level DirectX 11.1 DirectX 11.0 DirectX 11.0
Technik GCN-Architektur, 4 Raster Engines, 4096 (1D) Shader-Einheiten, 256 TMUs, 64 ROPs, 2x 384 Bit DDR Speicherinterface Kepler-Architektur, 8 Raster Engines, 3072 (1D) Shader-Einheiten, 256 TMUs, 64 ROPs, 2x 256 Bit DDR Speicherinterface Kepler-Architektur, 5 Raster Engines, 2688 (1D) Shader-Einheiten, 224 TMUs, 48 ROPs, 384 Bit DDR Speicherinterface
Taktraten 925/2750 MHz 915/1019/3000 MHz 837/876/3000 MHz
Speicherausbau 2x 3 GB GDDR5
(logisch nutzbar nur 3 GB)
2x 2 GB GDDR5
(logisch nutzbar nur 2 GB)
6 GB GDDR5
PCI Express 1.x/2.0/3.0 1.x/2.0/3.0 1.x/2.0/3.0
Layout TripleSlot DualSlot DualSlot
Kartenlänge 31,5cm 28cm 26,5cm
Stromanschlüsse 2x 8pol. 2x 8pol. 1x 6pol. + 1x 8pol.
TDP 375W 300W 250W
Idle-Verbrauch ca. 30W 24W 12W
Spieleverbrauch ca. 320W 270W 206W
3DC Perf.Index
(1920x1080 4xAA)
~580% 580% 480%
Listenpreis kein offizielles AMD-Produkt 999$ 999$
Straßenpreis 830-860€ 850-880€ 940-950€
(lieferbar ab 26. Februar)