Kommentar: Nvidia interessiert sich nicht für Geforce-Käufer

Samstag, 14. Februar 2015
 / von aths
 

Was verspricht sich Nvidia davon, auf seinem Standpunkt zu beharren? Soll sich der Käufer einer Geforce GTX 970 sagen "Die haben ja Recht. Ich dachte zwar, eine Karte zu kaufen, wo 4 GB mit 256 Bit angebunden sind, und habe nur eine Karte bekommen, wo 3,5 GB mit 224 Bit angebunden sind sowie 0,5 GB mit beinahe unbrauchbaren 32 Bit, aber es sind ja irgendwie 4 GB. Da bin ich aber froh!"

Der Käufer möchte eingehend informiert werden, bevor er kauft.

   Der Grund für die Entwicklung der GTX 980

Eines muss man den Entscheidern von Nvidia lassen: Sie denken ihr Produkt-Portfolio vom Ende her. Die zugrunde liegende Maxwell-Architektur muss für das kommende Spitzenmodell GM200 ohnehin entwickelt werden – also lässt sich eine kleinere Maxwell-GPU nutzen, um vorläufig den Preispunkt für das bisherige Gaming-Spitzenmodell hochzuhalten. Bei günstigerer Fertigung.

Diese etwas kleinere GPU heißt GM204. Sie soll sich mit einer alten GTX 780 Ti anlegen können, darf aber nicht so schnell sein, dass der später kommende große Chip in Bedrängnis gerät.

Versetzen wir uns nun in die Lage von Nvidia: Der GM204-Chip lässt sich höher takten als gedacht. So viel Leistung wird nicht benötigt. Also wird die GPU nur moderat getaktet. Um die Karte weiter zu zügeln, wird die Stromversorgung so eingestellt, dass die GPU im Dauerbetrieb den Boostclock bitte nicht oft überschreitet. Der Referenzkühlkörper ist von der Titan-Karte inspiriert, wird allerdings ohne die Vapor-Chamber des Original-Kühlers gebaut. Eine Metallplatte als GPU-Auflage reicht aus.

Fehlt nur noch ein Name für die Karte. Mit dem schwachen Argument, die 800-er Serie bereits im Mobilbereich eingeführt zu haben, nennt Nvidia die neue Karte GTX 980.

   Das Ziel der GTX 970

Nun muss noch eine kleinere Version entwickelt werden, um auf Grundlage desselben Chips ein zweites Angebot zu haben für Käufer, die nicht so viel Geld ausgeben wollen.

Da sich die GM204-Chips durchweg gut takten lassen, braucht man mit dem Takt man nicht groß runtergehen. Dafür deaktiviert man drei von 16 Shader-Clustern. Von zuvor insgesamt 2048 einzelnen Rechenwerken bleiben also noch 1664 aktiv. Wir dürfen davon ausgehen, dass der Gedanke der Verwertung von teildefekten Chips zweitrangig ist: Einzelne Chips mögen hier und da einen Defekt aufweisen. Gleich drei Shader-Cluster zu deaktivieren, ist lediglich eine Frage der Produktdifferenzierung.

Vordergründig wirkt es wie die reine Verschwendung, heile Chips zu nehmen und mit teilweiser Deaktivierung zu verkaufen. Doch das ist immer noch günstiger, als zur Abdeckung dieses Segments eine eigene GPU zu entwickeln und zu fertigen.

Auch mit nur 13 aktiven von 16 vorhandenen Clustern ist die GTX 970 getaufte Grafikkarte noch sehr schnell. Zu schnell für das angepeilte Marktsegment. Nicht nur die Rechenleistung muss runter, auch die Speicherbandbreite muss geringer ausfallen. Hier stünden Nvidia drei Möglichkeiten offen:

  1. Langsameren Speicher verbauen.
  2. Die Maxwell-Bandbreitenkomprimierung abschalten.
  3. Das Speicherinterface schmaler machen.

Option 1 – beispielsweise 3000-MHz-Speicher zu verbauen – hat den Nachteil, dass die Karte altbacken wirkt. Spätestens wenn die GPU auf dem Graumarkt erhältlich ist, könnte sie in einer Version mit 3500-MHz-Speicher gebaut werden. Kommt dann noch GPU-Übertaktung dazu, gerät die Leistung gefährlich nahe in die Region der 980. Der Preis für die 980 wäre nicht mehr marktfähig. Doch die GTX 980 wurde ja extra gebaut, um den Preispunkt für derartige Leistung vorläufig über 500 Euro zu halten.

Option 2 – Bandbreitenkomprimierung abschalten – würde die eigene Ingenieurleistung konterkarieren. Es würde auch kleinlich wirken, erst eine sinnvolle Bandbreiten-Spartechnologie zu entwickeln, diese aber den Käufern einer GTX 970 vorzuenthalten.

Option 3 – Verkleinerung des Speicherinterfaces – verbleibt als schon in der Vergangenheit bewährte Möglichkeit. Die GM204-GPU steuert acht einzelne 32-Bit-Interfaces an, welche in der Summe ein 256-Bit-Speicherinterface ergeben.

Nvidia entscheidet sich, den Einschnitt gering zu halten: Anstatt gleich auf ein 192-Bit-Interface herunterzugehen, wird das Interface lediglich auf 224 Bit gekürzt. Weil jedes einzelne 32-Bit-Interface seinen eigenen Speicherbaustein bedient, kann mit der Deaktivierung eines Interfaces auch ein Speicherbaustein nicht mehr angesprochen werden. Der adressierbare Speicherbereich sinkt von 4 auf 3,5 GiByte. Damit hätte die Karte noch immer mehr Speicher als das bisherige Spitzen-Gaming-Modell GTX 780 Ti. Die 970 wird jedoch anders auf den Markt gebracht.

   Der wahre Aufbau der GTX 970

Welche Überlegung den Ausschlag gab, ist nicht bekannt. Im Raum stehen einige Vermutungen: Dreikommafünf GB RAM? Das wirkt nicht so schön rund wie vier GB. 3,5 erscheint wie Flickwerk.

Zudem möchte man die Karte auch als 4K-Gamingprodukt vermarkten. Da ist in Namen wieder eine Vier drin. Insbesondere für einen 4K-Einsatz wäre die Anschaffung eines SLI-Systems überlegenswert. Da jede GPU ihren eigenen Speicher braucht, greift der informierte User nicht zu Karten mit knappem Speicherausbau.

Vielleicht ist das auch viel zu kompliziert gedacht und man sah bei Nvidia auf die Konkurrenz, die mit der Radeon R9-290 eine ordentliche 4-GB-Karte im Angebot hat. Könnte man sich mit der 290 anlegen, schlägt man zwei Fliegen mit einer Klappe: Erstens greifen mehr Kunden zum eigenen Produkt. Zweitens – noch besser – muss die Konkurrenz mit dem Preis weiter runter, als es gegen eine 3,5-GB-Karte nötig wäre.

Das hieße, dass auch die 970 vier GB RAM braucht, obwohl das Speicherinterface extra auf 224 Bit verkleinert wird. Das hat Nvidia so realisiert, dass zwar einer der acht Level-2-Cache-Bausteine deaktiviert wird, aber alle acht Speichercontroller erhalten bleiben. Einer der L2-Bausteine muss demnach zwei Speicher-Chips bedienen.

Jeder einzelne RAM-Baustein ist mit 32 Bit angebunden. Die GTX 970 macht es konkret so, dass wenn eine Textur von der Festplatte in den Grafikspeicher geladen wird, in sieben RAMs je ein Siebtel der Daten abgelegt wird. Braucht die GPU die Textur, liest sie aus sieben RAMs gleichzeitig und kommt so auf die 7 x 32 = 224 Bit pro Takt.

Der achte RAM hängt dabei in der Luft. Wenn er angesprochen wird, stehen ihm nur 32 Bit zur Verfügung. Der Zugriff auf die letzten 0,5 GB ist also sehr langsam.

Hinzu kommt die Exklusivität des Zugriffs: Solange der achte RAM-Baustein Daten transferiert, blockiert er seinen Nachbar-RAM, da sich beide einen L2-Cacheblock teilen. Um auf den schnellen 3,5-GB-Bereich zuzugreifen, muss man jedoch aus allen seinen sieben RAMs lesen. Da darf kein Chip blockiert sein.

Es ließen sich Szenen konstruieren, wo möglicherweise für einen Burst dann doch alle acht Chips gleichzeitig was tun haben, das ist allerdings in der Praxis nicht von Belang. Der Eingriff wurde ja auch bewusst vorgenommen, um die Bandbreite zu verkleinern. Hätte nicht die Bandbreiten-Senkung, sondern die Verringerung des Speichers der Hauptgrund sein sollen, hätte sich Nvidia nicht extra bemüht, noch 512 MB RAM anzuflanschen. Stattdessen hätte die Karte mit nur sieben RAM-Chips ein klein wenig preiswerter erscheinen können.

Eine Grafikkarte künstlich schwächer zu machen, hat im Rahmen der Produktgestaltung seine Berechtigung. Leider wurden die Eingriffe am Speicher seitens Nvidia nicht zum Produktstart dokumentiert.

   Hat die Presse versagt?

Laut Presse-Material zum Launch hat die 970 explizit das gleiche Speichersubsystem wie die 980. Dass das nicht hinkommt, ist nicht so leicht zu ermitteln wenn man nicht weiß, wonach man suchen muss. Das erste Anzeichen erwies sich jedenfalls als falsche Fährte: Die 970 erbringt nicht den ausgewiesenen Pixeldurchsatz, wie hardware.fr zeigte. Offenbar fehlen einige der dafür zuständigen Raster-Operation, kurz ROPs, genannten Einheiten.

Nvidia hatte vergessen anzugeben, dass einige ROP-Bestandteile nun im Shader-Cluster liegen und durch die Deaktivierung einiger Cluster auch die effektive ROP-Zahl sinkt. Dass Nvidia noch viel mehr vergessen hat anzugeben, war noch nicht abzusehen.

Es gab zwei weitere Anhaltspunkte. Die GTX 970 hat laut Papier-Spezifikationen wesentlich mehr Bandbreite in Relation zur Rechenkraft als die 980. In bandbreitenlimitierten Szenen dürfte die 970 also kaum Leistung einbüßen. Einige Publikationen nahmen zum Launch entsprechende Messungen vor, doch die 980 konnte sich immer souverän von der 970 absetzen. Im Umkehrschluss war die 970 langsamer als erwartet. Weiter verfolgt wurde diese Spur nicht.

Als Zweites zeigte sich, dass einige Tools bei der 970 nur 1,8 MB (ergibt sich aus aufgerundeten 1,75 MiByte) L2-Cache auslesen, obwohl die GPU doch 2 MiByte haben soll. Da Speicherzugriffe über den Cache gehen, macht das stutzig. Doch wer weiß schon, was exakt von so einem Tool ausgelesen wird? Durch die Cluster-Deaktivierung könnte das Tool irregeleitet sein. Die Benchmarks der 970 liegen ja, mit Ausnahme spezieller Tests bei Bandbreitenlimitierung, im Bereich des Erwarteten. Der offizielle Guide für Reviewer schreibt der 970 die gleiche Speicherspezifikation wie der 980 zu. Warum sollte Nvidia dann auf der 970 bewusst L2-Cache deaktiveren?

Es hätte nur entdeckt werden können, wenn vergleichende Benchmarks nahe der 4-GB-Grenze gemacht wären. Aber nicht nur auf die Art, zwischendurch Kaffee zu trinken und am Ende die Ergebnisse abzutippen. Man hätte sich den Speicherverbrauch ansehen und eine Frametime-Analyse mitlaufen lassen müssen.

Dann wäre aufgefallen: Die 970 ziert sich, mehr als 3,5 GB zu belegen. Geht die Belegung doch darüber hinaus, sind zwar die Durchschnittsframeraten noch passabel, aber es gibt einige einzelne spürbare Ruckler zwischendurch.

Hier fehlte der gesamten Weltfachpresse, auch dem Heise-Verlag, der wenigstens im Nachhinein deutliche Worte fand, der Riecher an einer großen Sache zu sein. Entdeckt wurde es, mit einem Hinweis auf einen Thread im Guru3D-Forum, auch bei uns im Forum. Es waren User, die einfach nicht lockerließen. Es war Nai aus dem Computerbase-Forum, der schnell in Cuda einen Bandbreiten-Benchmark schrieb, welcher den endgültigen Beweis brachte.

   Worum es nicht geht

Nvidia konnte es nicht mehr leugnen und bequemte sich zu einer Stellungnahme. Dazu gab es einen offiziellen Benchmark-Vergleich mit drei Spielen. Der Nvidia-Benchmark wurde jedoch im ">3.5 GB"-Szenario mit Settings gefahren, die auch eine GTX 980 stark einbrechen ließ. Im Vergleich dazu verliert die 970 in Relation kaum zusätzlich.

Die gesammelte Presse veröffentliche brav die von Nvidia zunächst an PCPer gegebene, durch fragwürdige Benchmarkvergleiche erstellte Schlussfolgerung, dass die 970 nur 1-3% zusätzlich Performance verlieren würde.

Etwas später gab es neue Meldung seitens Nvidia, mit einem Schaubild zur GTX-970-Speicherkonfiguration. Dazu hieß es, es habe bedauerlicherweise einen internen Kommunikationfehler gegeben. Seitdem ist Funkstille. Zwei Fragen werden nun immer wieder diskutiert:

  • Besteht eine justistische Relevanz?
  • Ist die 970 noch eine gute Karte?

Die Frage, ob die von Nvidia angegebenen Spezifikationen rechtlich angreifbar sind, ist in der Praxis uninteressant. Sollte gerichtlich entschieden werden, dass die Angaben nicht falsch genug sind, um Nvidia zu verurteilen, so sind sie trotzdem nicht wahr genug, um von der Fachwelt oder vom Käufer akzeptiert werden zu können.

Die Frage, ob die GTX 970 noch immer ihr Geld wert ist, lässt sich allgemein gesagt mit Ja beantworten. Darum geht es aber nicht, sondern um Nvidias Verhalten, durch fantasievoll ausgelegte Spezifikationen die Karte besser aussehen zu lassen als sie ist.

   Bestand Absicht?

Nvidia hat keine Mühe gescheut, um die 970 doch noch auf 4 GB zu bringen. Da trifft es sich natürlich gut, dass auch Monate nach dem Launch noch keiner der Entscheider und keiner der Treiberprogrammierer bemerkt hatte, dass die offziellen Angaben irreführend sind. Fast hätte es auch geklappt – die Fachmedien haben es wie gesagt nicht herausbekommen, sondern die Communitys mehrerer Foren.

Nachdem Nvidia eine interne Fehlkommunikation eingeräumt hat, warten wir noch immer auf transparente Spezifikationen. Die offiziellen Angaben der GTX 970 sind jedoch unverändert online und wurden auch nicht mit weiterführenden Erklärungen versehen.

Sogar einige große Shops, die von dem Problem inzwischen durch Kundenanfragen wissen, belassen die offiziellen Angaben unverändert. Warum ist deren Interesse, Nvidias Sicht zu vertreten größer, als die Käufer umfassend über das Produkt zu informieren?

Auch was die Rücknahme angeht, bekleckern sich einige Händler nicht gerade mit Ruhm. Das Argument, dass Nvidia bestätige, dass die 970 so wie vorgesehen arbeite, ist absurd. Nvidia, damit auch die Boardpartner und im letzten Schritt die Händler, hätten vor dem Kauf angeben müssen, wie die 970 wirklich arbeitet.

Woran soll der User noch alles glauben? Erst an 4 GB mit 256 Bit, dann an ein Versehen? Und sich dann darüber freuen, dass die Karte "wie vorgesehen" arbeitet – mit einer eingebauten Bremse, die ihm vor dem Kauf verschwiegen wurde?

Die Fachpresse ist zum allergrößten Teil vorsichtig in den Formulierungen und beschränkt sich vorwiegend auf zwei Themen: Erstens auf die Benchmarks, in denen die 970 für ihren Preis weiterhin gut abschneidet. Obwohl es gerade darum nicht geht. Zweitens belassen sie es bei einer Beschreibung des 3,5+0,5-Speicheraufbaus. So als ob es sich bei der GTX 970 um wirklich ausgefuchste Technologie handelt. Und nicht um eine Markitektur mit 0,5 GB Spaß-RAM, dessen Benutzung der Treiber aus gutem Grund zu vermeiden versucht.

Dass die direkten Nvidia-Pressekontakte im Vorfeld davon wussten, ist kaum vorstellbar. Dass sie jetzt offenkundig entweder nicht den Willen, oder nicht das interne Durchsetzungsvermögen haben, die Presse mit offiziell korrigierten Spezifikationen und korrigierten Review-Guides beliefern zu dürfen, spricht Bände in Bezug auf die Nvidia-Firmenkultur.

Was hält Nvidia vom eigenen Produkt, wenn die Firma sich nicht traut, es korrekt zu beschreiben?