31

Neuere nVidia-Roadmap bestätigt Pascal-Details sowie präzisiert Pascal- & Volta-Zielrichtung

In unser Forum wurde eine neuere nVidia-Roadmap (PDF) entdeckt, welche nVidia auf der ASC15 im Mai 2015 gezeigt haben muß. Dies ist nicht mehr ganz brandneu, aber immer noch (etwas) aktueller als die letzte öffentlich bekannte nVidia-Roadmap, welche nVidia selber auf der GTC15 im März 2015 gezeigt hatte. Demzufolge sind die Differenzen zwischen diesen beiden Roadmaps auch eher gering – aber zumindest werden einige bekannte Dinge zur Pascal-Generation erneut bestätigt:

So wird der Pascal-Topchip (für professionelle Bedürfnisse), aka allerhöchstwahrscheinlich der GP100, mit einer Speicherkapazität von maximal 16 GB Speicher bei einer Speicherbandbreite von rund 1 TB/sec antreten. Früher wollte nVidia an dieser Stelle gleich 32 GB Speicher bieten, aber die doppelte Speicherkapazität bei HBM2-Speicher wird erst später verfügbar, demzufolge musste nVidia hier heruntergehen (wobei spätere Pascal-Ausbaustufen dann durchaus doch mit 32 GB HBM2-Speicher im professionellen Bereich antreten könnten). Bei der theoretischen Rechenleistung werden "größer als 3 TFlops" genannt, was dann die DoublePrecision-Rechenleistung darstellen wird. Dies liegt noch im Rahmen früherer Prognosen, inoffiziell wurden im Juni 2015 mal 3 TFlops DP und 12 TFlops SP durch einen "CUDA-Fellow" genannt. Für die Hochrechnung auf exakte Hardware-Spezifikationen ist diese Angabe aber noch zu ungenau, gerade da das DP/SP-Verhältnis beim GP100-Chip immer noch nicht sicher bekannt ist.

Die neue Grafikchip-Roadmap bringt hingegen keinerlei Differenzen zur vorhergehenden Roadmap mit – auch bei dieser wurde die Pascal nachfolgende Volta-Architektur bereits eher Ende 2017 als Anfang 2018 eingezeichnet. Ob nVidia dies halten kann, bliebe streng abzuwarten, denn wenn Volta wirklich einen großen Schub bei der Performance mitbringen soll, dann wird hierfür ein neues Fertigungsverfahren notwendig – und die fallen bekanntlich nicht von den Bäumen. Und der große Sprung ergibt sich sehr eindeutig aus dieser Roadmap: Gegenüber Pascal soll Volta die DoublePrecision-Effizienz (Rechenleistung pro verbrauchtem Watt) um satte 62% steigern. Nur mit Architekturverbesserungen erscheint dies als kaum erreichbar, noch dazu wo nVidia gerade erst mit Maxwell einen großen Effizienzsprung hingelegt hat (und damit das Potential für zukünftige Effizienzsprünge um so kleiner wird):

DP-Effizienz reale Entsprechung Prognose (bei ähnlichen Taktraten)
Fermi 2 GFlops/Watt Tesla C2070  (512 SE @ 1150 MHz bei 247W TDP = max. 2,1 GFlops/Watt) -
Kepler ~7 GFlops/Watt Tesla K40  (2880 SE @ 745/845 MHz bei 235W TDP = max. 7,1 GFlops/Watt) -
Maxwell ~11 GFlops/Watt eigentlich ein falscher Wert, da Maxwell keine DP-Power hat -
Pascal ~14,5 GFlops/Watt noch nicht releast bei ähnlichen Taktraten benötigt es ungefähr 5500-6000 Shader-Einheiten (DP/SP 1:3) bzw. 3600-4000 Shader-Einheiten (DP/SP 1:2), um gegenüber Kepler auf die 2,1fache DP-Effizienz zu kommen
Volta ~23,5 GFlops/Watt noch nicht releast bei ähnlichen Taktraten benötigt es grob 9000-10000 Shader-Einheiten (DP/SP 1:3) bzw. 6000-6500 Shader-Einheiten (DP/SP 1:2), um gegenüber Kepler auf die 3,4fache DP-Effizienz zu kommen

Rechnet man die nVidia-Angaben in dafür benötigte Shader-Einheiten um und geht dabei von in etwa gleichen oder nur leicht höheren Taktraten aus, dann ergeben sich auch schon Zielrichtungen für die bei den jeweiligen Topchips zu erwartende Anzahl an Shader-Einheiten: 5500-6000 Shader-Einheiten bei Pascal sowie 9000-10000 Shader-Einheiten bei Volta müssten es gemäß dieser nVidia-Angaben werden, wenn das DP/SP-Verhältnis von 1:3 (wie bei Kepler) kommt. Bringt nVidia hingegen ein DP/SP-Verhältnis von 1:2, wie es eigentlich das Feature der "Mixed Precision" (ab Pascal) nahelegt, dann reduziert sich diese Angabe auf 3600-4000 Shader-Einheiten bei Pascal sowie 6000-6500 Shader-Einheiten bei Volta. Mit völlig abweichenden Taktraten oder auch abweichenden TDP-Werten würde diese Rechnung natürlich in sich zusammenfallen – wobei insbesondere letzteres arg unwahrscheinlich ist, denn bei den Tesla-Karten muß sich nVidia an die (festen) Gegebenheiten des professionellen Marktes halten.

Bezüglich anderer Taktraten sind in jenen Prognosen bereits gewisse Spielräume für leicht steigende Taktraten enthalten. Wieviel sich davon realisieren läßt, ist in erster Linie eine Frage der Takt-Möglichkeiten der kommenden 14/16nm- und 10nm-Fertigungsverfahren, welche vor wirklichen Erfahrungswerten mit entsprechenden Grafikchips aus diesen Fertigungsstufen niemand sicher bestimmen kann. Die Theorie spricht sicherlich für leicht steigende Taktraten mit jeder neuen Fertigungsstufe, in unserem Forum mehren sich in der Expertendiskussion allerdings die Anzeichen dafür, das die FinFET-Fertigungsverfahren allesamt nicht gerade taktfreudig sind, die Taktratengewinne ab der 14/16nm-Fertigung also vielleicht eher mager ausfallen werden. Man sollte vorstehende Angaben dennoch eher als Maximalwerte betrachten. Hinzu kommt speziell zur Volta-Generation, das der GV100-Chip sicherlich noch in der Designphase ist, seinen Tape-Out also noch nicht hatte – und damit auch jetzt noch Änderungen am Chipdesign bzw. der Anzahl der Hardware-Einheiten möglich sind.