GPGPU-Beschleuniger AMD FirePro S10000 und nVidia Tesla K20/K20X vorgestellt

Anläßlich der Supercomputer-Konferenz SC12 haben AMD und nVidia ihre neuesten GPGPU-Beschleuniger vorgestellt, während Intel zeitgleich mit der Auslieferungsmeldung zu Xeon Phi auch noch ein wenig Aufmerksamkeit auf sich zu ziehen versucht. Den Anfang machte AMD mit der Präsentation der AMD FirePro S10000, hinter welcher sich schlicht die Profi-Ausführung der Radeon HD 7990 mit also zwei R1000/Tahiti-Chips verbirgt. Diese fährt AMD allerdings nicht vollständig aus, es gibt nur zweimal 1792 Shader-Einheiten auf nur 825 MHz Takt. Diese Begrenzungen waren aber notwendig, damit die Verlustleistung nicht ins Maßlose explodiert, denn trotzdem weist die AMD FirePro S10000 eine TDP von satten 375 Watt auf. Trotz gewisser Energieverschwendung setzt die Karte bei den Leistungsdaten jedoch echte Maßstäbe mit einer SinglePrecision-Rechenleistung von 5,91 TeraFlops und einer DoublePrecision-Rechenleistung von 1,48 TeraFlops.

	FirePro S7000	FirePro S9000	FirePro S10000
Chipbasis	AMD Pitcairn, 2,8 Mrd. Transistoren in 28nm auf 212mm² Chip-Fläche	AMD R1000/Tahiti, 4,31 Mrd. Transistoren in 28nm auf 365mm² Chip-Fläche	2x AMD R1000/Tahiti, 4,31 Mrd. Transistoren in 28nm auf 365mm² Chip-Fläche
Technik	1280 (1D) Shader-Einheiten an einem 256 Bit DDR Speicherinterface, 2 FMA pro Takt & Shader-Einheit, SP/DP-Verhältnis von 1:16	1792 (1D) Shader-Einheiten an einem 384 Bit DDR Speicherinterface, 2 FMA pro Takt & Shader-Einheit, SP/DP-Verhältnis von 1:4	3584 (1D) Shader-Einheiten an zwei 384 Bit DDR Speicherinterfaces, 2 FMA pro Takt & Shader-Einheit, SP/DP-Verhältnis von 1:4
Taktraten	950/2400 MHz	900/2750 MHz	825/2500 MHz
Speicher	4 GB GDDR5	6 GB GDDR5 (ECC)	6 GB GDDR5 (ECC)
PCI Express	1.x/2.0/3.0	1.x/2.0/3.0	1.x/2.0/3.0
Bauform	SingleSlot	DualSlot	DualSlot
SinglePrecision	2,43 TFlops	3,23 TFlops	5,91 TFlops
DoublePrecision	0,15 TFlops	0,81 TFlops	1,48 TFlops
Bandbreite	154 GB/sec	264 GB/sec	480 GB/sec
TDP	150W	225W	375W
Listenpreis	1249$	2499$	?

Dabei wollte eigentlich nVidia den Tag im Sturm erobern mit dem Launch der Tesla K20 & Tesla 20X GPGPU-Lösungen, womit erstmals GK110-basierte Produkte offiziell vorgestellt wurden. Beide neuen Tesla-Lösungen nutzen den GK110-Chip – wie vorher schon angekündigt und daher bekannt – nicht voll aus, die Tesla K20X kommt dem Vollausbau von 15 Shader-Clustern aka 2880 Shader-Einheiten mit 14 freigeschalteten Shader-Clustern und damit 2688 Shader-Einheiten doch schon recht nahe. Die Taktraten sind allerdings mit 705 bzw. 735 MHz recht handzahm, was zum einen jedoch typisch für das Profi-Segment ist, nVidia zum anderen jedoch einen einen klaren Vorteil bei der Energieeffizienz gibt: Die Tesla K20 kommt mit nur 225 Watt TDP daher, der schnelleren Tesla K20X reichen auch nur 235 Watt. Letztere Lösung erreicht zwar nur 67% der SinglePrecision-Leistung und 88% der DoublePrecision-Rechenleistungs von AMDs FirePro S10000, kommt dafür aber auch mit nur 63% von deren TDP aus.

	Tesla K10	Tesla K20	Tesla K20X
Chipbasis	2x nVidia GK104, 3,54 Mrd. Transistoren in 28mn auf 294mm² Chip-Fläche	nVidia GK110, 7,1 Mrd. Transistoren in 28nm auf ~550mm² Chip-Fläche
Technik	3072 (1D) Shader-Einheiten an zwei 256 Bit DDR Speicherinterfaces, 2 FMA pro Takt & Shader-Einheit, SP/DP-Verhältnis von 1:24	2496 (1D) Shader-Einheiten an einem 320 Bit DDR Speicherinterface, 2 FMA pro Takt & Shader-Einheit, SP/DP-Verhältnis von 1:3	2688 (1D) Shader-Einheiten an einem 384 Bit DDR Speicherinterface, 2 FMA pro Takt & Shader-Einheit, SP/DP-Verhältnis von 1:3
Taktraten	745/2500 MHz	705/2600 MHz	735/2600 MHz
Speicher	8 GB GDDR5 (ECC)	5 GB GDDR5 (ECC)	6 GB GDDR5 (ECC)
PCI Express	1.x/2.0/3.0	1.x/2.0	1.x/2.0
Bauform	DualSlot	DualSlot	DualSlot
SinglePrecision	4,58 TFlops	3,52 TFlops	3,95 TFlops
DoublePrecision	0,19 TFlops	1,17 TFlops	1,31 TFlops
Bandbreite	320 GB/sec	208 GB/sec	250 GB/sec
TDP	225W	225W	235W
Listenpreis	?	3199$	?

Gegenüber dem Haus-eigenen Kontrahenten Tesla K10 auf Basis zweier GK104-Chips und mit einer TDP von auch nur 225 Watt können die beiden neuen GK110-basierten Tesla-K20-Beschleuniger allerdings nur bei der DoublePrecision-Rechenleistung punkten – bei der SinglePrecision-Rechenleistung bleibt die Profi-Ausführung der GeForce GTX 690 nVidia-intern vorn. Gegenüber AMDs neuer FirePro S10000 hat die Tesla K10 zwar das Nachsehen bei der SinglePrecision-Rechenleistung (nur 77%), die nVidia-Lösung bietet aber auch in diesem Vergleich wieder die klar bessere Energieeffizenz (Verbrauch laut TDP bei nur 60%). Anders formuliert: nVidia schlägt die FirePro S10000 bei der SinglePrecision-Rechenleistung mit der Tesla K10 und bei der DoublePrecision-Rechenleistung mit den beiden Tesla-K20-Lösungen – allerdings nur, wenn man die Energieeffizienz mit beachtet, von den absoluten Rechenleistungen her liegt AMD vorn.

Um ein wenig diese Neuvorstellungen von AMD und nVidia zu unterminieren, hat Intel zudem zum gleichen Zeitpunkt die Auslieferung erster Xeon Phi GPGPU-Beschleuniger bekanntgegeben. So liefert Intel derzeit die Xeon Phi 5110P aus, auf welcher 60 (von maximal möglichen 62) x86-Rechenkerne für eine Taktrate von 1053 MHz freigeschaltet sind. Damit kommt Intel auf eine DoublePrecision-Rechenleistung von 1,07 TFlops – was zwar nicht weit weg von AMD und nVidia liegt, von den Grafikchip-Entwicklern aber eben doch schon überboten wurde. Zudem werden alle Xeon-Phi-Beschleuniger als ziemlich energiehungrig beschrieben (die genauen TDPs wurden erst nach dem Erscheinen dieser Meldung nachgeliefert), so daß Intel in diesem Feld trotz größter Anstrengungen über die letzten Jahre erst einmal nur als dritter Sieger erscheint.

	Xeon Phi 3100	Xeon Phi 5110P	Xeon Phi SE10
Chipbasis	Intel "Knights Corner", 22nm
Technik	57 x86-Rechenkerne an einem 384 Bit DDR Speicherinterface, 32 FMA pro Takt & Rechenkern, SP/DP-Verhältnis von 1:2	60 x86-Rechenkerne an einem 512 Bit DDR Speicherinterface, 32 FMA pro Takt & Rechenkern, SP/DP-Verhältnis von 1:2	61 x86-Rechenkerne an einem 512 Bit DDR Speicherinterface, 32 FMA pro Takt & Rechenkern, SP/DP-Verhältnis von 1:2
Taktraten	?/2500 MHz	1053/2500 MHz	1100/2750 MHz
Speicher	6 GB GDDR5 (ECC)	8 GB GDDR5 (ECC)	8 GB GDDR5 (ECC)
PCI Express	?	1.x/2.0	?
Bauform	?	DualSlot	?
SinglePrecision	>2 TFlops	2,02 TFlops	2,15 TFlops
DoublePrecision	>1 TFlops	1,01 TFlops	1,07 TFlops
Bandbreite	240 GB/sec	320 GB/sec	352 GB/sec
TDP	300W	225W	300W
Listenpreis	<2000$	2649$	?

Am Ende entscheiden jedoch über den Kauf solcher GPGPU-Beschleuniger noch mehr Dinge als rein nur Rechenleistung, Energieeffizienz und Preislage. Zum einen kann sich je nach Art des Projekts jeweils eine andere Lösung in der Vorhand befinden, zum anderen geht in diesem Feld eben auch viel über die Entwickler-Freundlichkeit bzw. das, was die Software-Entwickler kennen und mögen. Und diesbezüglich ist nach wie vor nVidia im klaren Vorteil, beackert man dieses Geschäftsfeld eben einfach länger und intensiver als AMD und Intel. Daher wäre es nicht überraschend, wenn nVidia auch weiterhin die meisten Aufträge in diesem Feld an Land zieht – trotzdem dürften AMD und Intel aufholen, da von der reinen Technik her grob durchaus auf Augenhöhe mit nVidia.

Nachtrag vom 13. November 2012

Aus unserem Forum kommt eine Spezifikations-Tabelle aus Intel-Unterlagen [1], welche die einzelnen Varianten von Xeon Phi nochmals genauer beschreibt. So gibt es nunmehr genauere Angaben zum Speichertakt und zur Speicherbandbreite (woraus sich das jeweils benutze Speicherinterface ergibt), genauso gibt Intel auch TDPs zu den Xeon-Phi-Lösungen bekannt. Und jene liegt zumindest bei der Xeon Phi 5110P mit 225 Watt durchaus im Rahmen – zumindest mit dieser Xeon-Phi-Lösung ist Intel nicht so weit weg von AMD und nVidia. Trotzdem reicht es für Intel nirgendwo zu einem Durchbruch, da man in keiner Disziplin vornliegt – weder bei den reinen Rechenleistungen noch bei der Energieeffizienz.

Dafür scheint Intel den besten Preis machen zu wollen, denn die veranschlagten 2649 Dollar für eine Xeon Phi 5110P sind etwas günstiger als bei der Tesla K20 (3199 Dollar) sowie augenscheinlich günstiger als bei der FirePro S10000 (derzeit keine Preisangabe, aber die kleinere FirePro S9000 kostet ihre 2499 Dollar). Der Heise Newsticker [2] fügt zudem zu der erst nächstes Jahr zu erwartenden Xeon Phi 3100 Serie an, daß die zwei Karten dieser Serie mit nur 57 aktiven x86-Rechenkernen ausgeliefert werden, trotzdem aber über 1 TeraFlops DoublePrecision-Rechenleistung liefern sollen. Dies bedeutet zwingend einen höheren Chiptakt von mindestens 1100 MHz – und damit sogar mehr als bei der Xeon Phi SE10 Serie, welche Intel nur auf eine spezielle Kundenanforderung hin aufgelegt hat. Da Intel für diese höhere Taktrate die TDP dann aber auf 300 Watt erhöhen muß, scheint hier schon das Ende der Taktraten-Fahnenstange bei Xeon Phi erreicht zu sein.