Launch-Analyse Intel Broadwell-E

Dienstag, 7. Juni 2016

/ von Leonidas

Mit dem Start der Computex hat Intel seine nächste Enthusiasten-Plattform vorgestellt und auch in den Handel entlassen: Broadwell-E beerbt das schon vor zwei Jahren vorgestellte Haswell-E. Im selben Sockel 2011v3 antretend und dieselbe Mainbard-Plattform benutzend, ist Broadwell-E ein faktischer Refresh – welcher aber dennoch durch die erstmalige Verwendung der 14nm-Fertigung bei diesen Enthusiasten-Prozessoren und damit den ersten Zehnkerner im Consumer-Segment etwas besonderes zu bieten hat. Wir fassen nachfolgend die Spezifikationen, Performance-Messungen und Overclocking-Ergebnisse des Launches zusammen, wobei wie üblich besonderes Augenmerk auf der Performance-Einstufung der neuen Prozessoren gegenüber den bisherigen Enthusiasten-Prozessoren liegt.

Intel Broadwell-E Dieshot

Intel Broadwell-E Diemap

Mit Broadwell-E führt Intel somit den Weg der Sockel 2011v3 Plattform weiter – und bietet auf dieser wie gesagt erstmals 14nm-Prozessoren sowie erstmals einen Zehnkerner im Consumer-Segment. Ansonsten halten sich die technologischen Verbesserungen gegenüber Haswell-E in engen Grenzen: Der (offizielle) Speichersupport geht von DDR4/2133 auf DDR4/2400 hoch, am PCI-Express-Support ändert sich nichts (weiterhin maximal 40 PCI Express 3.0 Lanes), die Level2- und Level3-Caches bleiben (pro Rechenkern) gleich, es gibt den minimalen IPC-Boost der Broadwell-Architektur – das war es dann schon. Natürlich bringt der Zehnkerner gleich 25 MB Level3-Cache mit sich, aber pro Rechenkern sind dies wie schon bei Haswell-E und auch den anderen Modellen von Broadwell-E dieselben 2,5 MB Level3-Cache.

Der eigentliche Clou von Broadwell-E liegt in der 14nm-Fertigung, womit Intel zu den eigenen Mainstream/Performance-Modellen aufschließt, welche schon in der (ebenfalls in 14nm gefertigten) Skylake-Generation angekommen ist. Nur durch die Verwendung eben jener 14nm-Fertigung war es Intel letztlich möglich, für Broadwell-E ein sogar natives Zehnkern-Die aufzulegen (alle Modelle Broadwell-E entstammen diesem einen Die), welches seine immerhin 3,4 Milliarden Transistoren auf einer Chipfläche von nur 246mm² unterbringt. Dies ist eine Größenklasse, welche Intel unter der 45nm-Fertigung noch für einen schnöden Vierkerner der Mainstream/Performance-Ausführungen innerhalb der Nehalem-Architektur benötigt hatte (774 Mill. Transistoren auf 296mm²). Selbst AMD benötigt für seine APUs der Carrizo- und Bristol-Ridge-Baureihen (in der 28nm-Fertigung) immer noch eine Chipfläche von 250mm² – mit nur vier Rechenkernen deutlich geringerer Leistungsfähigkeit (plus natürlich integrierter Grafik mit großem Flächenbedarf).

	Mainstream/Performance-Prozessoren	Enthusiasten-Prozessoren ("E")
Nehalem	Sockel 1156, 4 Kerne + (optionalem) HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 8 MB Level3-Cache, DualChannel-Speicherinterface bis DDR3/1333, PCI Express 2.0 Interface x16, keine integrierte Grafik, 774 Mill. Transistoren auf 296mm² Chipfläche in 45nm (nativer Vierkerner)	Sockel 1366, 4/6 Kerne + HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 12 MB Level3-Cache, TripleChannel-Speicherinterface bis DDR3/1066, kein PCI Express Interface, keine integrierte Grafik, 1170 Mill. Transistoren auf 240mm² Chipfläche in 32nm (nativer Sechskerner)
Sandy Bridge	Sockel 1155, 2/4 Kerne + (optionalem) HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 8 MB Level3-Cache, DualChannel-Speicherinterface bis DDR3/1333, PCI Express 2.0 Interface x16, integrierte HD3000-Grafik auf DirectX 10.1, 1160 Mill. Transistoren auf 216mm² Chipfläche in 32nm (nativer Vierkerner mit GT2-Grafik)	Sockel 2011, 4/6 Kerne + HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 15 MB Level3-Cache, QuadChannel-Speicherinterface bis DDR3/1600, PCI Express 3.0 Interface x40, keine integrierte Grafik, 1270 Mill. Transistoren auf 270mm² Chipfläche in 32nm (nativer Vierkerner) oder 2270 Mill. Transistoren auf 435mm² Chipfläche in 32nm (nativer Achtkerner)
Ivy Bridge	Sockel 1155, 2/4 Kerne + (optionalem) HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 8 MB Level3-Cache, DualChannel-Speicherinterface bis DDR3/1600, PCI Express 3.0 x16, integrierte HD4000-Grafik auf DirectX 11.0, 1400 Mill. Transistoren auf 160mm² Chipfläche in 22nm (nativer Vierkerner mit GT2-Grafik)	Sockel 2011, 4/6 Kerne + HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 15 MB Level3-Cache, QuadChannel-Speicherinterface bis DDR3/1866, PCI Express 3.0 Interface x40, keine integrierte Grafik, 1860 Mill. Transistoren auf 257mm² Chipfläche in 22nm (nativer Sechskerner)
Haswell	Sockel 1150, 2/4 Kerne + (optionalem) HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 8 MB Level3-Cache, DualChannel-Speicherinterface bis DDR3/1600, PCI Express 3.0 x16, integrierte HD4000/5000-Grafik auf DirectX 12 (FL 11_1) mit optional 128 MB eDRAM, 1,4 Mrd. Transistoren auf 177mm² Chipfläche in 22nm (nativer Vierkerner mit GT2-Grafik)	Sockel 2011-v3, 6/8 Kerne + HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 20 MB Level3-Cache, QuadChannel-Speicherinterface bis DDR4/2133, PCI Express 3.0 Interface x40, keine integrierte Grafik, 2,6 Mrd. Transistoren auf 356mm² Chipfläche in 22nm (nativer Achtkerner)
Broadwell	Sockel 1150, 4 Kerne + (optionalem) HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 6 MB Level3-Cache, DualChannel-Speicherinterface bis DDR3L/1600, PCI Express 3.0 x16, integrierte Iris-Pro-6200-Grafik auf DirectX 12 (FL 11_1) mit 128 MB eDRAM, ~2,3 Mrd. Transistoren auf ~190mm² Chipfläche in 14nm (nativer Vierkerner mit GT3-Grafik, plus optionaler eDRAM)	Sockel 2011-v3, 6/8/10 Kerne + HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 25 MB Level3-Cache, QuadChannel-Speicherinterface bis DDR4/2400, PCI Express 3.0 Interface x40, keine integrierte Grafik, 3,4 Mrd. Transistoren auf 246mm² Chipfläche in 14nm (nativer Zehnkerner)
Skylake	Sockel 1151, 2/4 Kerne + (optionalem) HyperThreading, 256 kByte Level2-Cache pro Kern, maximal 8 MB Level3-Cache, DualChannel-Speicherinterface bis DDR3L/1600 oder DDR4/2133, PCI Express 3.0 x16, integrierte HD500-Grafik auf DirectX 12 (FL 12_1), ~1,9 Mrd. Transistoren auf ~122mm² Chipfläche in 14nm (nativer Vierkerner mit GT2-Grafik)	erwartet für Q2/2017 (mit dann neuem Sockel und zwingend neuen Mainboards)

Während gerade bei den Mainstream/Performance-Prozessoren von Intel die immer kleiner werdenden Fertigungsverfahren nicht wirklich zu mehr Performance beigetragen haben (wenig IPC-Gewinn, kaum höhere Taktraten), nutzt Intel seinen Vorteil bezüglich moderner Fertigungsverfahren bei den Enthusiasten- und Server-Prozessoren auch dazu aus, auch wirklich mehr Performance zu bieten. Dies passiert wegen der geringen Fortschritte zwischen den Prozessor-Generationen aber auch nicht über höhere IPCs – genauso wenig über höhere Taktraten, wobei Intel in dieser Frage bewußt vorsichtig vorgeht, um nicht wie früher beim Pentium-4-Design an harte Widerstände zu stoßen. Vielmehr kommt die Mehrperformance primär über mehr Rechenkerne – bei Haswell-E gab es schon den ersten Intel-Achtkerner im Consumer-Segment, bei Broadwell-E nun den ersten Zehnkerner im Consumer-Segment.

Hinzu kommen maßvolle und damit aber auch kaum beachtbare Taktratensprünge der vergleichbaren Modelle. Der Zehnkerner steht logischerweise etwas allein im Portfolio da, die anderen drei Modelle von Broadwell-E lassen sich jedoch gut mit den drei bekannten Modellen von Haswell-E vergleichen. Die Spezifikationen sind zwischen Haswell-E und Broadwell-E hierbei nahezu identisch, wie gesagt gibt es einen höheren offiziellen Speichertakt in Form von DDR4/2400 sowie minimal höhere Taktraten: Zwischen Core i7-5820K und Core i7-6800K gibt es nur 100 MHz mehr Basetakt (+3,0%), aber keinen veränderten Turbotakt – dies dürfte daher kaum bemerkbar sein. Zwischen Core i7-5930K und Core i7-6850K gibt es jeweils 100 MHz mehr Basetakt (+2,9%) und Turbotakt (+2,7%), auch dies dürfte kaum spürbar sein. Und letzlich liegt zwischen Core i7-5960X und Core i7-6900K wenigstens noch jeweils 200 MHz mehr Basetakt (+6,7%) und Turbotakt (+5,7%) – dies ist das einzige Modell, wo man von einer wenigstens meßtechnisch klar nachweisbaren Taktsteigerung reden kann.

	Generation	Kerne	Taktraten	L3	Speicher	PCI-E-Lanes	TDP	Listenpreis
Core i7-6950X	Broadwell-E	10 + HT	3.0/3.5 GHz	25 MB	DDR4/2400	40: 2x16 + 1x8 (oder 5x8)	140W	1569$/1723$
Core i7-6900K	Broadwell-E	8 + HT	3.2/3.7 GHz	20 MB	DDR4/2400	40: 2x16 + 1x8 (oder 5x8)	140W	999$/1089$
Core i7-5960X	Haswell-E	8 + HT	3.0/3.5 GHz	20 MB	DDR4/2133	40: 2x16 + 1x8 (oder 5x8)	140W	999$/1059$
Core i7-6850K	Broadwell-E	6 + HT	3.6/3.8 GHz	15 MB	DDR4/2400	40: 2x16 + 1x8 (oder 5x8)	140W	587$/617$
Core i7-5930K	Haswell-E	6 + HT	3.5/3.7 GHz	15 MB	DDR4/2133	40: 2x16 + 1x8 (oder 5x8)	140W	583$/594$
Core i7-6800K	Broadwell-E	6 + HT	3.4/3.6 GHz	15 MB	DDR4/2400	28: 1x16 + 1x8 + 1x4 (oder 3x8)	140W	412$/434$
Core i7-5820K	Haswell-E	6 + HT	3.3/3.6 GHz	15 MB	DDR4/2133	28: 1x16 + 1x8 + 1x4 (oder 3x8)	140W	389$/396$
Alle Haswell-E und Broadwell-E Prozessoren laufen im Sockel 2011-v3, welcher inkompatibel zum vorherigen Sockel 2011 ist und Mainboards mit dem X99-Chipsatz bedingt. Für den Einsatz von Broadwell-E auf X99-Mainboards ist zudem vorher ein passendes BIOS-Update einzuspielen. Zu den Listenpreise: Der erste angegebene Preis ist "Tray", der zweite angegebene Preis ist "Boxed". Bei Prozessoren des Sockels 2011-v3 werden beide Varianten allerdings ohne Intel-Kühler ausgeliefert.

Leider setzt Intel für diese geringen nominellen Vorteile gewisse Preissteigerungen bei Broadwell-E an, welche eigentlich wenig zum Charakter dieser Refresh-Generation ohne größere Impulse passt. Die meisten Preissteigerungen sind zwar eher geringfügig, nur beim Core i7-6800K (gegenüber dem Core i7-5820K) lang Intel kräftiger zu und befördert dieses kleinste Modell des Broadwell-E-Portfolios damit eindeutig über die 400-Dollar-Grenze. Da ja auch die Systemkosten der E-Plattformen bei Intel nicht gerade günstig sind (vergleichsweise teure X99-Mainboards zuzüglich der Pflicht zu immer gleich vier Speichermodulen), setzt dies den Einstieg zu Broadwell-E nochmals höher an – noch nicht so, das man gleich davon abraten müsste, aber dennoch so, das immer der Blick zu den günstigeren, moderneren und taktschnelleren Skylake-Vierkernern lohnt.

Den Vogel hat Intel natürlich mit der Preisgestaltung zum Zehnkerner Core i7-6950X abgeschossen – egal ob man nun den Boxed-Preis von 1723 Dollar oder den Tray-Preis von "nur" 1569 Dollar betrachtet. Für gegenüber dem Core i7-5960X dieselben Taktraten und gerade einmal 25% mehr Rechenkerne einen Preisaufschlag von ~60% zu verlangen, zeigt Intels absolut konkurrenzlose Situation im Markt der Enthusiasten-Prozessoren bestmöglich an. Gerade da das für den Core i7-6950X verwendete Die mit 246mm² Chipfläche sogar deutlich kleiner als das für den Core i7-5960X verwendete Die ist (356mm²), erstaunt dieser Preispunkt etwas. Intel gibt hier den üblichen Fortschritt in der Halbleiterfertigung nicht an den Konsumenten weiter, sondern verlangt dafür exponentielle Mehrpreise – hätte man das seit den Anfängen der x86-Prozessoren so getan, wären die Prozessoren-Preise inzwischen im Millionen-Dollar-Bereich sowie hätte die in den letzten 30 Jahren zu sehende IT-Entwicklung in dieser Form gar nicht stattfinden können.

Jene Preisvorstellung ist also nicht nur aus Sicht der Konsumenten ungünstig, sondern sogar regelrecht schädlich im Sinne der gesamten IT-Branche – deren Fortschritt eben maßgeblich darauf beruht, das zum etwa selben Preispunkt immer mehr Rechenleistung zur Verfügung gestellt wird. Nicht auszuschließen ist allerdings, das es sich hierbei um ein eher temporäres Phänomen handelt, welches sich Intel aufgrund seiner aktuellen Marktstellung leistet. Mit den zum Jahresende 2016 zu erwartenden Zen-Prozessoren dürfte dann wieder (echter) Wettbewerb bei den PC-Prozessoren einkehren, gerade auch beim Thema von PC-Prozessoren mit mehr als vier CPU-Rechenkernen. Gut möglich, das Intel mit der Broadwell-E nachfolgenden E-Plattform (welche wohl eine X-Plattform werden wird) dann wieder deutlich interessante Preislage für dieserart Prozessoren anbietet. Für den Augenblick muß Broadwell-E mit diesem Makel leben, das ausgerechnet dort, wo der eigentliche Fortschritt liegt – beim ersten Zehnkern-Prozessor für Consumer – auch ein extrem überzogenes Preisschild dranklebt, was der ganzen Sache umgehend seine Würze raubt.

Diesem Problem versucht Intel mit einer wesentlichen Neuerung beim Turbomodus entgegenzuwirken: Der "Turbo Boost 3.0" ist allein dafür da, einen einzelnen CPU-Rechenkern auf eine möglichst hohe Taktrate zu treiben – welche auch oberhalb der offiziell genannten Taktraten liegen darf. Das ganze ist teilweise ein Software-Feature, welches komplett neben dem vollständig in Hardware realisierten Turbo Boost 2.0 funktioniert – Turbo Boost 3.0 ist sozusagen ein Aufschlag auf die offiziellen Features oben drauf. Benötigt werden hierzu ein Intel-Treiber sowie eine Intel-Software, welche das ganze steuert – und angepasste BIOS-Versionen der Mainboard-Hersteller, wobei wohl jedes X99-Mainboard mit Support für Broadwell-E auch diese Anpassung erhalten wird.

Zum Turbo Boost 3.0 führen zwei Wege: Zum einen mittels automatischer Erkennung einer hohen anliegenden SingleCore-Last durch die Intel-Software. Jene ist allerdings unperfekt, kann beispielsweise nicht auf schnelle Lastwechsel reagieren, sondern benötigt für ihre Erkennung immer etwas Zeit (default: 10 Sekunden). Zum anderen führt die Intel-Software auch eine Liste, wo der PC-Benutzer manuell diverse Anwendungen zur Nutzung von Turbo Boost 3.0 hinzufügen kann. Steht eine Anwendung in der Liste oder wird sie von der automatischen Erkennung als besonders leistungsfressend erkannt, wird die Intel-Software deren Thread auf den (vorab als am besten taktbar erkannten) CPU-Rechenkern legen, welcher darauffolgend automatisch hochgetaktet wird – wie gesagt auch über die nominellen Turbotaktraten hinaus. Eine Extremübertaktung eines einzelnen CPU-Rechenkerns kommt hierbei allerdings auch nicht heraus, die Hardwaretester konnten hierzu Taktraten von recht konstant 4.0 GHz auf einem Core i7-6950X erblicken – nur in einem einzelnen Fall ging es mit 4.4 GHz deutlich darüber hinaus:

	Prozessor	Turbo-v3-Takt	Turbo-v3-Perf.
ComputerBase	Core i7-6800K (6C, 3.4/3.6 GHz)	3.8 GHz	?
ComputerBase	Core i7-6950X (10C, 3.0/3.5 GHz)	4.0 GHz	+10,2% (Cinebench R15 Single & 3DParticle Movement Single)
ComputerBase	Core i7-6950X (10C, 3.0/3.5 GHz)	4.0 GHz	+1% (gesamte Benchmark-Suite; 16 Tests)
Golem	Core i7-6950X (10C, 3.0/3.5 GHz)	4.0 GHz	+14,3% (The Elder Scrolls Online)
Tom's Hardware	Core i7-6950X (10C, 3.0/3.5 GHz)	3.9 GHz	?
Bit-Tech	Core i7-6950X (10C, 3.0/3.5 GHz)	4.4 GHz	+17,1% (Cinebench R15 Single)
PC Perspective	Core i7-6950X (10C, 3.0/3.5 GHz)	?	+12,9% (POVRay Single)
TweakTown	Core i7-6950X (10C, 3.0/3.5 GHz)	?	+10,7% (Cinebench R15 Single)
TweakTown	Core i7-6950X (10C, 3.0/3.5 GHz)	?	+0,3% (gesamte Benchmark-Suite)

So interessant sich das Feature eigentlich anhört, so wenig schlagkäftig ist jenes zum derzeitigen Zeitpunkt: Die erreichte Übertaktung ist zu gering, um wirklich große Performancesprünge auszulösen – und gleichzeitig ist das Feature im normalen Arbeitsalltag wohl zu träge, um irgendetwas beachtbares zur allgemeinen Performance hinzuzutragen. Zwar gibt es gutklassige einzelne Performancegewinne unter SingleThread-Benchmarks zu vermelden, aber bei den Test mit aktivem Turbo Boost 3.0 über das gesamte Benchmark-Feld von ComputerBase und TweakTown kam nur ein minimaler Performancegewinn von +1% bzw. +0,3% heraus (letzteres resultierend auch aus einigen Anwendungen, die mit Turbo Boost 3.0 etwas langsamer liefen). Die Grundidee, hiermit einen kleinen allgemeinen Performanceboost mitzunehmen (welcher aus der Beschleunigung von stark singlethreaded laufenden Anwendungen herrührt), läßt sich derzeit also noch nicht bestätigen.

Besser ist die Übertaktung per Kern gelöst beim nun per BIOS möglichen Per Core Overclocking – sprich der Möglichkeit, einzelnen Rechenkernen für den Overclocking-Betrieb exakte Taktraten zuzuweisen. Diese auf der Hand liegende Möglichkeit war seit langem gefordert worden, nun bietet Intel jene endlich an. Hiermit lassen sich interessante Konstruktionen erreichen – wie beispielsweise auf einem Sechskerner zwei sehr höchstmöglich getaktete Kerne, zwei noch geradeso hoch getaktete Kerne und zwei nur mittelmäßig getaktete Kerne, welche rein theoretisch das Optimum für heutige Software-Anforderungen darstellen sollten (besonders hoher Takt auf möglichst geringer Kern-Anzahl).

Unterstützt wird das Feature zum einen durch die Overclocking-Software diverser Mainboard-Hersteller, welche die Taktfreudigkeit bzw. Wärmebelastung spezifischer CPU-Rechenkerne ermitteln kann – was einen Hinweis darauf ergibt, welche CPU-Rechenkerne wohl den meisten Takt vertragen könnten. Innerhalb einer CPU ergeben sich da augenscheinlich gewisse Unterschiede – und ohne der Möglichkeit, jeden Kern einzeln zu übertakten, muß man sich natürlich auf den kleinsten gemeinsamen Nenner begeben, nutzt man die Taktreserven der CPU nicht vollständig aus. Und zweitens gibt es im Mainboard-BIOS nun die Möglichkeit, den AVX-Teiler zu verändern – und somit unter Übertaktung den Takt für AVX-Code nicht zu sehr in die Höhe gehen zu lassen. In der Praxis hat sich jener als gewisser Bremsklotz beim Overclocking herausgestellt – und da AVX-Code in der Praxis des Heimanwenders immer noch eher selten ist, kann man diesen AVX-Takt ruhigen Gewissens für einen maximalen Overclocking-Erfolg limitieren.