11

Intel-Dokumente zeigen auf "Arctic Sound" Xe-Grafiklösungen mit bis zu 512 EU samt HBM2E- und PCIe4.0-Interfaces

Digital Trends zeigen einige Intel-Dokumente zur kommenden "Arctic Sound" Grafik-Generation, mit welcher Intel die Xe-Architektur nach dem "Testlauf" mit DG1 wohl nächstes Jahr so richtig starten will. Hieraus wird eine gewisse Einschätzung dessen möglich, was Intel mit Arctic Sound letztlich bringen könnte, teilweise werden sogar frühere Gerüchte untermauert – und dennoch bleiben natürlich noch viele Fragen offen. Unbestätigt und somit unsicher bleibt beispielsweise, ob die von Intel angesetzte Unterteilung von Arctic Sound in bis zu vier "Tiles" wirklich einer Unterteilung in einzelne Chiplets entspricht. Zwar geht Intel bei seiner HPC-Auskopplung "Ponte Vecchio" augenscheinlich diesen Weg, aber für normale Grafikkarten mit der Zielsetzung einer Grafik- und Videoausgabe ist die hiermit einhergehende Problematik der effektiven Zusammenarbeit von einzelnen Chiplets (außerhalb von reinen GPGPU-Aufgaben) immer noch nicht zufriedenstellend gelöst. In jedem Fall entsprechen die genannten drei Ausführungen von Arctic Sound mit 1, 2 oder 4 Tiles dann allerdings früheren Gerüchten über Intel-Grafiklösungen der zweiten Generation (DG2) mit 128, 256 und 512 EUs (Execution Units).

Die neuen Intel-Dokumente erwähnen zwar nicht die Anzahl der EUs pro Tile, aber die Passgenauigkeit der Daten (einfache Anzahl, zweifache Anzahl & vierfache Anzahl) läßt eigentlich kaum eine andere Interpretation zu, als das es sich beiderseits um Informationen zur selben Chip-Generation bzw. zum selben Technik-Gegenstand handelt. Und dies würde bedeuten, dass Arctic Sound tatsächlich in Varianten von 128, 256 und 512 EUs antritt – nunmehr indirekt durch Intel selber bestätigt. Was dann allerdings gleich wieder zur nächsten zu klärenden Frage führt, denn mittels der hierzu in den Intel-Dokumenten angegebenen Wattagen entsprechender Grafikkarten ist es unsicher, ob sich hinter den EUs von Arctic Sound bzw. DG2 noch dieselbe Technik wie bei DG1 bzw. allen früheren iGPUs von Intel verbirgt. Bisher entspricht eine von Intels Execution Units immer 8 Shader-Einheiten von AMD & nVidia – doch diese Rechnung würde bei Arctic Sound zu 1024, 2048 und 4096 Shader-Einheiten für die drei Chip-Varianten führen, was einigermaßen unpassend zu Wattagen von 150, 300 und 500 Watt unter der 10nm-Fertigung von Intel klingt.

Selbst wenn die Grafikchip-Architekturen von AMD, Intel und nVidia natürlich nicht so direkt vergleichbar sind, sollte Intel sicherlich nicht mit einem derart klaren Unterschied bei der Energieeffizienz herauskommen. Denn die 4096 Shader-Einheiten hatte AMD schon anno 2015 mit dem Fiji-Chip für grob 300 Watt Stromverbrauch unter der 28nm-Fertigung hinbekommen, da sollte Intel unter der 10nm-Fertigung nicht gerade noch mehr Strom verbrauchen. Genauso gilt auch, das die kleinste Arctic-Sound-Grafikkarten mit 128 EU mit einem Stromverbrauch von (bis zu) 150 Watt sich "komisch" anhört, wenn Intel mit der DG1-Grafiklösung zu 96 EU bei einem Stromverbrauch von 5-20 Watt für Mobile-Lösungen auskommen will. Selbst die Differenzen zwischen Mobile & Desktop sowie zwischen 96 und 128 EU eingerechnet, läßt sich dieser übergroße Unterschied auf den ersten Blick nicht erklären. Des Rätsels Lösung dürfte dabei wohl schlicht sein, dass die Rechenleistung der Execution Units von Arctic Sound (DG2) klar größer als jene von DG1 ausfällt: Vermutlich entsprechen die EUs von Arctic Sound (DG2) somit nicht mehr 8 Shader-Einheiten von AMD & nVidia – sondern gleich 16 hiervon.

    Intel "Arctic Sound"

  • 10nm-Fertigung von Intel
  • Teil der generellen Xe-Architektur, zweite Ausbaustufe (Gen12_5 bis Gen12_71)
  • Unterteilung in "Tiles" (Chiplets?) mit vermutlich jeweils 128 EU
  • Ausführungen mit 1 Tile (75-150W TDP), 2 Tiles (300W TDP) & 4 Tiles (400-500W TDP) geplant
  • augenscheinlich deckungsgleich mit den früher genannten Intel-Lösungen DG2-128, DG2-256 & DG2-512
  • wahrscheinlich 16 Shader-Einheiten pro EU (Verdopplung gegenüber DG1 und bisherigen Intel-iGPUs)
  • HBM2E-Speicherinterface auf 1400 MHz DDR Takt
  • PCI Express 4.0 Interface
  • Erscheinungstermin: augenscheinlich 2021
  • Quelle dieser Angaben: Gerüchte & kleinere Leaks = damit ist nur weniges von diesen Angaben wirklich sicher

Diese Auflösung läßt die Anzahl der (zu AMD & nVidia) vergleichbaren Shader-Einheiten der DG2-Lösungen explodieren – in der Spitze bis auf 8192 Shader-Einheiten bei DG2-512, was allerdings zum angegebenen Stromverbrauch von bis zu 500 Watt durchaus nicht zu viel ist. Zur generellen Arctic-Sound-Familie versprechen Intels Dokumente dann weiterhin die Benutzung von HBM2-Speicher (auf einer Taktrate von 1400 MHz DDR) sowie ein PCI Express 4.0 Interface – wobei letzteres wohl für alle neu erscheinenden Grafikchips egal des Herstellers Standard werden dürfte. Etwas unklar bleibt weiterhin, welche Ausführungen hierfür für den Gaming- und welchen für den Profi-Markt gedacht sind: Teilweise deutet man die Intel-Dokumente dahingehend, das nur die kleinste Ausführung DG2-128 in den Consumer-Bereich gehen würde, eine Ausführung im Chiplet-Design würde diese These deutlich stützen. Dann würde Intel mit DG2-128 auf 2048 Shader-Einheiten zwar einen netten Beschleuniger für das untere Midrange-Segment aufbieten, die anderen Marktsegment allerdings komplett links liegen lassen und mit DG2-256 sowie DG2-512 rein nur noch professionelle Anwender glücklich machen.

Tiles EU = SE Technik TDP
Intel DG1 - 1 EU = 8 SE 96 EU (768 SE) @ 96 Bit GDDR-Interface 5-25W (Mobile)
Intel DG2-128 1 1 EU = 16 SE 128 EU (2048 SE) @ HBM2E-Interface 75-150W
Intel DG2-256 2 1 EU = 16 SE 256 EU (4096 SE) @ HBM2E-Interface 300W
Intel DG2-512 4 1 EU = 16 SE 512 EU (8192 SE) @ HBM2E-Interface 400-500W

Andererseits würde dies durchaus zu Intels Grafik-Strategie passen, speziell im Consumer-Segment sich nur vorsichtig nach vorn zu robben, um nicht sofort von den Platzhirschen auseinandergenommen zu werden – und gleichzeitig dem Profi-Segment sehr viel Aufmerksamkeit zu widmen, wo Intel augenscheinlich (wie auch früher schon) viel Potential sieht. Am Ende könnte sogar Intel das gelingen, woran sich AMD & nVidia über die Jahre hinweg niemals in letzter Konsequenz herangetraut haben – den Sprung hin zu MultiChip-Designs (Chiplet-Designs) im Grafikchip-Bereich. Natürlich müsste Intel auch erst noch beweisen, das man dies dann auch für gewöhnliche 3D-Grafik hinbekommt, denn für den Profi- und speziell den HPC-Bereich stellt dies keine besondere Hürde dar. Hierzu müssen allerdings erst weitere Informationen Klarheit darüber verschaffen, wie die von Intel genannten "Tiles" wirklich gemeint sind und welche der drei Arctic-Sound- bzw. DG2-Lösungen nun wirklich in den Gaming-Markt geschickt werden.

Nachtrag vom 11. Februar 2020

Zu Intels möglicherweise einzigen Consumer-Lösung der Intels "Arctic Sounds" Generation in Form von DG2-128 wäre noch eine gewisse Einordnung abzugeben, was mit deren anscheinend 2048 Shader-Einheiten wirklich anfangen kann. Denn 2048 Shader-Einheiten hören sich erst einmal ganz sportlich an, allerdings muß dies auf das Jahr 2021 und die dann existierenden AMD- und nVidia-Beschleuniger bezogen werden – und sieht dann vermutlich nicht mehr ganz so toll aus. Wenn man es mit den letzten nVidia-Grafiklösungen auf ähnlicher Hardware vergleicht, dann waren grob 2000 Shader-Einheiten im Jahr 2014 bei der GeForce GTX 980 mal sogar richtig Spitze und ergaben die beste seinerzeit verfügbare Grafikkarte. Schon mit der 2016 nachfolgenden GeForce GTX 1070 rutschte diese Hardware aber ins obere Midrange-Segment ab, mit der 2019 erschienenen GeForce RTX 2060 sind grob 2000 Shader-Einheiten nun eindeutig im Midrange-Segment angekommen. Denkt man hiervon ausgehend zwei Jahre weiter, dann sind jene grob 2000 Shader-Einheiten im Jahr 2021 ganz sicher nur noch unteres Midrange-Segment wert, werden eventuell auch schon im oberen Mainstream-Segment aufgeboten.

Grafikchip Technik FHD Perf.Index Marktsegment
GeForce GTX 980 Maxwell GM204 (Vollausbau) 2048 SE @ 256 Bit GDDR5 600% HighEnd (2014)
GeForce GTX 1070 Pascal GP104 (Salvage) 1920 SE @ 256 Bit GDDR5 800% oberes Midrange (2016)
GeForce RTX 2060 Turing TU106 (Salvage) 1920 SE @ 192 Bit GDDR6 910% Midrange (2019)

Intels DG2-128 wäre also, sofern jene Grafikkarte in der vermuteten Form kommt, keineswegs als Angriff auf wirklich interessante Leistungssphären zu betrachten – sondern geht mit dem bisherigen Intel-Weg konform, den Grafikmarkt eher denn von unten aufsteigend aufzurollen. Mehr wäre für Intel innerhalb dieser Arctic-Sounds-Generation, wenn wenigstens DG2-256 auch in den Consumer-Markt geht – was aber aufgrund des anscheinenden Chiplet-Design doch eher fraglich ist. Sicherlich könnte man reine RayTracing-Beschleuniger derart auflegen, aber für den aktuellen Anwendungszweck braucht es auch im Jahr 2021 erst einmal noch eine primäre Rasterizer-Karte – und jene ist im Chiplet-Design kaum zu realisieren, da geht zu viel Performance-Potential verloren bzw. funktioniert die wenigste Software anständig damit. Natürlich könnte sich Intel dennoch bewußt für diesen Chiplet-Ansatz entschieden haben: Geht man davon aus, das es Jahre benötigen dürfte, um mit AMD & nVidia im Grafikchip-Geschäft auf Augenhöhe konkurrieren zu können, dann wachsen sich diese durch das Chiplet-Design entstehenden Probleme mit der Zeit voraussichtlich von ganz alleine aus. Denn letztlich denken ja auch AMD & nVidia schon (seit Jahrzehnten) in diese Richtung und dürften jene Überlegungen mit Blick auf eine RayTracing-Zukunft nunmehr sicherlich intensivieren.

Nachtrag vom 14. Februar 2020

Bei Notebookcheck thematisiert man Intel "Xe" DG1 Benchmarks unter SiSoft Sandra, welche auf den ersten Blick ziemlich schlecht ausgefallen sind. Allerdings wird die Betrachtungsweise seitens Notebookcheck als nicht gänzlich fair kritisiert, wenn hierbei mit einer Desktop-Grafikkarte verglichen wird – gegenüber der arg auf Mobile-Bedürfnisse optimierten DG1, welche zudem auch noch mit einer unterdurchschnittlichen Taktrate lief. Die angetretene Hochrechnung, eine DG2-256 könnte es dann noch nicht einmal mit einer GeForce GTX 980 (umgerechnet auf heutige Verhältnisse eine GeForce GTX 1650 Super) aufnehmen, passt somit an mehreren Ecken und Enden nicht. Solcherart Hochrechnungen sollte man sowieso nicht derart Genre-übergreifend zwischen Mobile & Desktop sowie zwischen DG1 & DG2 vornehmen: Denn zum einen ist die Performance-Differenz von Intel Xe zwischen Mobile und Desktop noch nicht bekannt (womit man nicht einfach die entsprechende Differenz von AMD oder nVidia ansetzen kann), zum anderen fehlt auch eine ernsthafte Kenntnis über den Architektur-Unterschied zwischen DG1 und DG2. An dieser Stelle könnten eben noch einige Überraschungen liegen: Unsere eigene Vermutung geht wie dargelegt in Richtung einer verdoppelten Shader-Anzahl pro EU bei DG2, bei WCCF Tech geht man hingegen davon aus, das eine "Tile" aus gleich 512 EU (á 8 Shader-Einheiten) besteht.

Intel Arctic Sound Technik-Ausführung 1 Tile 2 Tiles 4 Tiles
Annahme lt. 3DCenter eine EU mit 16 SE 128 EU (2048 SE) = ~6 TF 256 EU (4096 SE) = ~12 TF 512 EU (8196 SE) = ~22 TF
Gerücht lt. WCCF Tech eine Tile mit 512 EU 512 EU (4096 SE) = ~12 TF 1024 EU (8196 SE) = ~20 TF 2048 EU (16384 SE) = ~36 TF
TDP lt. Intel-Unterlagen - bis 150 Watt bis 300 Watt bis 500 Watt
Diese Tabelle enthält reine Annahmen & Spekulationen.

Angeblich haben WCCF Tech dies von einer Quelle bei Intel so erfahren – was der Sache einiges an Gewicht verleiht, auch wenn man hierfür natürlich noch eine Bestätigung benötigt. Die 512 EU pro Tile passen dann natürlich nicht mehr wirklich zu den früher notierten Codenamen "DG2-128", "DG2-256" und "DG2-512" (aus welchem man die Anzahl der EUs schlußfolgerte), aber dies muß nicht unbedingt wirklich viel sagen. So oder so kommt Intels "Arctic Sound" wahrscheinlich wesentlich kräftiger heraus, als die ursprünglichen Intel-Dokumente es zuerst vermuten lassen haben: Bei WCCF Tech kann die Spitzenversion mit 4 Tiles auf (selbst bei niedrigeren Taktraten) immerhin ca. 36 TFlops Rechenleistung kommen. Dies wäre gegenüber aktueller Grafik-Hardware extrem viel, die GeForce RTX 2080 Ti erreicht 14 TFlops, eine Tesla V100 knapp 16 TFlops. Selbst innerhalb der kommenden Ampere-Generation dürfte nVidia nicht auf derart hohe Rechenleistungen kommen – dürfte aber vermutlich auch nicht den von Intel angepeilten Stromverbrauch von gleich 500 Watt erreichen. Normiert man es auf einen eher gebräuchlichen Stromverbrauchswert von (maximal) 300 Watt, dann würde Intel lt. WCCF Tech immerhin noch 20 TFlops erreichen – ein durchaus realistischer Wert, nVidias GA100-Chip dürfte in der Spitze selbiges bzw. leicht besseres bieten. Insofern erscheint das neue Gerücht lt. WCCF Tech womöglich besser zur vermuteten Realität zu passen als unsere vorherige These.