GPGPU

29

Aktualisierte AMD-Roadmaps zeigt "Zen 4" im Consumer-Bereich nicht vor dem Jahr 2022 an

AMD hat im Zusammenhang mit seinen jüngsten Quartalszahlen auch eine neue "Unternehmens-Präsentation" (PDF) herausgegeben, welche u.a. alle offiziellen AMD-Roadmaps in aktualisierter Form enthält. Dazu gibt es eigentlich keinerlei bahnbrechende Neuigkeiten zu berichten – um so mehr verwundern dann Meldungen, wonach AMD mit diesen Roadmaps angeblich Zen 4 und RDNA3 bereits für das Jahr 2021 "bestätigt" haben soll. Dies wäre selbigen Roadmaps aber nur dann zu entnehmen, sofern man die Roadmap-Zeitskala als jeweils tagesgenaue Zeitpunkte interpretiert. Eine AMD-Roadmap mit eingezeichneter Zeitskala von "2017 bis 2021" endet aber nicht am 1. Januar 2021 (womit alle eingezeichneten Produkte noch bis Ende 2020 herauskommen müssten) – sondern natürlich endet diese Roadmap am 31. Dezember 2021, da mit den Jahresangaben jeweils immer das komplette Jahr gemeint ist. Eine indirekte Bestätigung für diese Auslegung findet sich in einem früheren AnandTech-Artikel, wo AMD auf Nachfrage das Zeitskalen-Ende "2021" mit "end of 2021" gleichsetzte. Eine andere Bestätigung ergibt sich über frühere AMD-Roadmaps, wo "Zen 3" rein optisch noch vor dem Jahr 2020 eingezeichnet wurde – logisch, dass die Jahresangabe dort nur als "Gesamtjahr 2020" und nicht als "Jahresstart 2020" gemeint sein konnte.

14

nVidia stellt den "GA100"-Chip der Ampere-Generation mit 8192 Shader-Einheiten an einem 6144 Bit HBM2-Interface vor

Mit einer Serie von 12 Videos hat nVidia seine für die abgesagte GTC im März angesetzte GTC-Keynote in Form der Vorstellung erster Ampere-basierter Produkte nachgeholt. Wie zu erwarten, hat sich nVidia dabei ausschließlich um professionelle Anwendungen, primär im HPC-Bereich gelegen, gekümmert – allerdings wird Ampere nachfolgend auch in den Gaming-Bereich gehen, spätere Ampere-Chips also auch GeForce-Grafikkarten befeuern, wie Videocardz auf Basis einer nVidia-Aussage notieren. Doch selbst aus reiner Architektur-Sicht war die Vorstellung ziemlich mager, denn nVidia hat faktisch nur konkrete Profi-Produkte vorgestellt, weder die Architektur wirklich ausgeblättert noch den ersten Ampere-Grafikchip "GA100" selber (innerhalb der Video-Serie) irgendwie betrachtet. Somit kann man derzeit nur von der HPC-Lösung "A100" sowie den offiziellen Blockdiagrammen auf die Daten des zugrundeliegenden GA100-Chips schlußfolgern – was zumindest einen ersten Überblick zum GA100-Chip erlaubt.

    nVidia "GA100"

  • 54 Mrd. Transistoren auf 826mm² in der 7nm-Fertigung von TSMC (N7)
  • nVidia Ampere-Architektur (mit Ausrichtung auf den HPC-Einsatz)
  • 8 Raster-Engines (Graphics Processing Cluster, GPC) mit jeweils 16 Shader-Clustern (Streaming Multiprocessor, SM), insgesamt also 128 Shader-Cluster
  • jeder Shader-Cluster enthält 64 Shader-Einheiten samt 4 Texturen-Einheiten (Texture Mapping Unit, TMU) und 4 Tensor-Cores
  • jene Tensor-Cores basieren auf der 3. Tensor-Generation, welche neue Datenformate beherrscht und drastisch leistungsstärker ist
  • ergibt insgesamt 8192 Shader-Einheiten, 512 Texturen-Einheiten und 512 Tensor-Cores in der Maximal-Konfiguration
  • es gibt weiterhin wohl keine expliziten RayTracing-Einheiten beim GA100-Chip, womit jener kaum zum Gaming-Einsatz taugt
  • 48 MB Level2-Cache
  • 6144 Bit HBM2-Speicherinterface, maximale Speicherbandbreite 1,9 TByte/sec (~1250 MHz Speichertakt)
  • PCI Express 4.0 & 12x NVLink (3. NVLink-Generation)
6

Neue Grafik-Roadmaps von AMD reichen bis zu RDNA3, Navi 3X & CDNA2 im Jahr 2022

Auf seinem "Financial Analyst Day" (FAD'20) hat AMD neue Grafik-Roadmaps ausgepackt, welche seit längerem mal wieder neue Eintragungen die zukünftige Entwicklung betreffen. Die wichtigste Neuerung liegt allerdings darin, das AMD sich zu einer echten Auftrennung von Gaming-Grafik und Compute-Grafik entschlossen hat – letztere bekommt nunmehr mittels der "Compute RDNA" (CDNA) eine eigene Architektur-Klasse und damit eine eigene Roadmap. Dies ermöglicht nicht nur im symbolischen, sondern auch ganz praktischen Sinn eine vollständig getrennte Weiterentwicklung der jeweiligen Chips – mit natürlich auch der Folge, das die Produkte nicht mehr im jeweils anderen Produktsegment zweitverwendet werden können. Ein erster klarer Schritt in diese Richtung hin dürfte der kommende "Arcturus"-Chip sein, welcher zwar auf dem FAD'20 nicht konkret genannt wurde, dennoch aber augenscheinlich der CDNA1-Generation zuzuordnen ist (während die Vega-20-basierten Compute-Beschleuniger noch zur GCN-Generation gehören).

11

Intel-Dokumente zeigen auf "Arctic Sound" Xe-Grafiklösungen mit bis zu 512 EU samt HBM2E- und PCIe4.0-Interfaces

Digital Trends zeigen einige Intel-Dokumente zur kommenden "Arctic Sound" Grafik-Generation, mit welcher Intel die Xe-Architektur nach dem "Testlauf" mit DG1 wohl nächstes Jahr so richtig starten will. Hieraus wird eine gewisse Einschätzung dessen möglich, was Intel mit Arctic Sound letztlich bringen könnte, teilweise werden sogar frühere Gerüchte untermauert – und dennoch bleiben natürlich noch viele Fragen offen. Unbestätigt und somit unsicher bleibt beispielsweise, ob die von Intel angesetzte Unterteilung von Arctic Sound in bis zu vier "Tiles" wirklich einer Unterteilung in einzelne Chiplets entspricht. Zwar geht Intel bei seiner HPC-Auskopplung "Ponte Vecchio" augenscheinlich diesen Weg, aber für normale Grafikkarten mit der Zielsetzung einer Grafik- und Videoausgabe ist die hiermit einhergehende Problematik der effektiven Zusammenarbeit von einzelnen Chiplets (außerhalb von reinen GPGPU-Aufgaben) immer noch nicht zufriedenstellend gelöst. In jedem Fall entsprechen die genannten drei Ausführungen von Arctic Sound mit 1, 2 oder 4 Tiles dann allerdings früheren Gerüchten über Intel-Grafiklösungen der zweiten Generation (DG2) mit 128, 256 und 512 EUs (Execution Units).

18

Intels Xe-Grafik teilt sich in drei Architekturen für alle Anwendungs-Bereiche auf

Intels Raja Koduri hat bei der Intel-Präsentation auf der HPC-Konferenz "SC19" Intels nächste HPC-Projekte angekündigt – darunter auch eine Xe-basierte Exascale-Grafiklösung, womit unvermeidlicherweise auch etwas zu dieser kommenden Intel-Grafik gesagt wurde. So wurde "Xe" nunmehr als Oberbegriff für alle zukünftigen Grafik-Aktivitäten von Intel (ab Intels Grafik-Generation 12) ausgegeben, dürfte somit auch für zukünftige Grafik-Generationen von Intel übernommen werden. Hieraus folgen dann drei Architekturen für verschiedene Anwendungszwecke: "Xe LP" für integrierte sowie Einsteiger-Lösungen, "Xe HP" für das Midrange- bis Enthusiasten-Segment sowie Datacenter/AI-Lösungen und letztlich "Xe HPC" für reine HPC-Lösungen im Exascale-Bereich. Intel betrachtet dies als jeweils getrennte Architekturen, technisch dürfte man wohl eher von Abwandlungen derselben Architektur sprechen können, da die Grundbausteine innerhalb derselben Generation sicherlich dieselben sein dürften.

6

OpenCL-Benchmarks sehen AMDs 28nm-Grafikchips gleichauf mit nVidias 16nm-Grafikchips

Im Benchmarking-Teil unseres Forums wird neben vielen anderen Programmen und aktuellen Spielen auch weiterhin MrH's OpenCL-Mark in dessen aktueller Version 1.11 durchgetestet. Hierbei handelt es sich um einen Test der puren Rechenkraft von reinen Grafikchips unter OpenCL – was unter einigen Anwendungen schon verwendet wird und auch im Spielebereich für die Zukunft wichtig werden sollte. Heutige Grafikchips eigenen sich nun einmal sehr gut als Parallelbeschleuniger, was mittels OpenCL ausgenutzt wird, um die verschiedensten Probleme möglichst recheneffizient zu lösen – meistens allerdings welche aus dem professionellen Bereich. Die Adaption in normale Anwendungssoftware ist eher schwierig, da nur Teilaufgaben mittels OpenCL zu beschleunigen sind. Im Spielebereich ist dagegen aufgrund der komplexen Spielwelts-Berechnungen heutiger Titel samt schwer zu jeder Sekunde vollständig auslastbarer Grafikbeschleuniger (theoretisch) ein größerer Ansatzpunkt für die Nutzung von OpenCL zu finden – auch wenn die praktische Nutzung unter Spielen derzeit eher homöopathischer Natur ist. Nichtsdestotrotz ist OpenCL sicherlich eine wichtige Disziplin in der Zukunft, welche heutzutage schon teilweise genutzt wird – die unter OpenCL zu erwartende Performance mißt dann der MrH OpenCL-Mark aus:

22

Spezifikations-Vergleich Intel Xeon Phi 7200 vs. nVidia Tesla P100

Mit der Vorstellung von Intels neuem Xeon Phi Prozessor auf Knights-Landing-Basis in Konkurrenz zu nVidias GP100-Chip lohnt nunmehr wieder einmal ein Vergleich der verschiedenen HPC-Ansätze der entsprechenden Hersteller – derzeit noch ohne AMD, denn deren entsprechendes Vega-11-Projekt dürfte erst im nächsten Jahr spruchreif werden. Intel hat mit "Knights Landing" mal wieder einen echten Monsterchip mit einer Chipfläche von ~700mm² unter der 14nm-Fertigung hingelegt – und in diese bis zu 76 physikalische Rechenkerne einer hochgeschraubten Silvermont-Architektur gesteckt, womit diese eigentlich für LowPower-Prozessoren gedachte Atom-Architektur einen interessanten Zweitnutzen erfährt. Wie bei nVidias Tesla P100 können die aktuellen Xeon Phi 7200 Lösungen die vorhandene Hardware aus Ausbeutegründen jedoch nicht komplett ausnutzen – die Tesla P100 kommt mit nur 3584 freigeschalteten von 3840 physikalisch vorhandenen Shader-Einheiten daher, Xeon Phi hingegen mit (je nach Modell) zwischen 64 und 72 freigeschalteten von 76 physikalisch vorhandenen x86-Rechenkernen:

11

nVidia erklärt "Mixed Precision"

Auf der Supercomputer-Konferenz SC15 ist nVidia in seinem Vortrag auch auf die ab der Pascal-Architektur geplante "Mixed Precison" eingegangen. Hierbei handelt es sich schlicht um den Ansatz, nur so viel an Rechengenauigkeit zu verwenden, wie für die konkrete Aufgabe (oder Teilaufgabe) wirklich notwendig ist – und damit dann erheblich an Rechenleistung und damit Berechnungszeit zu sparen. Zu diesem Zweck wird die Pascal-Architektur auch eine HalfPrecison-Rechengenauigkeit unterstützen, welche dann also mit nur 16 Bit Genauigkeit operiert (SinglePrecision = 32 Bit, DoublePrecision = 64 Bit).

1

nVidia verspricht 4 TFlops DP für Pascal, 7 TFlops DP für Volta

WCCF Tech zeigen einiges nVidia-Präsentationsmaterial von der Supercomputer-Konferenz SC15 – darunter auch eine Performance-Projektion zu den kommenden Grafikchip-Architekturen Pascal und Volta, betreffend jeweils deren Top-Modelle natürlich. Entsprechend des Präsentationsorts ging es dabei um die primär nur im GPGPU-Bereich interessante DoublePrecision-Performance (sowie die Speicherbandbreite) – wobei aus ersterer unter Umständen auch gewisse Rückschlüsse über die SinglePrecision-Performance zu ziehen sind.

16

AMDs Boltzmann-Initiative geht direkt gegen nVidias CUDA

Grafikchip-Entwickler AMD will sich besser im professionellen Segment positionieren – und greift daher mittels der "Boltzmann Initiative" (benannt nach dem österreicher Physiker & Mathematiker Ludwig Boltzmann) nVidias CUDA-Standard als den vielleicht wichtigsten Punkt an, welcher AMD hierbei ausbremst. Die Boltzmann-Initiative besteht dabei maßgeblich aus drei neuen Software-Produkten, welche AMD auf der Supercomputer-Konferenz SC15 derzeit vorstellt und welche im Early-Access-Verfahren ab ersten Quartal 2016 für Software-Entwickler verfügbar gemacht werden sollen:

Inhalt abgleichen