28

Gerüchteküche: nVidias NextGen-Chip "AD102" tritt womöglich mit gleich 144 Shader-Clustern an

Von Twitterer Kopite7kimi kommt ein erstes Hardware-Gerücht zur Hopper/Lovelace-Generation, welche der aktuell noch im Aufbau befindlichen Ampere-Generation eines Tages nachfolgen soll. Eine erste Hardware-Information zur nächsten Chip-Generation von nVidia mag zum jetzigen Zeitpunkt reichlich früh klingen, allerdings lagen (seitens desselben Twitterers) bereits im Mai 2019 die (korrekten) Hardware-Daten der kompletten Ampere-Generation vor, die Vorlaufzeiten bei solcherart Chipprojekten sind einfach beträchtlich. Wenn nVidia den AD102-Chip der "Lovelace"-Generation angenommenerweise irgendwann zwischen Jahresanfang bis Herbst 2022 herausbringen wollte, dann muß dessen Tape-Out (je nach Releasetermin) irgendwann zwischen Frühling und Jahresende 2021 passieren und ist die Festlegung der finalen Hardware-Konfiguration ein ganzes Stück früher fällig – möglicherweise genau jetzt zum Jahresende 2020. In jedem Fall hat sich der Twitterer als sehr zuverlässige Quelle erwiesen, beispielsweise wurde auch die nachträglich als Programm-Ergänzung ersonnene Ampere-Lösungen "GeForce RTX 3080 Ti" augenscheinlich korrekt vorhergesagt.

GA102 has a "7*6" structure.
Maybe AD102 will get a "12*6" structure.

Quelle:  Kopite7kimi @ Twitter am 28. Dezember 2020

Nichtsdestotrotz sollte man für diese AD102-Daten immer den Sinninhalt des Wörtchens "maybe" im Hinterkopf behalten. Zudem gilt auch, dass die hiermit gemeldeten Hardware-Daten zum AD102-Chip natürlich den Grafikchip an sich bzw. dessen Vollausbau beschreiben – welcher eventuell niemals (in dieser Form) als Gaming-Lösung antritt. Innerhalb der Ampere-Generation hat sich nVidia bei seinen Spitzenlösungen immer gewisse Reserven gelassen, so benutzt die GeForce RTX 3090 nur 82 von 84 physikalisch vorhandenen Shader-Clustern des zugrundeliegenden GA102-Chips. Der AD102-Chip für eine potenzielle "GeForce RTX 4090" (und eventuell auch eine "GeForce RTX 4080") soll hingegen gleich 144 Shader-Cluster aufzubieten, denn die Angabe des Twitterers ist als "GPC x TPC" zu lesen, wobei ein TPC (Texture Processing Cluster) normalerweise zwei Shader-Cluster enthält. Der vorbeschriebene AD102-Chip kommt somit auf 12 Graphics Processing Cluster (GPC, Raster-Engines), 72 Texture Processing Cluster (TPC) und 144 Shader-Cluster (SM, Streaming Multiprocessors). Sofern nVidia den Aufbau der Shader-Cluster nicht erneut verändert, ergäbe dies für den AD102-Chip somit die staatliche Anzahl von 18'432 FP32-Einheiten (CUDA Cores).

Unabhängig davon, dass nur sehr wenig über weitere Details des AD102-Chips bekannt ist, brächte dies eine nahezu Verdopplung der Recheneinheiten und damit mutmaßlich einen vergleichsweise großen Sprung zwischen den Grafikchip-Generationen daher. Möglicherweise sieht sich nVidia durch die neue Konkurrenz von AMD im HighEnd-Segment zu diesem Schritt veranlaßt, möglicherweise gibt die schon früher genannte 5nm-Fertigung dies auch einfach her. Gänzlich überraschend kommt dies dann aber auch nicht, denn früher waren solcherart Generation-Sprünge mit der doppelten Hardware-Power ziemlich normal. Ob sich daraus dann auch eine doppelte Performance ergibt, steht schließlich noch auf einem ganz anderen Blatt: Früher war es über zusätzliche Performancegewinne auf Architektur-Ebene durchaus möglich, mit ca. 80% mehr Hardware-Power die doppelte Performance zu erzielen. Heuer könnten Skalierungseffekte eher denn verringernd wirken – weswegen man eben den Weg gehen muß, mit besonders viel mehr Rechenkraft anzutreten, um aus 70-80% mehr Hardware-Power vielleicht 60-70% Mehrperformance zu generieren.

Pascal Turing Ampere Lovelace
Chipfertigung 16nm TSMC 12nm TSMC 8nm Samsung angeblich 5nm
Karten-Serie GeForce 10 Serie GeForce 16/20 Serien GeForce 30 Serie vermutlich GeForce 40 Serie
Gaming-Topchip GP102
(12 Mrd. Xtors auf 471mm²)
TU102
(18,6 Mrd. Xtors auf 754mm²)
GA102
(28,3 Mrd. Xtors auf 628mm²)
AD102
maximale Hardware-Daten 6 GPC
30 TPC
30 SM
3840 CUDA Cores
6 GPC
36 TPC
72 SM
4608 CUDA Cores
7 GPC
42 TPC
84 SM
10752 CUDA Cores
(angeblich)
12 GPC
72 TPC
144 SM
18432 CUDA Cores
maximale FP32-Power ~12 TFlops @ 1.6 GHz ~16 TFlops @ 1.7 GHz ~37 TFlops @ 1.7 GHz ~66 TFlops @ (angenommen) 1.8 GHz
FP32 pro SM 128 64 128 angenommen 128
Veränderungen - 128→64 FP32-Einheiten pro Shader-Cluster, zusätzlich 64 INT32-Einheiten pro Shader-Cluster 64→128 FP32-Einheiten pro Shader-Cluster unbekannt
Level2-Cache 3 MB 6 MB 6 MB angeblich größerer Cache
Speicherinterface 384 Bit GDDR5X 384 Bit GDDR6 384 Bit GDDR6X unbekannt
Release 10. März 2017: GeForce GTX 1080 Ti 19. Sept. 2018: GeForce RTX 2080 Ti 17. Sept. 2020: GeForce RTX 3080 vermutlich 2022

Eine große Frage hierzu wird auf das Speicher-Subsystem zukommen, denn derart viel Rechenpower benötigt eine entsprechende Bandbreite. Jene muß natürlich keinesfalls im selben Maßstab ansteigen, aber ein gutes Stück mehr Speicherbandbreite dürfte beim AD102-Chip angesichts dieser Hardware-Daten doch willkommen sein. Da derzeit kaum eine neue Speichersorte à GDDR7 auf dem Plan steht, bleiben nVidia nur wenige Möglichkeiten: Ein breiteres Speicherinterface ist eine ungeliebte Lösung, da es den Grafikchip "fett" und stromhungrig macht, letzteres schränkt zu einem festgesetzten Stromverbrauchslimit dann sogar die real erreichbare Rechenleistung ein. HBM-Speicher würde alle diese technischen Probleme erledigen, ist jedoch weiterhin vergleichsweise teuer und will daher wohlüberlegt (bei einer Gaming-Lösung) sein. Alternativ könnte nVidia natürlich auch AMDs Konzept eines "Infinity Cache" übernehmen und schlicht mit einem dicken Level3-Cache zur Minimierung der Speicherzugriffe arbeiten.

Besondere "Raketen-Wissenschaft" ist dies nicht, AMD hat sich hierbei einfach den Effekt zunutzegemacht, dass der Grafikchip-Stromverbrauch immer stärker in Richtung des Treibens von Daten geht, die eigentliche Verarbeitung der Daten über die kleineren Chipstrukturen dagegen (relativ) immer weniger Strom frisst. Der "Infinity Cache" der Radeon RX 6000 Serie spart also nicht nur ein größeres Speicherinterface ein, sondern macht den Grafikchip generell Energie-effizienter. Diese Eigenschaft dürfte für nVidia genauso relevant wie interessant sein – und wenn AMD mittels "Infinity Cache" auf einen effektiv besseren Grafikchip kommt, sollte dieses Prinzip auf nVidias Grafikchips eigentlich genauso zutreffen. Interessanterweise könnte man aus einem weiteren AD102-bezogenen Tweet seitens Kopite7kimi durchaus eine solche Entwicklung ableiten – wenngleich es sich hierbei natürlich auch wirklich "nur" um größere (reguläre) Caches handeln könnte:

And a larger cache.
Quelle:  Kopite7kimi @ Twitter am 28. Dezember 2020

So oder so liegt der AD102-Chip sowie die Hopper/Lovelace-Generation noch einigermaßen in weiterer Ferne, zumindest aus Sicht eines Marktreleases. Zu jenem gibt es derzeit keinerlei griffige Informationen, aber gemäß dem üblichen Intervall zwischen zwei nVidia-Generationen kann man gut und gerne das Jahr 2022 hierfür annehmen. Das kommende Jahr 2021 wird viel eher dem weiteren Ausbau der aktuellen Ampere-Generation dienen, eventuell gekrönt mit einer Refresh-Generation – welche derzeit aber rein im Feld von Hypothesen liegt, wirkliche Anzeichen hierfür gibt es eigentlich nicht. Im Laufe des Jahres sind allerdings ab und zu neue Informations-Häppchen zur Lovelace-Generation bzw. weiteren ADxxx-Grafikchips zu erwarten – wie gesagt, die Vorlaufzeiten sind enorm, bei nVidia wird sicherlich auch schon (im konzeptionellen Bereich) an der "Lovelace" nachfolgenden Chip-Generation gearbeitet. Aufgrund des Zeitabstand bis zum (vermuteten) Release der Lovelace-Generation bzw. der darauf möglicherweise basierenden "GeForce RTX 40" Serie ergibt sich natürlich auch keinerlei Anlaß, auf diese zu warten – gerade nicht, wenn die aktuellen Spiele derart viel Performance abfordern (wie zuletzt DiRT 5, Watch Dogs: Legion und Cyberpunk 2077), das inbesondere Nutzer älterer Grafikkarten-Serien ganz schnell "aus dem Spiel" sind.