12

Gerüchteküche: nVidias GA102-Chip mit Tape-Out unter der 8nm-Fertigung von Samsung

Vom gewöhnlich sehr zu gut zu nVidia-Interna informierten Twitterer Kopite7kimi (augenscheinlich korrekte Vorhersage von nVidias HPC-Chip mit 128 Shader-Clustern bereits im letztem Sommer) kommt die Information, das der GA102-Chip aus nVidias Ampere-Generation seinen (erfolgreichen) Tape-Out hingelegt haben soll. Dies würde dann einen Release zum Jahresende 2020 bis Anfang 2021 ermöglichen, zumindest sofern dieser Tape-Out wirklich in letzter Zeit erfolgte (bei Tape-Out-Meldungen ist meistens nicht ganz sicher, wie viel Zeit zwischen realem Ereignis und dem Leak bereits verstrichen ist). Interessanterweise soll dieser Tape-Out allerdings nicht bei TSMC und nicht in der 7nm-Fertigung erfolgt sein – sondern bei Samsung in deren 10nm-Fertigung. Konkret dürfte damit sogar eher Samsungs 8nm-Fertigung als gewisse Verbesserung des 10nm-Nodes gemeint sein – dies kommt zwar im originalen Posting nicht ganz klar heraus, wurde aber vom Twitter-Account von Videocardz bereits Ende Februar als Gerücht exakt so genannt.

NO EUV. GA102 has taped out. It was based on SAMSUNG 10nm. (You can call it 8nm?lol~~)
And the new tegra will use the same process node.

Quelle:  Kopite7kimi @ Twitter vom 11. März 2020, in Kopie bei Rogame @ Twitter

Und insbesondere die Information zur Fertigungstechnologie wirft dann natürlich einiges von dem um, was man bisher zur Ampere-Generation angenommen hatte. Sicherlich wird der HPC-Chip "GA100" weiterhin unter der 7nm-Fertigung von TSMC erscheinen, aber bei diesem spielt die Kostenlage halt keine wirkliche Rolle. Die anderen Ampere-Chips, zusammengefasst einfach mal "Gaming-Ampere" genannt, erreichen uns nun aber in einer augenscheinlich günstigeren, sicherlich ausgereiften, dafür aber auch technologisch etwas zurückhängenden Fertigung. Dies muß nichts bezüglich des Performance-Potentials von Gaming-Ampere bedeuten, immerhin konnten die bisherigen Turing-Grafikkarten unter der (grob) zwei Nodes zurückhängenden 12nm-Fertigung jederzeit gut mit den RDNA1-Grafikkarten zurechtkommen. Doch mittels der 7nm-Fertigung von TSMC (egal welches der drei 7nm-Verfahren man benutzt) wäre nVidia faktisch unlimitiert in seinem Gestaltungsspielraum bei Ampere gewesen, würde es also auf einen Mix aus Performance-Sprung und Verkleinerung der Chip-Fläche hinauslaufen. Unter der 10/8nm-Fertigung von Samsung muß man dagegen wie schon bei der Turing-Generation viel eher in die Nähe der technologischen Grenzen gehen, um einen erheblichen Performance-Sprung hinzulegen – und jenen wird nVidia brauchen, wenn AMD sein Vorhaben umsetzt, mit der Navi-2X-Generation nochmals +50% Energieeffizienz oben drauf zu legen.

Zwischen Turing (12nm TSMC) und Gaming-Ampere (10/8nm Samsung) liegt dann grob ein Fullnode-Sprung – genauer ist dies aufgrund des abweichenden Fertigers sowieso nicht zu ermessen, jegliche Modellrechnung dürften daran automatisch scheitern. Da heutige Fullnode-Sprünge kaum noch die früher typischen Verdopplungen mitbringen, kann man (grob) von -40% Flächenbedarf bzw. 67% mehr Transistoren auf gleicher Fläche ausgehen (passt lt. Tech Centurion sogar exakt auf den Vergleich 12nm TSMC zu 8nm Samsung). Die Taktraten- und Energieverbrauchs-Werte dürften vergleichsweise typisch sein, lassen sich zwischen TSMC und Samsung aber noch schwerer vergleichen – hier bleibt abzuwarten, ob Samsung jene Mehrtransistoren dann auch wirklich Stromverbrauchs-neutral verbauen kann. Angenommen, dies ist zu erreichen, ergibt sich schon ein ganz vernünftiges Performance-Potential, denn in +67% Mehrtransistoren (bei gleicher Chipfläche) könnte man notfalls auch die doppelte Anzahl an Recheneinheiten unterbringen, wenn die Architektur nicht mehr Transistoren pro Shader-Einheit verschlingt bzw. die Interfaces nicht größer werden. In der Praxis wird es eher auf eine ausgefeiltere Architektur mit etwas höheren Transistoren-Bedarf pro Shader-Einheiten (beispielsweise über wesentlich mehr RayTracing-Power) und dafür eine weniger hohe Steigerung der puren Anzahl der Recheneinheiten hinauslaufen, da dies in der Praxis effektiver ist.

Nichtsdestotrotz stellt alles hierzu derzeit eine Schätzung & Annahme dar – genau wie unsere aktualisierte Annahme, das der GA102-Chip wohl ca. 6000-6500 Shader-Einheiten bei ca. 620-650mm² Chipfläche mitbringt (und damit nicht so massiv groß wird wie sein TU102-Vorgänger auf 754mm² Chipfläche). Damit sind je nach Architektur-Fortschritt zwischen +40-70% Mehrperformance erreichbar – sollen es noch mehr werden, muß mehr Chipfläche geopfert werden, was dann gerade unter der 8nm-Fertigung weniger wahrscheinlich ist. Unter der 7m-Fertigung hätte man in dieser Frage sicherlich mehr Möglichkeiten, dafür dann aber auch einen klar höheren Kostenpunkt. Und selbigen Kostenpunkt will nVidia augenscheinlich klein halten, sicherlich auch zugunsten der zuletzt wieder einmal hervorragenden Quartalszahlen, welche dann natürlich den Maßstab für zukünftige Geschäftszahlen stellen. Eine der spannendsten Fragen zur Ampere-Generation wird damit auch werden, mit welcher Speicherbestückung nVidia jene in den Markt entläßt: Nach zwei Chip-Generationen (Pascal & Turing) mit faktischen denselben Speichermengen wäre diesbezüglich ein Fortschritt mal wieder vonnöten, der Kostenspar-Ansatz von nVidia mittels der 8nm-Fertigung bei Gaming-Ampere spricht allerdings dezent dagegen. Zu dieser Frage liegen derzeit aber noch gar keine Informationen vor, weder zu nVidias Planungen bei Gaming-Ampere, noch zu AMDs Planungen bei Navi 2X.

Terminlich läßt diese Tape-Out-Meldung im übrigen durchaus noch viele Zukunftsvarianten offen: Wenn nVidia einen Top-Down-Launch anstrebt, mit dem GA102-Chip zuerst (wie bei Turing), dann würde sich hieran ein gewisses Releasefenster ergeben – wie vorstehend erwähnt von Ende 2020 bis Anfang 2021. Sofern nVidia aber wieder dem früher bei Kepler, Maxwell & Pascal durchexerzierten Launch-Prozedere im Stil von "Top-Down-Top" folgen will, dann würde sowieso der nächstkleinere Chip zuerst antreten – GA104 oder GA103, falls sich nVidia zu dieser Zwischenvariante entschließt (denkbar, denn zwischen GA102 und GA104 liegen wohl wieder über 200mm² Chipflächen-Differenz, ergo lohnt wie bei Turing ein Zwischenchip). Jene Launch-Variante hat immerhin den Vorteil, das man zweimal innerhalb derselben Grafikkarten-Serie (ganz ohne Refreshes) eine neue beste Lösung herausbringen kann – sprich, einmal eine "GeForce RTX 3080" (GA104 oder GA103) und später noch eine "GeForce RTX 3080 Ti" (GA102). In diesem Fall würde sich aus dem GA102-Tape-Out nur bedingt auf den Launch der "GeForce RTX 30" Serie schließen lassen, würde es eher auf den Tape-Out des GA104- oder GA103-Chips ankommen. Jener könnte schon erfolgt sein (was einen Launch von Gaming-Ampere noch diesen Herbst ermöglichen würde) oder vielleicht in einem ähnlichen Zeitrahmen erfolgen – in jedem Fall wissen wir davon nichts, was den Launch von Gaming-Ampere derzeit reichlich unbestimmbar macht.

Segment Chipfläche Fertigung mögliche Grafikkarten Technik Vorgänger-Chips
GA100 HPC ~800mm² 7nm TSMC Tesla & Titan 8192 SE @ 6144 Bit HBM2 GV100: 5376 SE @ 4096 Bit HBM2
GA102 Enthusiast ca. 620-650mm² 8nm Samsung GeForce RTX 3080 Ti ca. 6000-6500 Shader-Einheiten TU102: 4608 SE @ 384 Bit GDDR6
GA103 HighEnd ca. 500-530mm² 8nm Samsung GeForce RTX 3080 ca. 4300-4800 Shader-Einheiten TU104: 3072 SE @ 256 Bit GDDR6
GA104 Midrange ca. 400-430mm² 8nm Samsung GeForce RTX 3070 ca. 3000-3400 Shader-Einheiten TU106: 2304 SE @ 256 Bit GDDR6
GA106 Midrange ca. 300-330mm² 8nm Samsung GeForce RTX 3060 ca. 2100-2400 Shader-Einheiten TU116: 1536 SE @ 192 Bit GDDR6
GA107 Mainstream ca. 170-220mm² 8nm Samsung GeForce RTX/GTX 3050 ca. 1400-1600 Shader-Einheiten TU117: 1024 SE @ 128 Bit GDDR5
GA108 Entry ca. 120-140mm² 8nm Samsung GeForce GT 3030 ca. 900-1000 Shader-Einheiten -
Die Angaben dieser Tabelle zu Ampere-Chips sind voll spekulativ.

Anmerkung:
Vorstehende Tabelle mit aktualisierten Annahmen zu den Ampere-Chips enthält trotz nahezu gleichen Hardware-Daten gegenüber der letzten diesbezüglichen Aufstellung sowie trotz schwächerer 8nm-Fertigung von Samsung (anstatt der bisherigen Annahme der 7nm-Fertigung von TSMC) nunmehr sogar kleiner Chipflächen. Dies hängt damit zusammen, das mit den bisherigen Prognose-Aufstellungen die Chipflächen unter der (angenommenen) 7nm-Fertigung von TSMC schlicht viel zu groß angesetzt waren. Dies sollte sowieso korrigiert werden, wird nun aber mit der Information zur 8nm-Fertigung von Samsung obsolet. Unter der 7nm-Fertigung könnte nVidia diese ganzen Chips sicherlich noch einmal um -40% kleiner fertigen, würde dann aber wahrscheinlich eher in Richtung von etwas mehr Hardware-Einheiten gehen wollen.