Možná jste si už všimli, že zatímco u herních grafik se Nvidia snaží plány tajit a nikdy nic neříká dopředu před vydáním, u serverových výpočetních GPU pro AI je to přesně naopak. Firma je prezentuje klidně rok před jejich dostupností (procesory Grace dokonce dobré dva roky předem). Teď se možná tyto dvě cesty protnuly. Ačkoliv generace grafik Blackwell reálně vyšla teprve letos, Nvidia už oznámila první GPU následující architektury Rubin.
Tento první produkt generace Rubin ale není čistokrevným AI GPU jako předchozí H100 generace Hopper nebo B200 generace Blackwell, u kterých jsme na papírové vydávání rok předem zvyklí. Rubin přinese klasicky jejich následníka (asi značeného R200) v podobě čipletového velmi drahého GPU s 288 GB paměti HBM4 (s 8192bitovou sběrnicí). Nvidia ale teď odhalila něco jiného, GPU označené Rubin CPX.
Rubin CPX: Next-gen herní highend v přestrojení?
Zatímco Velké GPU Rubin složené z více čipletů (jako nyní B200) bude určené pro trénování AI, Rubin CPX je určený k inferenci, tedy k úlohám, kdy je již jednou natrénovaná neuronová síť (tedy AI model) aplikována na nějaký úkol. Na rozdíl od R200 jde o monolitické GPU tvořené jedním čipem, nikoliv více čiplety. A za druhé: bude používat paměti GDDR7. Obojí znamená, že půjde potenciálně o řešení mnohem levnější na výrobu – nebude třeba žádný speciální substrát ani křemíkový interposer nebo jiné pokročilé pouzdření, čip a GDDR7 jednoduše budou osazené vedle sebe na PCB jako u běžného GPU.
Rubin CPX jinými slovy vypadá jako klasické (highendové) GPU určené pro grafické karty. A je velmi pravděpodobné, že ve skutečnosti jde o čip určený pro obě úlohy – jak herní grafické karty, tak ony serverové aplikace z oboru AI inference. To, že Nvidia bude moci použít pro obojí stejný čip (navíc jednoduchý na výrobu), by mělo Rubin CPX o dost zlevnit – nebo (což je asi v momentální bublině pravděpodobnější) ještě zvýšit marže Nvidie z prodeje těchto akcelerátorů.
Kromě toho, že půjde o monolitické GPU párované s pamětí GDDR7, toho zatím není moc známo. Podle Nvidie má dosahovat výkonu 30 PFLOPS v AI výpočtech na tensor jádrech při 4bitové přesnosti (NVFP4) a zřejmě také při použití funkce sparsity (jinak to bude polovina). To je o 50 % lepší výkon, než má Blackwell B200 složený ze dvou čipletů. Architektura Rubin by možná mohla mít zdvojnásobený počet tensor jader nebo výkon jednoho tensor jádra, nebo má GPU dvojnásobek výpočetních jednotek SM, od nichž se počet tensor jader a jejich výkon odvíjí (bylo by to v takovém případě nesmírně „široké“ GPU). V první variantě, která je asi pravděpodobnější, by obecný a grafický výkon narostl méně než výkon tensor jader.
GPU použité v Rubin CPX má obsahovat čtyři multimediální enkodéry NVENC a čtyři dekodéry NVDEC, což je nárůst proti herním GPU Blackwell, která mají maximálně tři a tři (nicméně u herních modelů nejsou nikdy všechny aktivované).
128 GB paměť v kombinaci s GPU pro herní karty?
Rubin CPX ve své verzi určené pro akceleraci AI ponese kapacitu paměti 128 GB, což bude důležité pro schopnost provádět inferenci s velkými AI modely. Zní to jako něco, co by nemělo být možné s herním GPU, nicméně ve skutečnosti tato kapacita je dosažitelná s 512bitovou paměťovou sběrnicí. Stačí si uvědomit, že dnešní GeForce RTX 5090 má na své právě 512bitové sběrnici 32GB paměť tvořenou 16 čipy o kapacitě 16 Gb (2 GB).
V tzv. clamshell režimu ale 512bitové paměti GDDR7 mohou být tvořené i dvojnásobkem čipů, což se realizuje osazením čipů z obou stran PCB Už dnešní GB202 použité v GeForce RTX 5090 touto cestou může používat 64 GB paměti. Ovšem výrobci pamětí GDDR7 by zřejmě měli být schopní vyrobit i 32Gb (4GB) čipy GDDR7 (jelikož u DDR5 se s nimi počítá), s kterými by pak GPU s 512bitovou sběrnicí mohlo mít přesně oněch 128 GB paměti. Alternativou by byla 1024bitová sběrnice s 16Gb čipy GDDR7 (a teoretickou možností dosáhnout 192 GB s 24Gb čipy, které již existují), ale to je asi ta méně pravděpodobná možnost.
I toto tedy zapadá do teorie, že čip, který Nvidia prezentuje jako Rubin CPX pro úlohy inference AI, je sekundárně také čipem chystaným pro herní grafiku, která by jednou mohla vyjít jako GeForce RTX 6090. Nejspíš s kapacitou paměti jen 32 GB nebo možná 48 GB (teoreticky by mohla mít 64 GB při použití 16 kusů 32Gb čipů, ale to Nvidia nejspíš neudělá).
Nvidia ukázala vizualizace simulující snímek čipu, které podle některých komentátorů odpovídají podobě architektury GPU obsahující grafické jednotky jako ROP. Podle analýzy tohoto obrázku by snad GPU mohlo mít 16 bloků GPC. Při 6 TPC na jeden blok GPC by to dávalo 192 bloků SM (jako má GB202) neboli 24 576 shaderů, pokud stále platí, že jeden blok SM je 128 shaderů. Ale GPC by teoreticky mohlo na jeden blok obsahovat i víc TPC (při osmi bychom dostali 256 SM – 32 768 shaderů). V herní verzi bude určitě nějaká část jednotek ponechaná vypnutá, aby se daly používat i čipy s defektem. Je ale nutné upozornit, že tento obrázek nemusí vůbec odpovídat realitě, teoreticky to může být zcela uměle vytvořený koncept bez návaznosti na návrh reálného chystaného GPU.
Nvidia neuvádí, jakým výrobním procesem bude GPU vyráběno, pravděpodobný je buď 3nm, nebo 2nm výrobní proces, téměř jistě ten od TSMC. I tak bude patrně GPU asi velikostí zase na hranici možného (600 až 800 mm²). Rubin CPX bude v rackových systémech Nvidie párován s velkým výpočetním GPU Rubin (R200) a budou si rozdělovat úlohy. Pro nás ale samozřejmě bude zajímavá herní verze pod značkou GeForce.
Rackové systémy od Nvidie budou obsahovat kombinaci velkých AI GPu Rubin s HBM4 a levnějších Rubin CPX s GDDR7
Vydání je ještě daleko
Na začátku jsme zmiňovali značně předběžnou povahu tohoto odhalení. Nvidia ve svých materiálech otevřeně říká, že Rubin CPX bude vydán (nebo oficiálně uveden, ale ne nutně s okamžitou dostupností?) až na konci příštího roku (2026).
To znamená, že toto časné odhalení vůbec neznamená, že nová generace GPU od Nvidie tu bude dříve, než se čekalo. Podle všeho bude klasicky zachován obvyklý dvouletý odstup a případné grafiky GeForce RTX 6000 pro hráče založené na tomto čipu vyjdou buď na konci roku 2026 (na podzim, jak to bývalo u Nvidie typické), nebo začátkem roku 2027 (jak to nastalo u generace Blackwell). Tedy samozřejmě v případě, že uvedení nepostihne z jakéhokoli důvodu odklad.
Tak jako tak jde o dost zajímavé odhalení.
Zdroje: Nvidia (1, 2) Videocardz (1, 2), HardwareLuxx

