Jednou z velkých novinek očekávaných od letošního roku byl vstup Nvidie na trh s procesory pro PC a notebooky s jejími vlastními Arm čipy N1 a N1X. Ty se ani na lednovém CES, ani na květnovém Computexu neukázaly, ale firma přišla s něčím jiným – procesorem GB10 pro AI zařízení, který vyvinula s MediaTekem. A je možné, že stejný křemík bude i v N1X. Teď Nvidia detaily tohoto procesoru odhalila, takže se můžeme podívat, co nás čeká.
Nvidia prezentovala procesor GB10 (který pyšně označuje za „Superchip“) na konferenci Hot Chips 2025 a tato prezentace poprvé vyjasnila řadu věcí. Již jsme věděli, že GB10 je SoC složený ze dvou čipletů propojených pomocí rozhraní „NVLink C2C“. Předpokládalo se, že Nvidia vyvinula GPU a MediaTek část s CPU, což bylo potvrzeno. MediaTek má dost možná na procesoru větší díl zásluh, byť je pravda, že jeho hlavním prodejním „tahákem“ asi zůstane GPU od Nvidie.
Nvidia mimochodem používá pro čiplety vlastní termín, „dielet“ (die je termín používaný pro křemík tvořící čip). Ostatně podobně jako Intel, který zase hovoří o „tile“ neboli dlaždici (i když je pravda že jeho prezentace na Hot Chips termín čiplet použila).
Většina je od MediaTeku
Čiplet od MediTeaku („S-Dielet“) obsahuje 20 jader CPU architektury ARM, L3 cache i SLC (systémovou cache), bezpečnostní subsystém, správu spotřeby a všechnu konektivitu včetně PCI Expressu a USB. To vše je přitom založeno na IP od MediaTeku, tedy technologiích a blocích, které využívá ve svých ostatních Arm čipech.
Jedinými výjimkami, které jsou v tomto čipletu založené na IP licencovaném od Nvidie, jsou logika pro správu výstup na displej (s výjimkou samotných bloků a PHY přímo generujících výstup na DisplayPort a HDMI) asi včetně framebufferu a blok rozhraní NVLink C2C sloužícího pro propojení s GPU čipletem.
Zajímavé je, že dokonce i paměťový řadič (pro paměti LPDDR5X o šířce 256 bitů) je přítomen na SoC čipletu od MediaTeku a je tvořený jeho IP. Zatím se asi spíše očekávalo, že kvůli nárokům na paměťovou propustnost bude paměťový řadič tohoto řešení umístěn v GPU čipletu a nepřímo bude k paměti přistupovat CPU. Tak to provádí AMD u procesorů Strix Halo s výkonným GPU.
Nvidia uvádí, že s MediaTekem rozsáhle spolupracovala na tom, aby GPU přes rozhraní C2C bylo schopno dostat přístup k dostatečné paměťové propustnosti skrze paměti spravované CPU částí. Ač tedy jde o IP MediaTeku, ten provedl různé úpravy vycházející Nvidii vstříc. CPU i GPU například mají koherentní paměťový prostor, v kterém by mělo být možné poměrně snadno sdílet data, GPU by mělo používat stejný fyzický adresový prostor jako CPU.
Nvidia mezi výhodami spolupráce uvádí, že díky MediaTeku je CPU či SoC část včetně paměťového řadiče „energeticky efektivní“. Z toho by se dalo usuzovat, že si Nvidia v oblasti mobilních a úsporných řešení úplně nevěří a pomyslné sólo řešení, které by vyvinula sama, by možná mělo problém fungovat dobře v noteboocích.
GPU od Nvidie
Čiplet s grafickou částí („G-dielet“) představující hlavní příspěvek Nvidie obsahuje samotné výpočetní jednotky s architekturou Blackwell, od Nvidie je také multimediální engine pro kompresi a dekompresi videa, který je umístěn v GPU čipletu. Rozhraní NVLink C2C pro spojení s čipletem od MediaTeku je samozřejmě také od Nvidie (zdá se, že v tomto kusu křemíku je vše její vlastní).
Je uváděno, že NVLink C2C poskytuje propustnost 300 GB/s oběma směry, má tedy dostatečnou kapacitu, aby jím „prolezla“ celá propustnost 256bitových pamětí, které celý SoC používá. Nevyhnutelně to asi bude stát nějakou spotřebu a latenci navíc proti alternativě, kdy by paměťový řadič byl lokálně ve stejném kusu křemíku, ale jak velká režie navíc to je, to není známo.
3nm proces a 140W spotřeba
Oba čiplety (dielety) používají 3nm proces TSMC (to doteď nebylo potvrzeno), což by teoreticky mohla být výhoda proti již existující konkurenci (jako je Ryzen AI Max 300 od AMD nebo Qualcomm Snapdragon Elite coby alternativní Arm procesor pro PC, byť bez silného GPU). Čiplety mají být propojeny pokročilým 2.5D pouzdřením, což by mělo znamenat interposer nebo křemíkový můstek, ne méně efektivní propojení přes substrát, které používají dnešní desktopové procesory AMD (změna by údajně měla nastat u Zenu 6).
V prezentaci na Hot Chips také poprvé byla prozrazena spotřeba. Celý SoC má oficiálně TDP 140 W, což není nějak extrémně moc, ale ani málo. Jde o TDP nejvýkonnějších samostatných GPU pro notebooky.
Cortex-X925
Jak známo, procesor má 20jader licencovaných od Armu – 10 velkých jader Cortex-X925 a 10 prostředních či efektivních jader Cortex-A725, což jsou loňské architektury, ale Arm zatím neodhalil jejich nástupce (byť dříve tak činil uprostřed roku). Oba desetijádrové klastry mají vlastní 16MB L3 cache, k tomu pak dále procesor má 16MB SLC. Ta jednak slouží jako určitá forma L4 cache (umožňuje sdílení dat jak mezi velkými, tak prostředními jádry), ale také zprostředkovává sdílení dat mezi CPU a dalšími částmi SoC, aniž by se muselo jít celou cestu do RAM.
Paměťový řadič má šířku 256 bitů a má zvládnout rychlost až 9400 MHz efektivně, což by dodávalo 301 GB/s propustnosti. Zařízení DGX Spark počítají s osazením kapacity paměti až 128 GB.
SoC část umožňuje připojení periférií přes PCI Express 5.0, měla by poskytovat minimálně osm linek. Vedle SSD je přes ně v zařízeních DGX SPark připojen i Ethernetový adaptér ConnectX 7, kterým lze dvě stanice propojit.
Integrovaná GeForce RTX 5070
Nvidia uvádí, že GPU má architekturu Blackwell včetně podpory ray tracingu (s RT jádry 4. generace), nejde tedy o negrafickou GPU architekturu, jakou Nvidia používá v serverových AI akcelerátorech – verze PC by tedy měla umožňovat i herní využití. Samozřejmě jsou obsažena tensor jádra 5. generace pro AI.
GPU má 24MB L2 cache, která má za cíl zlepšit hospodaření s nižší propustností paměti (proti samostatným GPU), a také je přes ní řízená koherence paměti s CPU. GPU také podporuje vitualizaci SR-IOV.
Uváděný výkon je 31 TFLOPS ve výpočtech s přesností FP32 a až 1000 TFLOPS v přesnosti FP4/NVFP4 na tensor jádrech (s funkcí sparsity zřejmě, bez ní polovina). V prezentaci není přímo zmíněný počet shaderů, ale podle uniklých dat by jich mělo být 6144 (48 bloků SM, což by znamenalo i 48 RT jader a 192 tensor jader). Je to tedy konfigurace odpovídající GeForce RTX 5070.
Podle údaje o 1000 TOPS by měla oficiální boostová frekvence být dokonce vyšší (RTX 5070 má uvedeno 988 TOPS), někde okolo 2,54 GHz. Jenže kvůli omezenému TDP budou reálné takty během zátěže určitě nižší než u desktopové RTX 5070 i přes použití 3nm procesu, a také nižší paměťová propustnost (RTX 5070 má 672 GB/s) výkon zhorší. Zařízení proto bude pravděpodobně mít výrazně nižší výkon než desktopová GeForce RTX 5070.
Podporován je výstup HDMI 2.1a s rozlišením až 8K při 120 Hz. Přes USB-C jak alternativní režim umí SoC výstup na DisplayPort, kde ale podporuje maximálně jen rozlišení 4K při 120 Hz. Tento nepoměr je asi dán zaměřením MediaTeku na trh spotřebitelských zařízení, mobilů a televizí. Samotné výstupy zajišťuje jeho IP, jak již bylo zmíněno, byť jsou napojené na blok zpracovávající framebuffer a data obrazového výstupu od Nvidie.
Verze pro Windows PC?
Nvidia uvádí jako podporované softwarové prostředí Ubuntu Linux nebo její vlastní linuxovou distribuci (DGX Base OS), nikoliv Windows. Zda někdy bude podpora Windows oficiálně přidána, nevíme. Podle úniků je zřejmě na stejném křemíku (či přesněji dvou „křemílcích“, pokud by se měl pojem dielet přeložit) je ale založený i PC procesor Nvidia N1X, u kterého je podpora Windows očekávána. Možná jen ještě není v zcela hotovém stavu.
Vydání GB10 je zdá se poněkud opožděno – původně Nvidia uváděla, že zařízení DGX Spark (Project Digits) budou expedována v červenci, k čemuž zdá se nedošlo a stále nejsou dostupná. Procesory N1X pro PC, jsou-li založené na stejném křemíku, také měly vyjít letos, ale nabraly zdá se zpoždění. Nvidia však spolupráci s MediaTekem označuje za úspěšnou.
Zdroj: ComputerBase





