Google proti AI monopolu Nvidie: S novým TPU tvoří systémy s víc než 9000 čipy a spotřebou 10 MW

11. 4. 2025

AI akcelerátor Google Ironwood, TPU sedmé generace

Internetový gigant odhalil už sedmou generaci svých AI akcelerátorů TPU, nazvanou Ironwood, kterou bude možné používat v jeho cloudu.

Současná mánie kolem umělé inteligence vynesla do výšin tržby a zisky Nvidie, jejíž serverová GPU jsou dominantním hardwarovým řešením pro tyto aplikace, ač se to řada různých konkurentů snaží změnit. Jedním z těch vážnějších jsou asi AI čipy, které si sami navrhnou tzv. hyperscale firmy – internetoví obři typu Microsoftu nebo Amazonu. Takové vlastní řešení začal vyrábět jako první Google už před deseti lety a teď uvádí už sedmou generaci.

Ve středu Google oznámil už sedmou generaci svého AI akcelerátoru TPU (tato zkratka znamená Tensor Processing Unit), který dostal jméno Ironwood – což je zřejmě přímo oficiální označení, ne jen interní kód. Navazuje na předchozí generaci pojmenovanou Trillium, která byla uvedená loni.

Google neříká mnoho o výpočetní části, která by se měla skládat ze speciálních jednotek pro maticové násobení a operace (tedy obdoby Tensor jader u Nvidie) a univerzálnějších jader používaných pro další operace. Novinkou v architektuře Ironwoodu je podpora AI výpočtů s přesností FP8, které předchozí generace neuměly.

FP8 poskytuje dvojnásobný výkon proti 16bitovým datovým typům (FP16, Bfloat16) za cenu horší přesnosti a tím i horší kvality výsledků. Ovšem poloviční velikost datového typu umožňuje do stejné kapacity paměti dostat model s dvojnásobným počtem parametrů. A právě počet parametrů v modelu je v současnosti klíčem ke zlepšování schopností neuronových sítí, kterým říkáme AI. Význam FP8 tedy může být hlavně v tomto, méně ve větším výkonu výpočtů.

Složený z dvou čipletů?

Akcelerátor používá pouzdro s celkem osmi pamětmi typu HBM, zřejmě HBM3E. Celkově připomíná výpočetní GPU Blackwell GB200 od Nvidie a už rozměry a tvar výpočetního křemíku naznačují, že i Google použil spojení dvou výpočetních čipletů (kde každý má pro sebe čtyři pouzdra HBM3E) v jednom pouzdru. Podle detailních fotografií od Googlu má Ironwood asi dva velké výpočetní čiplety a ještě menší IO nebo komunikační čiplet – je-li na fotkách reálný akcelerátor.

Celý akcelerátor má pro své potřeby 192 GB paměti HBM3E. Google pro ni uvádí propustnost 7,2 GB/s. To znamená, že paměti běží na o něco nižší frekvenci než v Nvidia GB200 (tam je propustnost pamětí 8 TB/s, také při kapacitě 192 GB).

Google uvádí, že jeden akcelerátor má výkon přes 4,5 PFLOPS patrně právě ve výpočtech FP8 – přesně je to 4614 TFLOPS. Je to podobné jako 5 PFLOPS udávaných pro Nvidia B200 (nicméně nyní Nvidia uvádí výše taktovanou verzi B300 s výkonem 7,5 TFLOPS – tzv. Blackwell Ultra). Nvidia ještě může zdvojnásobit výkon při použití výpočtů FP4, je ale otázka, zda je bude možné využít univerzálně vzhledem k jejich extrémně limitované „přesnosti“, spíš asi ne. Další zdvojnásobení výkonu je u Nvidie možné pomocí funkce structured sparsity – zda tuto softwarovou funkci podporuje i Ironwood, není řečeno.

Přes 40 EXAFLOPS pro inferenci

Ironwood počítá s propojením jednotlivých akcelerátorů pomocí sítě ICI do klastrů o počtu až 9216 akcelerátorů Ironwood, kdy má souhrnný výkon systému dosáhnout až 42,5 EFLOPS (exaFLOPS, je to patrně ve výpočtech FP8). Přesně tato maximální konfigurace bude nabízena zákazníkům přes Google Cloud, alternativně bude v nabídce ještě výrazně menší instance s jen 256 propojenými Ironwoody. Hlavním určením těchto TPU není trénování AI, ale inference – tedy provoz již natrénovaných neuronových sítí při běžné produkční aktivitě firem, které si Ironwoody budou na práci najímat.

Protože Google provozuje svá vlastní datacentra, je docela možné, že akcelerátor navrhuje a jeho takty nastavuje s ohledem na větší energetickou efektivitu než Nvidia. Ta má coby prodejce, ale ne přímo provozovatel svých GPU motivaci u nich hnát takty výš na úkor spotřeby energie (protože za tu platí uživatel). Její nejnovější „Blackwell Ultra“ (GPU GB300) má TDP zvýšit už na 1400 W. Spotřebu akcelerátoru Ironwood ale neznáme, Google jen uvádí, že je údajně podobná jako u špičkových AI GPU.

Konfigurace (klastr) s 9216 Ironwoody má údajně spotřebu 10 MW, z čehož vychází, že TDP jednoho Ironwoodu nejspíš je někde v pásmu 700–1000 W. Pro kontext, původní navrhovaný výkon jednoho bloku JE Temelín byl 1000 MW, utáhl by tedy jen 100 těchto žroutů. Nvidia mimochodem plánuje, že v generaci GPU Rubin Ultra, které vydá v roce 2027, bude jeden jediný serverový rack konzumovat 600 KW.

Podle Googlu má Ironwood údajně dvojnásobný výkon na jeden watt elektřiny proti loňskému akcelerátoru Trillium, „peak“ výkon má být 29,3 TFLOPS na watt proti 14,6 TFLOPS/watt u předchozí generace. Nicméně, dvojnásobný výkon na watt dost možná plyne jen z podpory FP8, protože se srovnávají dvojnásobné TOPS při použití 8bitového datového typu s TOPS při 16bitových výpočtech na čipech Trillium. To by pak nebyl bůhvíjak dobrý výsledek. Ovšem pokud oba čipy používají stejný výrobní proces, asi to není neočekávané.

Z těchto čísel by vycházela mnohem nižší spotřeba jednoho akcelerátoru, pokud by se vycházelo z uváděného výkonu 4614 TFLOPS na jeden Ironwood. Ale asi tyto údaje nejsou relevantní pro daný výpočet a tento výsledek je tedy chybně.

Dostupnost někdy v letošním roce

Aktuální oznámení ještě není dnem skutečného vydání ve smyslu dostupnosti na trhu, jen předběžným oznámením. Google ještě neuvádí, kdy platící zákazníci budou moci TPU generace Ironwood začít používat, zatím je termín specifikován jen jako „později v tomto roce“. Dostupnost bude opět skrze cloudové služby Googlu, přímo samotný hardware Google nikomu dalšímu prodávat nebude.

Zdroje: Google, The Register