AMD Instinct MI200 pro superpočítače a AI: 6nm čipletová GPU jsou 5× rychlejší než Ampere

8

AMD odhalilo své dosud největší GPU. Aldebaran je jeho první 6nm produkt a ve vědeckých výpočtech by asi měl být nejrychlejším (ko)procesorem na světě – model AMD Instinct dokáže vyvinout 48 TFLOPS ve dvojité přesnosti FP64.

Únik už to „vyspoiloval“, ale v pondělí AMD oficiálně oznámilo nejnovější a nejvýkonnější výpočetní GPU – Instinct MI250X. I tak ale tyto akcelerátory překvapily. Místo hloupého „MCM“ používají pouzdření s pokročilejším ekvivalentem Intelova EMIB a mají mnohem vyšší výkon, než se zdálo. Hodně zajímavé také je, že jde o první 6nm čip od AMD. Tato GPU jdou do exascale počítače Frontier, ale budou mít i volně prodávanou verzi.

Předchozí
Následující

První 6nm čip AMD: Aldebaran s architekturou CDNA2

Nové výpočetní GPU se formálně jmenuje AMD Instinct MI200 Series (řada MI200), zatím od něj budou ovšem existovat tři modely, označené Instinct MI210, MI250 a MI250X. Verze MI250X a MI250 má mezaninové provedení Open Accelerator ModulE (OAM) podobné provedení SXM, které Nvidia používá u svých výpočetních modulů. OAM je ale standardizovaný používá ho více výrobců šasi/akcelerátorů včetně Intelu, zejména pro AI ASICy. Model MI210 je v provedení karty PCI Express pro serverová šasi klasického střihu.

Instinct MI200 (jeho kódové označení by mělo být Aldebaran) navazuje na předchozí počin firmy, akcelerátory MI100 (Arcturus), s nimiž poprvé přišla na výpočetní nasazení a AI specializovaná architektura CDNA. Generace MI200 přináší její vylepšenou verzi CDNA2, má tedy architekturu inovovanou.

Lisa Su ukazuje vzorek GPU Instinct MI200
Lisa Su ukazuje vzorek GPU Instinct MI200 (Zdroj: AMD)

Vedlo toho je ale upraveno I/O. Akcelerátor poskytuje linky Infinity Fabric 3.0, a umožňuje tak koherentní propojení mezi svými sousedy – GPU, ale také s hostitelskými CPU, musí to ovšem být procesory Epyc od AMD. V systému tedy vše může mít sdílenou paměť, což zjednodušuje programování.

Výpočetní GPU AMD Instinct řady MI200 04 Zdroj: AMD via Tom's Hardware

Druhá důležitá novinka je, že Aldebaran/MI200 používá vícečipovou stavbu GPU, respektive asi lze říci, že jde o GPU čipletové. U grafických karet bývalo běžné, že se na jednu kartu osadilo více GPU, propojených na úrovni PCI Expressu, ale MI200 má své dva čipy integrované hlouběji, takže AMD toto řešení označuje jako „první multi-die GPU“, což implikuje, že jde o něco jiného, než předchozí multi-GPU karty. V jednom pouzdru jsou dva čiplety GCD (Graphics Computer Die, nebo možná lépe GPU Compute Die, protože grafiku nejspíš ani neumí počítat), propojené vysokorychlostním rozhraním.

Dva 6nm čiplety

Čiplet GCD je vyráběný 6nm procesem TSMC (N6) a nevíme sice zatím, jak je velký. Dle AMD má obsahovat 29,1 miliard tranzistorů, což je jen o 14 % více, než v 7nm čipu Arcturus (ten prý měl 25,6 miliardy). Asi by proto mohl být o dost menší než výpočetní GPU Nvidia Ampere GA100, jež má 54,2 miliard tranzistorů v 826 mm², nejspíš by mohl být někde mezi 450 a 500 mm². Na jednom GCD se nachází 112 CU, tedy 7168 shaderů. V praxi ale na každém čipletu GCD budou nějaké CU vypnuté kvůli tomu, aby se daly použít i čipy s defekty, což je u velkých GPU téměř nevyhnutnost.

Výpočetní GPU AMD Instinct řady MI200 02 Zdroj: AMD via Tom's Hardware

Model Instinct 250X má mít dohromady 220 CU a 14 080 shaderů. Verze MI250 pořád v provedení OAM má 104 CU v každém GCD, takže celek dostane 208 jednotek CU a 13 312 shaderů. Zatím nemáme informace o verzi MI210, ta bude patrně ještě více zredukovaná.

Arcturus a architektura CDNA2 opět obsahuje i Matrix cores pro akceleraci AI. U těch se uvádí počet čtyř na každou CU, takže model MI250X jich má 880, model MI250 pak 832.

AMD Instinct MI200 v provedení OAM v serveru Zdroj: AMD

3,2 TB/s paměťové propustnosti

Každý čiplet GCD má svůj paměťový řadič, jenž je tvořen čtyřmi kanály (4096bitová sběrnice), na kterých je napojena paměť HBM2E s efektivním taktem 3,2 GHz. Celková sběrnice obou GCD dohromady je tak 8192 bitů a propustnost dohromady 3,2 TB/s, toto je stejné pro model MI250 i MI250X. Obě poloviny by asi měly být funkčně samostatné, takže AMD by asi mělo být schopné uvést i jednočipletovou verzi s 4096bitovou pamětí a 110 CU. Je dokonce možné, že ta PCIe verze MI210 bude vyrobená takto.

Kapacita paměti je 64 GB HBM2E pro každou polovinu, celek má tedy 128 GB. Díky koherentnímu propojení může GCD přistupovat i do paměti připojené k druhému GCD, ovšem bude při tom mít sníženou propustnost. Je to víceméně jako u Epyců nebo Threadripperů první generace.

AMD Instinct MI250X 06
AMD Instinct MI200/Aldebaran (zdroj: AMD)

Propojení linkami Infinity Fabric 3.0

Vedle výpočetních jednotek je na každém čipletu GCD přítomných osm rozhraní Infinity Fabric 3.0, z nichž čtyři slouží k propojení s druhým čipletem, tři by typicky asi měly být propojené se sousedními akcelerátory a čtvrtý s hostitelským CPU. Trošku odlišné je to u modelu Instinct MI250. Ten má jen šest linek a nepodporuje koherentní zapojení do procesoru (možná se počítá s tím, že bude provozován často ve starších serverech nebo serverech s CPU Intel, kde není možné se k CPU přes Infinity Fabric připojit).

Linky propojující akcelerátor se sousedy a s procesorem jsou vyvedené na piny onoho mezaninového provedení OAM, o propojení se stará základní deska. Šířka jedné linky je 16 bitů a efektivní rychlost 25 Gb/s na jeden bit duplexně, takže jedna linka dodává 50 GB/s v obou směrech. Což znamená, že mezi oběma polovinami Instinctu MI250/MI250X je propustnost 200 GB/s obousměrně, do sousedních GPU a do procesoru je to pak obvykle těch obyčejných 50 GB/s.

Celkové zapojení může být čtyři akcelerátory na jednom CPU, kde všechna GPU jsou přímo napojená (jedním ze svých dvou GCD čipletů). Toto je doporučené pro HPC aplikace (superpočítače). Propojení Infinity Fabric do procesoru ale zřejmě potřebuje zvláštní verzi Epyců, není jasné, zda fungují všechny modely generace Epyc 7003, nebo jsou třeba nějaké zvláštní modely s odlišným socketem.

HPC zapojení se čtyřmi GPU koherentní připojení k CPU Zdroj: AMD, via AnandTech

Ale je možné propojit také osm akcelerátorů Instinct dohromady, což by se asi používalo pro aplikace strojového učení/AI. V takovém případě by se použila dvouprocesorová deska.

Zapojení s osmi GPU a dvěma CPU přes PCI Express Zdroj: AMD, via AnandTech

AMD samozřejmě preferuje, aby uživatelé GPU Instinct MI200 párovali s procesory Epyc, kde se dá pak také jako bonus použít ono koherentní napojení akcelerátorů k procesoru pomocí IF 3.0. Ale podporováno je také zapojení s konkurenčními procesory – nebo s procesory Epyc na deskách, které nepodporují propojení přes Infinity Fabric. V takovém případě se linka IF 3.0 použitá ke komunikaci s CPU promění na rozhraní PCI Express 4.0 ×16, které ale není koherentní a má propustnost jen 32 GB/s duplexně. Mezi sebou se ale GPU mohou po IF 3.0 bavit dál.

Článek pokračuje na další straně, kde se podíváme na architekturu, výkon, spotřebu a použití.

Galerie: AMD Instinct MI200 (Aldebaran)

Předchozí
Následující

8 KOMENTÁŘE

  1. „Čiplet GCD je vyráběný 6nm procesem TSMC (N6) a nevíme sice zatím, jak je velký. Dle AMD má obsahovat 29,1 miliard tranzistorů, což je jen o 14 % více, než v 7nm čipu Arcturus (ten prý měl 25,6 miliardy). Asi by proto mohl být o dost menší než výpočetní GPU Nvidia Ampere GA100, jež má 54,2 miliard tranzistorů v 826 mm², nejspíš by mohl být někde mezi 450 a 500 mm². Na jednom GCD se nachází 112 CU, tedy 7168 shaderů. V praxi ale na každém čipletu GCD budou nějaké CU vypnuté kvůli tomu, aby se daly použít i čipy s defekty, což je u velkých GPU téměř nevyhnutnost.“

    Když vidím tu velikost balení, jak ten čip drží Lisa Su v ruce tak 450 – 500mm2 je naprosto nereálná velikost. Arcturus na N7 má die size ( pokud platí udávaná hustota tranzistorů 34.1M / mm²) 750mm2. Aldebaran není zase o tolik menší, když vezmeme o cca 20% vyšší hustotu 6N procesu, tak to vychází někde okolo 710mm2