Nový nejrychlejší superpočítač: Fugaku s procesory ARM dává 500 PFLOPS úplně bez GPU

Stroj RIKEN Fugaku se s výkonem přes 500 PFLOPS zřejmě posadí na trůn superpočítačů. A to přesto, že má čistě CPU architekturu bez speciálních akcelerátorů.

4

Superpočítače už mnoho let ovládají akcelerátory na bázi GPU, které jim výrazně zvedají teoretický výkon v TFLOPS, ale vyžadují speciální programování, které může někdy v praxi tyto vysoké výkony zkomplikovat. Nyní ale na trůn nového nejvýkonnějšího superpočítače nastupuje stroj, který netypicky GPU nevyužívá.

Japonský Fugaku postavený firmou Fujitsu běží na speciálních výkonných procesorech ARM a v příštím vydání žebříčku TOP500 by se měl stát světovou jedničkou čistě díky nim. Mám přesto nějakých 400 PFLOPS výkonu ve vědeckých výpočtech s dvojitou přesností a ve výpočtech umělé inteligence jde do řádu EXAFLOPS.

RIKEN Fugaku (Post-K) uveden do provozu

Fugaku je nástupce počítače RIKEN K, dříve byl označován jako „Post-K“. I ten šel svou vlastní japonskou cestou s osmijádrovými procesory Fujitsu Sparc64-VIIIfx. Mezitím ale Fujitsu přešlo na architekturu ARM, na nichž jsou založená nová CPU A64FX. Fugaku jich používá 158 976 ve více než 400 raccích (pro srovnání – K měl 88 128 procesorů).

Procesor A64FX má výpočetních 48 jader na taktu 2,2 GHz, jimž numerický výkon dodávají SIMD jednotky založené na instrukční sadě ARM SVE, šířka jednotek je 512 bitů (tedy jako u AVX-512 ve světě x86). K těmto 48 jádrům se pak ještě přidávají další řídící a kontrolní jádra. Malá část uzlů obsahuje čtyři (tyto mají jako sekundární úlohu I/O), část jen dvě.

Diagram CPU Fujitsu A64FX
Diagram CPU Fujitsu A64FX (Zdroj: The Next Platform)

Takt těchto procesorů je 2,2 GHz. Počet výpočetních jader je přes 7,6 milionu, s řídícími jádry (ta jsou rezervovaná pro operační systém), je počet přes 8 milionů. Každý uzel má paměť HBM2 o kapacitě 32 GB a propustností přes 1 TB/s, celková paměť všech uzlů má dosahovat 4,85 PB s propustností 163 PB/s.

Fujitsu A64FX
Fujitsu A64FX. Po okrajích jsou vidět paměti HBM2 (Zdroj: insideHPC)

Uzly komunikují speciální propojovací logikou Tofu-D, která byla v předchozí generaci Tofu významnou složkou už předchozího stroje. Tyto superpočítače se totiž soustředí ne na co nejvyšší TFLOPS/PFLOPS, ale na co nejvyšší využitelnost teoretického výkonu – využití obecných CPU místo akcelerátorů typu GPU je jedna ze stránek této politiky, důraz na silnou propojovací logiku další.

Díky tomu by se Fugaku měl dát mnohem snáze programovat a měl by mít lepší poměr mezi teoretickým a reálně vytěženým výkonem – tato výhoda by měla být tím větší, čím více budeou výpočty náročné na objem data a nejen numerický výkon. Většina superpočítačů škáluje zejména výpočetní výkon (GPU), kdežto Fugaku by měl být více vyvážený mezi výkonem CPU/akcelerátorů (zde jsou to SIMD jednotky) a propojení.

fujitsu riken post k block diagram nextplatform
Schéma architektury A64FX/RIKEN Fugaku (Zdroj: The Next Platform)

V příštím vydání žebříčku TOP 500 bude patrně jedničkou

Zatím nejsou ještě oficiální čísla o výkonu z žebříčku Top 500, která jsou reálně měřená v Linpacku a která budou trošku nižší, než součet teoretických výkonů všech uzlů. Špičkový/teoretický výkon stroje má však být 537 PFLOPS (původní plány či odhady předpokládaly konzervativně 400 PFLOPS) výkonu při vědeckých výpočtech s dvojitou přesností.

Pro výpočty FP32 se uvádí 1,07 EFLOPS (exaFLOPS), s redukovanou přesností pak 2,15 EFLOPS (FP16), respektive 4,3 exa operací za sekundu s 8bitovými hodnotami INT8. Fugaku tedy bude možné využívat i pro AI výpočty, byť to nebude tak energeticky efektivní jako při použití specializovaných ASIC akcelerátorů.

Superocitac RIKEN Fugaku
Kabinety superpočítače RIKEN Fugaku

Web Next Platfrom, který oblast HPC a serverů podrobně sleduje, uvádí, že ve vědeckých výpočtech (FP64) byl kupodivu prototyp A64FX efektivnější než alternativa v podobě akcelerátorů Nvidia Tesla V100, byť těsně. Údajně dosahoval 16,78 GFLOPS na jeden watt příkonu, zatímco server s V100 měl 15,77 GFLOPS. Srovnávací čistě CPU server s procesory Intel Xeon Gold měl v době tohoto srovnání výkon 5,84 GFLOPS/watt.

Toto ovšem asi překoná teď uvedená nová generace GPU Ampere (Nvidia A100), byť Fujitsu A64FX bude mít nadále určitou výhodu v tom, že nepotřebuje systémová CPU navíc, ale A100 pravděpodobně převezme vedení v žebříčku efektivity Green 500. Nicméně jak už bylo řečeno, smysl architektury Fujitsu je hlavně ve vyváženosti výpočetního výkonu s dalšími složkami důležitými pro škálování.

První práce superpočítače je boj proti koronaviru

Do ostrého provozu se Fugaku dostane až v roce 2021, do té doby bude probíhat testování a validace. Mezitím mají být výpočetní kapacity využité k pomoci v analýze aktuální hrozby viru COVID-19 a hledání možných léků a vakcín na tento virus. Momentálně na něm běží pět projektů, které také analyzují ekonomické dopady pandemie nebo simulují šíření viru kapénkami pro lepší porozumění toho, jak se proti koronaviru bránit.

fujitsu riken fugaku chlazeni
Chlazení uzlu s procesory A64FX v prototypu počítače Fugaku (Zdroj: The Next Platform)

Mimochodem, Fujitsu A64FX nebude zřejmě jen čip tohoto jediného superpočítače, případně dalších, které Fujitsu odvodí od stejné architektury pro další klienty (řada Fujitsu FX700). Procesory má využívat také Cray, který bude nabízet variantu klastrů CS500 „Storm“ založenou na těchto CPU. Cray má i stroje založené na ARM čipech Cavium/Marvell ThunderX2, ovšem proti těm bude A64FX se SIMD instrukcemi SVE mít mnohem vyšší výpočetní výkon (nemluvě o výhodách paměti HBM2).

Zdroje: The Next Platform (1, 2), AnandTech

Cray CS500 s procesory Fujitsu A64FX Zdroj AnandTech - Cray CS500 s procesory Fujitsu A64FX (Zdroj: AnandTech)

Superpočítač RIKEN Fugaku a ARM procesor Fujitsu A64FX s SVE (Fotogalerie)

Nový nejrychlejší superpočítač: Fugaku s procesory ARM dává 500 PFLOPS úplně bez GPU
Ohodnoťte tento článek!
4.8 (95.38%) 13 hlas/ů

4 KOMENTÁŘE