Nový nejrychlejší superpočítač: Fugaku s procesory ARM dává 415 PFLOPS i bez GPU (update)

23. 6. 2020

Japonský stroj RIKEN Fugaku oficiálně obsadil trůn v žebříčku superpočítačů TOP500. A to přesto, že má čistě CPU architekturu bez speciálních akcelerátorů.

Přidat mezi oblíbené zdroje na Googlu

Včera vedle oznámení, že Apple u svých počítačů s MacOS přejde z Intelu na vlastní procesory, přišla ještě jedna zpráva, na kterou může být tábor procesorů ARM pyšný. Byl totiž vydán nový žebříček nejvýkonnějších superpočítačů, jenž má nového vítěze: japonský RIKEN Fugaku, založený na procesorech ARM od Fujitsu.

O tomto zajímavém stroji jsme psali minulý měsíc, nyní jsme ho aktualizovali o oficiální výkon, s kterým se do TOP500 zapsal. Oživení je níže v textu.

Původní článek z 19. 5. 2020:

Superpočítače už mnoho let ovládají akcelerátory na bázi GPU, které jim výrazně zvedají teoretický výkon v TFLOPS, ale vyžadují speciální programování, které může někdy v praxi tyto vysoké výkony zkomplikovat. Nyní ale na trůn nového nejvýkonnějšího superpočítače nastupuje stroj, který netypicky GPU nevyužívá.

Japonský Fugaku postavený firmou Fujitsu běží na speciálních výkonných procesorech ARM a v příštím vydání žebříčku TOP500 by se měl stát světovou jedničkou čistě díky nim. Mám přesto nějakých 400 PFLOPS výkonu ve vědeckých výpočtech s dvojitou přesností a ve výpočtech umělé inteligence jde do řádu EXAFLOPS.

RIKEN Fugaku (Post-K) uveden do provozu

Fugaku je nástupce počítače RIKEN K, dříve byl označován jako „Post-K“. I ten šel svou vlastní japonskou cestou s osmijádrovými procesory Fujitsu Sparc64-VIIIfx. Mezitím ale Fujitsu přešlo na architekturu ARM, na nichž jsou založená nová CPU A64FX. Fugaku jich používá 158 976 ve více než 400 raccích (pro srovnání – K měl 88 128 procesorů).

Procesor A64FX má výpočetních 48 jader na taktu 2,2 GHz, jimž numerický výkon dodávají SIMD jednotky založené na instrukční sadě ARM SVE, šířka jednotek je 512 bitů (tedy jako u AVX-512 ve světě x86). K těmto 48 jádrům se pak ještě přidávají další řídící a kontrolní jádra. Malá část uzlů obsahuje čtyři (tyto mají jako sekundární úlohu I/O), část jen dvě.

Diagram CPU Fujitsu A64FX (Zdroj: The Next Platform)

Takt těchto procesorů je 2,2 GHz. Počet výpočetních jader je přes 7,6 milionu, s řídícími jádry (ta jsou rezervovaná pro operační systém), je počet přes 8 milionů. Každý uzel má paměť HBM2 o kapacitě 32 GB a propustností přes 1 TB/s, celková paměť všech uzlů má dosahovat 4,85 PB s propustností 163 PB/s.

Fujitsu A64FX. Po okrajích jsou vidět paměti HBM2 (Zdroj: insideHPC)

Uzly komunikují speciální propojovací logikou Tofu-D, která byla v předchozí generaci Tofu významnou složkou už předchozího stroje. Tyto superpočítače se totiž soustředí ne na co nejvyšší TFLOPS/PFLOPS, ale na co nejvyšší využitelnost teoretického výkonu – využití obecných CPU místo akcelerátorů typu GPU je jedna ze stránek této politiky, důraz na silnou propojovací logiku další.

Díky tomu by se Fugaku měl dát mnohem snáze programovat a měl by mít lepší poměr mezi teoretickým a reálně vytěženým výkonem – tato výhoda by měla být tím větší, čím více budeou výpočty náročné na objem data a nejen numerický výkon. Většina superpočítačů škáluje zejména výpočetní výkon (GPU), kdežto Fugaku by měl být více vyvážený mezi výkonem CPU/akcelerátorů (zde jsou to SIMD jednotky) a propojení.

Schéma architektury A64FX/RIKEN Fugaku (Zdroj: The Next Platform)

V příštím vydání žebříčku TOP 500 bude patrně jedničkou

Zatím nejsou ještě oficiální čísla o výkonu z žebříčku Top 500, která jsou reálně měřená v Linpacku a která budou trošku nižší, než součet teoretických výkonů všech uzlů. Špičkový/teoretický výkon stroje má však být 537 PFLOPS (původní plány či odhady předpokládaly konzervativně 400 PFLOPS) výkonu při vědeckých výpočtech s dvojitou přesností.

Pro výpočty FP32 se uvádí 1,07 EFLOPS (exaFLOPS), s redukovanou přesností pak 2,15 EFLOPS (FP16), respektive 4,3 exa operací za sekundu s 8bitovými hodnotami INT8. Fugaku tedy bude možné využívat i pro AI výpočty, byť to nebude tak energeticky efektivní jako při použití specializovaných ASIC akcelerátorů.

Kabinety superpočítače RIKEN Fugaku

Web Next Platfrom, který oblast HPC a serverů podrobně sleduje, uvádí, že ve vědeckých výpočtech (FP64) byl kupodivu prototyp A64FX efektivnější než alternativa v podobě akcelerátorů Nvidia Tesla V100, byť těsně. Údajně dosahoval 16,78 GFLOPS na jeden watt příkonu, zatímco server s V100 měl 15,77 GFLOPS. Srovnávací čistě CPU server s procesory Intel Xeon Gold měl v době tohoto srovnání výkon 5,84 GFLOPS/watt.

Toto ovšem asi překoná teď uvedená nová generace GPU Ampere (Nvidia A100), byť Fujitsu A64FX bude mít nadále určitou výhodu v tom, že nepotřebuje systémová CPU navíc, ale A100 pravděpodobně převezme vedení v žebříčku efektivity Green 500. Nicméně jak už bylo řečeno, smysl architektury Fujitsu je hlavně ve vyváženosti výpočetního výkonu s dalšími složkami důležitými pro škálování.

Aktualizováno (23. 5. 2020)

Prvenství japonského superpočítače už je teď oficiální. V červnu vydávaná aktualizace žebříčku TOP500 už uvádí Fugaku na první místě před předchozím držitelem rekordu superpočítačem Summit.

Oficiální výkon v tomto seznamu se uvádí 415,5 PFLOPS výkonu v operacích FP64. Jde o nižší číslo, než teoretických 537 PFLOS, jelikož toto je reálně změřená rychlost výpočtů v Linpacku. Výkon je 2,8× vyšší než u Summitu. Je to o to pozoruhodnější, že většina ostatních konkurujících systémů používá akcelerátory, zatímco procesory Fujitsu A64FX jsou mnohem blíže klasické architektuře, byť také zaměřené na masivní paralelismus.

V žebříčku zůstává za Summitem další americký počítač Sierra. Na čtvrtém a pátém místě jsou čínské superpočítače Sunway TaihuLight a Tchien-Che 2A (angl. Tianhe-2A).

První práce superpočítače je boj proti koronaviru

Do ostrého provozu se Fugaku dostane až v roce 2021, do té doby bude probíhat testování a validace. Mezitím mají být výpočetní kapacity využité k pomoci v analýze aktuální hrozby viru COVID-19 a hledání možných léků a vakcín na tento virus. Momentálně na něm běží pět projektů, které také analyzují ekonomické dopady pandemie nebo simulují šíření viru kapénkami pro lepší porozumění toho, jak se proti koronaviru bránit.

Chlazení uzlu s procesory A64FX v prototypu počítače Fugaku (Zdroj: The Next Platform)

Mimochodem, Fujitsu A64FX nebude zřejmě jen čip tohoto jediného superpočítače, případně dalších, které Fujitsu odvodí od stejné architektury pro další klienty (řada Fujitsu FX700). Procesory má využívat také Cray, který bude nabízet variantu klastrů CS500 „Storm“ založenou na těchto CPU. Cray má i stroje založené na ARM čipech Cavium/Marvell ThunderX2, ovšem proti těm bude A64FX se SIMD instrukcemi SVE mít mnohem vyšší výpočetní výkon (nemluvě o výhodách paměti HBM2).

Zdroje: The Next Platform (1, 2), AnandTech