Čína se v posledních letech tolik nechlubí svými projekty superpočítačů vzhledem k hrozbám amerických sankcí, jelikož u počítačů orientovaných na vědecké výpočty je vždy potenciální překryv s vojenskými simulacemi a výzkumem. Teď ale Čína oznámila exascale superpočítač LineShine, který je výjimka. Je založený na zcela lokální platformě, kterou tvoří procesory od firmy Huawei. LineShine se tak vymyká z trendu čím dál většího používání GPU.
Exascale výkon bez GPU
LineShine je superpočítač čínského národního superpočítačového centra v Šenčenu. Oficiálně je pro něj uváděn výkon 1,54 ExaFLOPS. Šlo by tedy o superpočítač patřící do tzv. exascale třídy. Nicméně 1,54 ExaFLOPS by měl být výkon změřený v AI zátěži (místo obvyklého benchmarku Linpack). Počítač ho dosáhl ve výpočtech BFloat16 během trénování AI modelu s 6,3 miliardami parametrů, přičemž špičkový výkon byl 2,16 ExaFLOPS.
Počítač je tvořen 20 480 dvouprocesorovými nody s celkem 40 960 procesory architektury Arm – a to dokonce Armv9, tedy nové generace verze instrukční sady. Ovšem samotná architektura procesoru, označeného LX2, je vlastní. Zřejmě by mělo jít o procesor Huawei nebo o vývoj, na kterém se Huawei podílelo s dotyčným výpočetním centrem.
Huawei LX2 má 304 jader rozložených do osmi klastrů, kde v každém je 38 jader. CPU je tvořeno ze dvou čipletů, kde každý obsahuje čtyři klastry. Počet jader je nezvyklý, ale možná, že část jader je vyhrazená jako rezerva pro zvýšení výtěžnosti, nebo jsou jádra v klastru uspořádána do šachovnicového „mesh“ rozložení, kde některá pole zabírá místo jádra blok propojovací logiky. Jádra mají L1 cache o kapacitě 32 KB pro data a 32 KB pro instrukce a celý klastr 38 jader sdílí blok L2 cache o kapacitě 28,5 MB.
Místo toho, aby výpočetní výkon dodávala GPU, má každé z jader SIMD jednotky pro instrukce SVE (a nejspíš i SVE2) a vedle toho také maticový akcelerátor nebo akcelerátory pro instrukce SME. Tyto jednotky umožňují akceleraci jak vědeckých výpočtů s přesností FP64 nebo FP32, tak i AI úloh s datovými typy BFloat16, FP16 a INT8. Bohužel nebylo zveřejněno, jak široké jsou jednotky SVE, zda třeba 512 bitů jako v případě AVX-512 na x86 procesorech, nebo širší (specifikace by teoreticky umožňovala šířku až 2048 bitů, zatím to ale nikdy nebylo využito).
Řešení používající jen SIMD a maticové jednotky integrované ve standardním CPU bude mít pravděpodobně nižší teoretický výkon ve „FLOPS“ a vyšší celkovou spotřebu kvůli potřebě velkého množství CPU a uzlů v klastru tvořícím superpočítač, ale výhodou je snazší programovatelnost. Často by tak mělo být možné dostat z hardwaru reálně vyšší procento výkonu relativně k jeho teoretické výpočetní kapacitě oproti architektuře používající akceleraci na GPU. Podobnou filosofii sledoval například superpočítač Fugaku v Japonsku, také využívající SIMD instrukce SVE (jichž byl pionýrem), nicméně jeho nástupce zdá se bude vybaven GPU.
Architektura procesoru Huawei LX2
Aby pro HPC úlohy procesor měl dostatečnou propustnost pamětí, používá víceúrovňovou operační paměť. Procesory mají integrováno 32 GB paměti typu HBM (generace není uvedena) s propustností 4 TB/s pro „horká data“ používaná výpočty a až 256 GB běžné operační paměti DDR5 na každé CPU. Řadiče pamětí DDR5 jsou připojené na úrovni celých čipletůa sdílené mezi jejich klastry, ale každý klastr má svůj vlastní řadič paměti HBM. Procesor má speciální jednotky SDMA řídící správu dat v paměti a jejich přesun do rychlejší paměti HBM. Propojení mezi uzly (servery) klastru pak zajišťuje propojovací logika LingQi (LQLink) s propustností 1,6 Tb/s na jeden uzel.
Jeden procesor má dodávat až 60,3 TFLOPS výkonu ve výpočtech FP64 nebo 240 TFLOPS výkonu v operacích BFloat16 či FP16, a dokonce 960 TOPS výkonu pro AI výpočty s datovým typem INT8. Při zmíněných 40 960 procesorech (které celkem dávají 2 451 840 jader) by teoretický výkon v FP64 měl být téměř 2,46 ExaFLOPS, nicméně pro výkony superpočítačů se nepoužívá teoretický výkon, ale tradičně měření v benchmarku Linpack, který zatím sdělen nebyl – dozvíme se ho ale, pokud Čína tento superpočítač „přihlásí“ do tradičního žebříčku TOP500. Pokud by byla efektivita v Linpacku nad 50 %, dostane se LineShine do Exascale klubu i oficiálně.
Zdroj: Tom’s Hardware
