Nejrychlejší superpočítač Frontier budou pohánět procesory AMD Epyc a Radeony

35
AMD Epyc vizualizace procesor Frontier 1600
AMD Epyc vizualizace procesor Frontier 1600

Dlouho to je asi, co se hardware od AMD naposled objevil v některém z předních superpočítačů. Opterony na bázi architektury Bulldozer se (možná trochu setrvačností) vyskytovaly v Titanu spuštěném v roce 2012, ovšem již s GPU Nvidia Tesla. Teď se ovšem zdá se chystá superpočítač z elitní skupiny – má dokonce dosáhnout výkonu třídy exascale – v kterém budou zároveň procesory i výpočetní GPU značky AMD.

 

AMD oběma nohama v jednom z prvních exascale superpočítačů

Bude to stroj, který je nazván Frontier a bude umístěn ve stejném pracovišti Oak Ridge National Laboratory amerického minsterstva energetiky, jako byl Titan. Frontier má být zprovozněn v roce 2021 s předpokládaným výkonem přes 1,5 EFLOPS (ExaFLOPS, tedy 1500 PFLOPS). Momentálně nejvýkonnější superpočítače Summit (právě ten má Frontier nahradit) a Sierra s procesory IBM Power9 a GPU Nvidia Tesla V100 mají teoretický výkon 200 a 125 PFLOPS. Pokud vše půjde dobře, bude tedy Frontier zase o generaci a skoro řád (asi 7×) dál.

Měl by být jedním ze dvou prvních „Exascale“ superpočítačů v USA vedle systému Aurora, přičemž Frontier je z nich zřejmě projektován na vyšší výkon a po uvedení by asi mohl být chvíli nejrychlejší na světě. Aurora je postavená na bázi procesorů Intel Xeon a GPU Intel Xᵉ, zatím ale k němu známe jen málo detailů.

Superpocitac Frontier Cray AMD
Superpočítač Frontier

Frontier postaví firma Cray, která je se superpočítači historicky spjatá asi jako málokterá jiná. Má být složen z více než 100 kabinetů typu Shasta a celkově bude vyvíjet příkon 30 MW (proti 13MW Summitu, pro Auroru číslo není). Spotřeba superpočítačů v posledních letech s každou generací stoupá a současně s tím také cena. Frontier má celkově přijít na 600 milionů dolarů, z toho 100 milionů je zdá se za vývoj, zbytek za samotnou dodávku a podporu.

Cray logo

Next-gen Epyc a Radeon Instinct

Jednotlivé uzly klastru budou běžet na procesorech Epyc s „budoucí architekturou Zen“, takže by mělo jít o 7nm CPU pravděpodobně už třetí generace („Milan“), která by mohla mít architekturu Zen 3. AMD dost možná pro Frontier vytvoří nějaké speciální modely, má jít o „custom“ verze. Také mají být optimalizované pro AI výpočty, ale nevíme, zda to znamená nějaká speciální instrukční rozšíření, nebo jen něco prozaičtějšího.

amd cray superpocitac frontier slajdy 04
Jako CPU bude použitý AMD Epyc, možná již s jádry Zen 3

Na každý procesor mají být v systému zapojené čtyři výpočetní GPU, také od AMD. Má jít o karty Radeon Instinct, ovšem asi opět ne ty současné, vzhledem k uvedení počítače do provozu za dva roky. Víme o nich ale, že budou používat paměti typu HBM pro vysokou propustnost, s výpočetními jednotkami „upravenými pro HPC úlohy“ (opět těžko říct, co to přesně znamená, ale pro vědecké výpočty by asi měla být zahrnut vysoký výkon v FP64).

Pro výkon ve strojovém učení, které se také dostalo mezi úlohy počítané na superpočítačích, mají tato GPU mít širokou podporu výpočtů s různou přesností. Jako softwarová vrstva se pro výpočty bude používat open source stack AMD ROCm. Na vývoji této platformy se má ovšem podílet i Cray.

amd cray superpocitac frontier slajdy 05
Jako výpočetní akcelerátory dodá AMD Radeony Instinct

Infinity Fabric mezi CPU a GPU

Podle slajdů bude v uzlech použita koherentní propojovací logika, patrně Infinity Fabric, karty tedy nebudou jen běžně na PCI Expressu, ale budou mezi sebou komunikovat při plné koherenci (a sdílení) pamětí/cache, a stejné propojení budou mít i s hostitelským procesorem. To je pokrok proti současným Radeonům Instinct s Infinity Fabric (Vega 20), u nich je koherentní propojení jen mezi jednotlivými GPU.

amd cray superpocitac frontier slajdy 06
GPU budou k procesorům připojena v poměru čtyři grafiky na jedno CPU, pomocí koherentní logiky Infinity Fabric

Toto propojení bude ovšem jen na úrovni jedné instance systému. Klastrové propojení uzlů pak zajistí technologie Cray, a to nová propojovací logika Slingshot. Ta má mít přenosovou kapacitu 200 Gb/s na jeden port, přičemž jeden uzel snad může mít více portů (možná i jeden pro každé GPU).

Frontier bude používat i akademická sféra

Superpočítač Frontier má být používán pro širokou škálu účelů, takže kromě vědeckých výpočtů, modelování a simulací má podporu právě i pro strojové učení (AI) a analýzu dat. Tento počítač bude otevřen pro použití v akademických projektech a výzkumech, což znamená širší spektrum využití, než co by asi používalo samotné ministerstvo energetiky.

Pohled n desku uzlu ze superpočítače Summit. Použité jsou servery IBM AC922

Předchozí generace byla IBM + Nvidia, příští bude čistý Intel a AMD

Jak už bylo řečeno, v druhém Exascale počítači Aurora budou použita CPU a GPU Intelu (což je zajímavé, protože původně mělo jít o Xeony Phi a Intel oznámil jejich zrušení a „nahrazení jiným řešením“ ještě předtím, než odhalil svůj vstup do sféry GPU). Spolu s Frontierem od AMD tedy obě zakázky této generace vyhrály firmy, které nabízejí jak CPU, tak výpočetní akcelerátor, zatímco v předchozí generaci bylo řešení ode dvou firem: IBM a Nvidie. Zdá se, že „integrace“ se zde stala výhodou, i když nevíme jistě, zda rozhodující. Roli pochopitelně mohla hrát i cena či další faktory. Podle některých informací má jinak projekt CORAL-2, v jehož rámci se oba systémy budují, příkaz zadat stroje dvěma různým dodavatelům, což také mohlo hrát roli v tom, že jeden superpočítač je nakonec od Intelu a druhý od AMD.

Galerie: Exascale superpočítač Frontier od firmy Cray s CPU a GPU AMD


Nejrychlejší superpočítač Frontier budou pohánět procesory AMD Epyc a Radeony
Ohodnoťte tento článek!
4.8 (95.29%) 17 hlas/ů

35 KOMENTÁŘE

    • …to bez debát, akurát silne pochybujem ako váhu má reklama pri stavbe superpočítača.

      OK, beriem že u serverov tam tá váha reklamy/marketingu môže byť ale zase potom cveng Intel-u je zatiaľ prisilný.

      • Reklamou myslim to, ze AMD ziskala tuhle zakazku. Tohle je nejlepsi “prirozena” reklama, jakou muze mit. Je to dobre pro budovani “dobreho jmena”, coz je myslim neco co AMD po mnoho let chybelo a dokazu si predstavit, ze to muze byt pak jazycek na vahach u nekterych rozhodnuti.
        Jinak technicky vzato, to asi nebude zadna sranda, takze takova velka reference se uz opravdu pocita. a muzou s tim pak dal operovat u dalsich vyberovek.

        • Než to bude podávat výsledky při znalosti TCO, které by se mohly stát referencí bude tady další generace (jejich i konkurence), která bude pro budoucí HPC řešení rozdávat karty opět nanovo. Každopádně zvládnutí takového zadání je určitě velkým plusem. Exaktní opakovatelnost řešení asi nebude záležitostí TOP10 SC.

          • Ze striktne technickeho hlediska ano. Ale v ramci nabidek a vyberovych (predvyberovych) rizeni, se tohle da pro uricte situace urcite pouzivat jako reference taky. Ono ne kazdy, kdo je ve vyberove komisi nebo soucasti prezentace, je subject matter expert 🙂

            • jenze panacku, konkurenti ti muzou tvoje reference napadnout, vis? 😀 byznysmane 😀 a to nemluvime o posudkovych znalcich.

            • Fakt Hnizdile? Kokurenti ti budou napadat reference, kde je projekt ve fazi develomentu :)))
              ..a co budou delat..pujdou s tim k soudu nebo to daji do vecernicku, ze jsi vyhral vyberovku?
              Koukam, ze tradicne nechapes vubec smysl prispevku. Pitomec..

            • Jo presne proto se jako reference nedokoncene projekty nepouzivaji 😀 a jeste si to tam sam napises, ty jeden velkej internetovej experte 😀

            • Hnizdile, ty jeden pitomce..samozrejme, ze se takove projekty pouzivaji jako reference. Nektere projekty trvaji klidne 5 a vice let..to si jako myslis, ze po dobu to nikdo jako nereferenci neuvede? Krome toho projekt, ktery je stale zivy, tak muze byt i nasazeny. Jednoduse jde dalsi jeho faze, dodelavaji se dalsi casti.
              Pokud nekdo explicitne vyzaduje uvedeni “dokoncenych” projektu a specifikuje u toho kriteria, podle kterych se to hodnoti, tak asi ano, pak se neuvede. V opacnem pripade je uplne bezne, ze se i “zive” projekty uvadeji jako reference. Zalezi to vzdy na kontextu.

            • tak, zacni do toho tahat jednotlive faze projektu a kontext, abys nebyl za takoveho klauna 😀 ale ani to ti nepomuze. reference vzdy dava treti stranou dorucene informace o kvalite prace, terminu dokonceni nebo jeho nedodrzeni, dodrzeni cenovych kalkulaci atd. Nic z toho nema smysl, dokud projekt neni dokoncen. Ale to trombozni amater bez odpovednosti a znalosti nemuze pochopit.

            • Hnizdile, ty jsi idiot, ktery micha X ruznych veci dohromady.
              “referenci nekolik uspesne dokoncenych zakazek”
              .. referenci je klidne i jeden projekt
              “s trvajicimi obchodnimi vztahy (napr. servisni smlouva)”
              ..naprosty nesmysl a vymysl blba, ktery nevi o cem je rec
              Dalsi vyplody nemocne hlavy o tom, ze ti nekdo “napada” reference je k smichu
              “reference vzdy dava treti stranou dorucene informace o kvalite prace,”
              ..jasne, takze kdyz das 50 referenci, tak se ti k tomu bude vyjadrovat 50 ruznych firem, kde ma nasazeny projekt…:)).. Co se dela je, ze se firma bere na referencni navstevu nekde, kde odobny projekt funguje. Ale to ty troubo samozrejme nevis..
              “nebo jeho nedodrzeni, dodrzeni cenovych kalkulaci atd”
              ..dalsi zhovadilost. V soukrome sektoru ti nikdo normalne nerekne, kolik konkurencni (referencni) projekt stal. Jen dalsi dukaz toho, ze netusis o cem vubec mluvis…
              Zbytek jsou tvoje tradicni plky, kdy se snazis obhajit nejake sovje predchozi tvrzeni za kazdou cenu. Jinymi slovy pitomec, ktery nevi o cem mluvi, nechape smysl tech prispevku, ale vi, ze AMD je spatne…

            • ..a jinak je jasny, ze citujes z nejake brozurky nebo wiki, podle toho to taky vypada :))

        • v prumyslu je referenci nekolik uspesne dokoncenych zakazek s trvajicimi obchodnimi vztahy (napr. servisni smlouva). ziskani zakazky je uspech pro firmu, v zadnem pripade doporuceni. ted budou vsichni sedet na zadku a cekat jak to dopadne.

          • “v prumyslu je referenci nekolik uspesne dokoncenych zakazek s trvajicimi obchodnimi vztahy (napr. servisni smlouva)”
            .. a nato si hnizdile prisel jak? 🙂 To jsi nekde vycetl v chytre prirucce, nebo ti to ‘poradil’ kamarad 🙂

            V bussinesu je referenci cokoliv (ve smyslu dodaneho reseni nebo i participace na projektu), na co se muzes odkazat a neni to vylozene “lez” . Pak uz zalezi na tom, na jakem stupni vyberoveho rizeni nebo prezentace se nachazis a podle toho se reference treba dodatecne upravuji.

            Koukam, ze ty jsi tech vyberovek teda prosel….by jsi se jako sales a presales teda neuzivil :))

          • ja v tom prumyslu pracuju a rozhodne nedelam “sales” 😀 referenci pro vyberka jsou dokoncene zakazky, kde si zajemce muze u jmenovanych osob overit udavana data.
            tvrdit “cokoliv” muzes tak ty v nejakem zapadlem shopu pro BFU. to mne pobavilo, prej cokoliv co neni vylozene lez, to si muzes proti Siemensu zkusit, ten te pekne rozebere.

            ale tvuj nazor na to jak funguje velkej byznys je pomerne zapadajici do celkoveho obrazu.

            • Existuje X druhu vyberovych rizeni ve smyslu toho, co tam nabizis a X druhu pre-sales/slaes prezentaci. Proto ti muzu s klidem rict, ze to co jsi napsal prvne se muze tykat nejakeho specifickeho scenare a netyka se to jinych scenaru. Tudiz tvoje tvrzeni je silne specificke a tudiz pro jine pripady uplne mimo misu.
              Hadat se s pitomcem jen proto, ktery nevi co pise, protoze ze je tam napsano AMD, o tom ale nebudu..za to mi ten cas nestoji…

            • tombomino 9.5.2019 at 10:58 “Jinak technicky vzato, to asi nebude zadna sranda, takze takova velka reference se uz opravdu pocita. a muzou s tim pak dal operovat u dalsich vyberovek.”

              mluvim stejne obecne, jako ty, nemuzu za to ze pises tak roztomile blaboly 😀

      • Nvidia uz nejspis nema dalsi kapacity. Co podepsali ten obri kontrakt s Toyotou, budou asi radi, kdyz budou mit kde vyrabet.

        Navic jestli je pravda ten pocet CPU a GPU v tom pocitaci, prodava AMD ten hardware dirt cheap. Zrejme vyhrali cenou a ne kvalitou a parametry. A ta spotreba je nechutna. Olsanovo snaha v clanku predstirat, ze to je normalni, fakt nezabere.

        • Je tam AMD
          – musi to byt “dirty cheap”
          – spotreba je nechutna
          – NV uz nemala volne kapacity
          – Intel uz nemel volne kapacity
          – kvalitou nevyhrali
          – parametry nevyhrali
          – autor clanku je AMD fanboy

          Made by Maudit :)))

            • Ja vim Maudite, nemocne hlave se jevi spousta veci jako fakta..
              🙂

            • Nebo je to naopak 😁

              Ze Nvidia uzavrela obri kontrakt s Toyotou je fakt.
              Ze je nedostatek Intel CPU je fakt.
              Ze je spotreba toho superpocitace 2,5x vetsi nez u predchudce je fakt.
              Ze se AMD nedari prosadit v servetech ani po takove dobe od uvedeni prvnich Ryzenu je fakt.
              Ze ma AMD 2x horsi energetickou efektivitu u GPU je fakt.
              Ze ma AMD horsi compute vykon a mnohonasobne horsi AI vykon je fakt.

              😂

            • Ty troubeline, co ma nedostatek CPU Intelu co do cineni s pocitacem, ktery ma byt hotovy v roce 2022 a kde AMD jeste nema ani hotove chipy?
              Zbytek je stejne placani, kde se snazis najit nebo vyrobit jakykoliv argument, aniz by jsi mel vubec nejake znalosti o tom, co byli treba zadavaci kriteria toho projektu, atd..

        • Fakt myslíš, že auto průmysl může vyčerpat kapacitu mainstream leading-edge procesu TSMC (které teď mimochodem má výpadky v poptávce)? A že by Nvidia neobětovala pár herních GPU s menší marží, aby udala nějaký highend Tesly? 🙂

          Jestli nevěříš té spotřebě, tak si najdi čísla. Ono jak se zpomalilo škálování výkonu při stejné spotřebě/ploše čipu, tak ty poslední generace superpočítačů to ženou nahoru větším počtem instancí, větší spotřebou a větší cenou (ono, ne nepodobně se vyvíjejí jak serverová CPU, tak trošku i GPU). Taky je tam ten cíl co nejdřív prorazit tu hranici 1000 PFLOPS, což tomu navádí. Číňani možná použijou ještě víc elektřiny.

          Když to googlím, tak Jaguar (předchůdce Titanu) měl při měření pro TOP500 5 MW, Titan 8,2 MW, Summit (současná generace, Nvidia) 13 MW, Sunway TaihuLight 16 MW. Ono je to taky vidět na růstu té ceny, z cca 100 milionů na 300 a teď 600 (ale to beru z hlavy, už nevím, kde jsem to viděl).

            • No smajlíkuj si, ale fakt si myslíš, že kdyby Nvidia dokázala nabídnout těch 1500 PFLOPS jen s 20 MW, tj. v praxi asi s dvoutřetinovým počtem kabinetů, že by to nevyhrála?
              Skočili by jí po tom, i kdyby měla za jeden kabinet o 50% vyšší cenu (kde cena jednoho GPU by byla zvýšená ještě o dost víc), protože ta energetická náročnost není žádná sranda, to potřebuje infrastrukturu.

              Jako jediný důvod, proč by ostrouhala, kdyby byl její proposal o tolik lepší, je, že s ORNL/DoE předtím tak drsně vydrbala, že má stopku (něco jako se někdy spekuluje, že je v konzolích u Sony/MS). Druhá věc je, jestli třeba nebyl preferovaný Open Source programovací stack, ale když používají Cuda teď, tak si myslím, že by byla akceptovaná i o jednu generaci dál.

              Jo, vlastně ještě třetí důvod, a to nejistota/nevyhovující roadmapa IBM Power coby CPU partnera. Tam nevím, CPU nejsou asi zas tak kritický, takže i kdyby tam třeba šlo jen tou dobou rok staré Power9+ a ne novinka na 10/7nm, tak mi to nepřijde jako showstopper, ty akcelerátory jsou mnohem víc důležité.

            • “že má stopku (něco jako se někdy spekuluje, že je v konzolích u Sony/MS).”
              U toho MS je to potvrzené, ne? Co si matně pamatuju, tak jsem někde četl, že MS byl u prvního Xboxu s nVidií domluvený, že po x letech udělá die shrink, který bude levnější a bude mít nižší spotřebu. No a nVidia s tím pak prý dělala problémy, že snad nechtěla jít s cenou dolů jak byli domluveni ve smlouvě nebo ten die shrink vůbec udělat nechtěli…

              Slyšel jsem to z více zdrojů, tak jsem to bral jako fakt a ne spekulace.

            • Jo, to se říkalo dost široce. U Sony PS3 nevím, jak moc podložené to je. A samozřejmě, obě ty konzole už jsou 10-15 let v minulosti. Takže je otázka, zda to třeba ještě pořád ovlivňuje vyjednávání o teď chystaných typech.

            • Taky si říkám, že za těch 10-15 let se už pomalu musel managment trochu obměnit a ten problém musel být z větší části zapomenut.

  1. Jedna domněnka:
    Ta customizace Epyců bude pravděpodobně spočívat ve změně toho centrálního I/O čipu, který bude mít větší propustnost, aby dokázal obsloužit ty čtyři grafické čipy, případně může mít i lepší paměťovou propustnost. Naopak bych nečekal, že ty osmijádrové čiplety budou jiné, než ty letošní, protože u takové zakázky nelze riskovat nějakou neodladěnost a zprovoznění v roce 2021 asi nebude znamenat, že to v tom roce teprve začnou skládat a testovat.

    • Letošní Epyc to IMHO nebude, přinejmenším by mohli použít nějaký refresh. Ale IMHO to bude Zen3 – jsou zmíněné nové instrukce.
      Do superpočítače můžou jít nová CPU hodně rychle – třeba do Summitu se Power9 dodával už před oficiálním uvedením těch CPU/serverů IBM na konci roku 2017. Takže rok 2021 (což může být druhá polovina/konec) není imho na Epyc 3. generace nijak brzo.