AMD uvádí první 7nm Radeony: poprvé s PCIe 4.0, 1TB/s pamětí a Infinity Fabric

39

AMD včera odhalilo své první 7nm procesory Epyc, které budou mít 64 jader a složitou stavbu se 14nm I/O čipem, a zároveň předestřela zlepšení v architektuře CPU jader Zen 2. Spolu s tím se ale také dostalo na GPU. Jako doprovod pro 7nm (respektive 7nm+14nm) procesory Epyc totiž AMD oznámilo výpočetní grafické karty Radeon Instinct MI50 a MI60. Jsou založené na čipech Vega 20 a jde o vůbec první 7nm GPU na světě, která také ještě do konce roku přijdou na trh. Nyní k nim již máme i parametry, takže můžeme říct, jak moc 7nm proces pomůže na 14 nm zrovna neexcelující architektuře Vega.

Vega 20, jak se toto GPU zřejmě jmenuje interně, už byla AMD prezentována vícekrát, přičemž vždy bylo zdůrazněno, že nebude určená na hry, ale čistě pro datacentra a podobná využití. A na tom se nic nemění, AMD na čipu založilo dvě karty, nyní odhalené: Radeon Instinct MI60 a AMI50. Jak si možná vzpomenete, ono „mičíslo“ v názvu odkazuje k výkonu v TFLOPS v operacích strojového učení u předchozích karet MI25 (Vega 10) znamenalo zhruba 25 TFLOPS ve výpočetech FP16. U této 7nm generace to bude trošku jinak, zdá se, že jde o výkon v „TOPS“ v operacích INT8, tedy s celočíselnými hodnotami – proto je více než dvojnásobný.

Schéma GPU Vega 20
Schéma GPU Vega 20

Radeon Instinct MI60

Radeon Intinct MI60 má v sobě plnou verzi čipu Vega 20 a lze o tedy brát za demonstraci toho, co tato architektura dokáže. GPU má stále 4096 stream procesorů (64 CU), ale ty nyní běží na frekvenci až 1800 MHz. Pro srovnání, 14nm Vega 10 v kartách Instinct měla maximální frekvenci 1500 MHz. Čip Vega 20 má podle AMD 13,23 miliardy tranzistorů, přičemž GPU má plochu 331 mm².

Je to při zachování stejného 300W TDP karty, ovšem GPU Vega 20 má 32 GB paměti HBM2, která má 4096bitovou sběrnici proti 2048bitové u Vegy 10. Paměti jsou navíc na taktu 2,0 GHz efektivně, takže GPU má k dispozici propustnost 1 TB/s. Mělo by to být poprvé, co bylo této hodnoty u grafiky dosaženo. Paměť a GPU mají plně podporovat ochranu dat (end-to-end ECC) a GPU má jisté RAS funkce pro vyšší spolehlivost a stabilitu, a opět také podporu pro hardwarovou virtualizaci.

Radeon Instinct MI60 (vizualizace)
Radeon Instinct MI60 (vizualizace)

Vysoký výkon v FP64 a rozšíření pro AI výpočty

GPU Vega 20 má jako hlavní přínos schopnost práce s velkou škálou datových typů. Kromě FP16 a INT8 pro strojové učení dokáže zpracovávat i 4bitové celočíselné hodnoty (INT4). A na druhé straně spektra pak nativně podporuje rychlé výpočty s dvojitou přesností (FP64) pro tradiční HPC výpočty jako jsou fyzikální simulace. Výkon v základních operacích FP32 je 14,7 TFLOPS, pro FP64 pak 7,4 TFLOPS. Pro FP16 pak je uvedeno 29,5 TFLOPS a pro hodnoty INT8 58,9 TFLOPS (správně by asi mělo být použito „TOPS“). S 4bitovými daty pak až 118 TOPS.

Radeon Instinct MI50

Dříve zmíněný Radeon Instinct MI50 je pak mírně ořezaná levnější verze  postavená na stejném základu. GPU má aktivních 3840 stream procesorů, které běží maximálně na 1746 MHz. TDP je ovšem také ponecháno na 300 W. Tato karta slibuje výkon 13,4 TFLOPS v FP32, 6,7 TFLOPS v FP64, 26,8 TFLOPS v FP16 a 26,8 TFLOPS v FP16, respektive 53,6 TOPS v INT8 (a v INT4 to opět bude dvojnásobek).

amd-radeon-instinct-mi60-mi50-rozlozenVýkon levnějšího modelu tedy není o tolik nižší, kolik by naznačovalo označení MI50, ovšem zároveň má karta osazeno jen 16 GB paměti HBM2. Propustnost 1 TB/s je sice zachována, ale GPU bude méně vhodné k řešení problémů s velkým souborem pracovních dat (Vegy sice dokáží použít stránkování do operační paměti, ale větší fyzická RAM je pro výkon lepší).

PCI Express 4.0 a koherentní propojení Infinity Fabric mezi GPU

Karty Instinct MI60/MI50 mají díky čipu Vega 20 ještě několik dalších novinek. Jde zároveň o první grafiky, které používají PCI Express 4.0 (×16) pro připojení do systému, se současným PCIe 3.0 jsou ale samozřejmě kompatibilní (PCIe 4.0 bude možné použít se 7nm Epycem).

GPU Vega 20 podporuje jako první PCI Express 4.0 a také kohrerentní úpropojení pomocí Infinity Fabric
GPU Vega 20 podporuje jako první PCI Express 4.0 a také koherentní propojení pomocí Infinity Fabric

To ale není jediná konektivita. Podobně jako v případě NVLinku u Nvidie, mají GPU vyvedenou propojovací logiku pro koherentní propojení. Každé GPU má dvě linky používající propojení Infinity Fabric (odvozené od koherentní logiky v procesorech Ryzen/Epyc), přičemž propustnost jedné je údajně 100 GB/s. Není ale jasné, zda nejde o hodnotu sčítající oba směry komunikace, pak by možná reálně mohlo jít o 50 GB/s duplexně.

Infintiy Fabric podporuje propojení dvou nebo čtyř karet můstkem
Infinity Fabric podporuje propojení dvou nebo čtyř karet můstkem

Na demonstraci AMD ukazovalo propojení karet pomocí hardwarových můstků (podobně jako u SLI), které budou podporovat buď pár, nebo čtveřici karet (zřejmě s propojením typu prstenec). V serveru by mohlo být těchto GPU až osm, pak by se ale s IF použilo rozdělení na dvě oddělené čtveřice.

Vlevo instalovaný můstek, vpravo odpojený (Zdroj: Alex on Tech)
Vlevo instalovaný můstek, vpravo odpojený (Zdroj: Alex on Tech)

V prodeji ještě letos

Provedení obou Instinctů je ve formě klasické 26,7 cm dlouhé karty do slotu PCI Express ×16, přičemž chladič je dvouslotový (a pasivní počítající s průvanem v serverovém šasi). Napájení obstarává jeden šestipin a jeden osmipin. Na trh mají karty přijít ještě v tomto kvartále (Q4 2018), tedy alespoň v případě Radeonu Instinct MI60. Model MI50 bude dostupný o něco později, až v prvním kvartálu roku 2019.

AMD uvádí první 7nm Radeony: poprvé s PCIe 4.0, 1TB/s pamětí a Infinity Fabric

Ohodnoťte tento článek!
4.5 (89.47%) 19 hlas/ů

39 KOMENTÁŘE

  1. 4096bitová sběrnice, nativní podpora FP64, 1800MHz frekvence, alternativa k NVLinku, dostupnost v nejbližší době: já bych řekl, že je tu konečně dobrá konkurence pro výpočetní sektor, protože jsou odstraněny hlavní nedostatky, kvůli kterým výpočetní 14nm Vegy nejsou tak zajímavé.

    Teď ještě aby na 7nm zvládli udělat dobré herní karty s GDDR6 a nižšími výrobními náklady, než u 14nm Vegy s předraženou HBM2 a velkým jádrem.
    Nvidia si na sebe uplatla bič v podobě ještě vyšších výrobních nákladů u Turingu, takže kdyby se AMD podařilo na 7nm udělat něco dost levného s výkonem třeba po úroveň 1080Ti/2080, tak by to byla naprostá bomba.

    • Problem je v tom že AMD high end neplanuje, nova RX590 je len pretaktovana RX480, a nova herna GPU je len upravena VEGA na lepšich taktoch a s menšou pamaťou. NAVI vraj vyzera dobre ale ta kedy pride na trh… Čo viem tak AMD na monopol Nvidii neplanuje utočiť.
      Vyzera to blbo ale najblišia konkurencia pre RTX na 12nm bude RTX na 7nm 🙁

      • Tak RX590 má být tuším na 12nm ne? Takže tam je jasné, že nebude zajímavé.
        Ale jestli teď půjde do prodeje 7nm výpočetní grafika, tak by snad někdy příští rok mohla být herní (asi ta Navi). A byť jak říkáš – byly informace, že to bude jen mainstream/lowend, ale oficiální informace nejsou ztím žádné. A výkon na úrovni 1080Ti = Titanu X Pascal z r. 2016 by nebyl v r. 2019 zrovna útok na absolutní hi-end, takže bych takovou možnost nezatracoval.
        Např. na tu konstrukci Epiců taky nebyly snad žádné leaky, takže vše se neví dopředu před oficiálním infem.

        Ale ano, bohužel je najpravděpodobnější, že další hi-end řada bude až Nvidia na 7nm, která přijde kdoví kdy (chtěl bych věřit, že cca za rok, ale bez té konkurence bych se divil).

        • A to víš odkud? AMD snad min. rok již nevydalo nějakou roadmapu a tudíž nikdo vlastně neví co bude. S RX 590 se vůbec nepočítalo a přesto to vypadá, že tady bude ještě tento měsíc, bez nějakého dlouhodobého plánu.
          Osobně prostě nevěřím tomu, že by AMD mrhali prostředky jen na profi karty. A když už budou mít Vegu na 7nm a výroba bude bez problémů, byli by blázni nevydat ji i jako herní kartu.

          • V této koncepci se 4096bit sběrnicí, apod, to vážně pochybuji.
            Ale ono „Navi“ (nebo jiná herní grafika co přijde) může v praxi být taková „herní 7nm Vega“, ať už se to bude jmenovat jakkoli = nějak zjednodušená a zlevněná verze této Vegy.

          • jenže – proč by to dělali? Vega20 bude maximálně konkurence GTX1080Ti a prodávat ji tak budou muset za podobně nízkou cenu, což jim úplně zbytečně podsekne marže. Místo toho ji můžou prodat jako Instinct MI50/60 model za o dost vyšší cenu, reflektující cenu výroby 7nm, HBM a celé té package.

            Jestli se v AMD poučili, tak předpokládám, že podobnou chybu jako s Vega10 už neudělají.

            • navi = odebrat z vegy 10/20 všechny zbytečné a neherní featury ( fp64, hbcc, xgmi, hbm, ecc, atd.) + nutná optimalizace spotřeby/taktovací frekvence.

              ideální dostat se přes limit 4 SE a tím zvednout celkový výkon nebo konečně zprovoznit ngg fast path a primitive shader

    • Takhle slaboucky vykon v AI vypoctech? Nemela ta architektura byt zamerena na AI? Kde jsou dedikovana tensor jadra?

      Ta karta ma v AI jen ctvrtinu vykonu RTX 2080 Ti – 25 TFLOPS proti 107.6 TFLOPS v FP16 (jestli se to vubec da srovnavat). A to pritom Turing jeste muze provadet normalni CUDA vypocty, zatimco ta Vega uz nema cim. I obycejna RTX 2070, consumer karta za $500, ma dvakrat vetsi vykon v AI nez ta Vega 😀 To snad AMD (a autor) ani nemuze myslet vazne, ze ma „vysoky vykon v AI“. LOL

      A kde je schopnost koherentne propojit 16 GPU vcetne jejich pametoveho prostoru a navic s vysokou propustnosti, jako to umi NVLink? Nemel by „Infinity Fabric“ (infinity – nekonecno) umet propojit vic, nez 4 GPU? 😀 Mozna by to meli prejmenovat na „Finite Fabric“ 😉

      Tohle je jeste vetsi fail nez puvodni Vega.

      • Nehádzál by som „flintu do žita“ s touto výpočtovou Vegou….čas a potenciálny zákazníci ukážu, či Deep Learnig pôjde cestou INT8/INT4 alebo je to schodné iba iba cez tradičné FP32/Fp16 (angličtina nieje môj silný obor, ale nejaký článok o tom je tu https://nervanasystems.github.io/distiller/quantization/ ). A navyše to pre istú časť trhu má zaujímavý výkon v FP64… má vyšší výkon ako má Tesla V100 PCI-e… a to nehľadiac na plochu čipu (aj keď vďaka 7nm).

      • Je to jednoduché – tam kde se opravdu využijí Tensor Core, tak tato karta používaná nebude. Jenže TC rozhodně nevyužívá nějaká drtivá většina zákazníků, co kupují výpočetní karty, je to použitelné jen na určité typy výpočtů.
        Na zmínil Zero – pro nějakou část trhu je naopak FP64 důležitější, takže nativní podpora FP64 této kartě otevírá dosud zavřený kus trhu.

        Nevím přesně jaké jsou podíly poptávky po jednotlivých typech výpočetního výkonu, ale každopádně absence Tensor Cores s akcelereací INT8/INT4 ještě neznamená, že by ta karta byla nanic.

            • Ja to chapu. Ake to je jako udavat vykon high-end grafiky sparovane s Celeronem. Jinymi slovy ten cip zvladne vic, kdyz neni limitovany pomalejsim PCIe rohranim.

            • Ako presne si miestny programator predstavuje „limitaciu cipu pomalsim PCIE rozhranim“? Ak pocitam vsetko na strane GPU, s datami v jej vlastnej pamati, mozem ju mat kludne zavesenu na dvoch dratoch cez rozhranie RS232 a spocita to naprosto rovnako rychlo. 😉 Rychle rozhranie potrebujes len ak potrebujes sustavne presuvat velky objem dat medzi CPU a GPU pamatami.

            • CNN, hadam ze nevis, ze ma V100 na IBM platforme pres NVLink pristup primo k CPU a naopak ..

              To samozrejme znamena mensi latence, ucinnejsi scheduling, atd. nez kdyz jdes pres PCIe. Rozdil neni velky, ale je tam. Daleko vetsi rozdil by asi byl ve skalovani vice GPU, ale k tomu jsem data nikde nenasel. Tusim ze snad na AnandTechu o tom byl v dobe vydani V100 pekny clanek.

            • …rozdiel medzi Tesla V100 PCI-E a Tesla V100 NvLink je v max. TDP (250W vs. 300W), tým pádom NvLink verzia dosiahne výšších frekvencii (tam je skrytý rozdiel výkonu).

              Podľa mňa je len otázkou času (zrejme uvedenie na trh Epyc 2), a výjde verzia MI60 aj do SP3 socketu (ten socket je taký veľmi, že sa tam vôjde Vega20 s HBM2 pamäťami s prehľadom 🙂 ), kde to pôjde cez Infinity Fabric zbernicu

            • Myslím že to nemá moc smysl. Ve většině serverů se totiž používá těch karet co nejvíc a kdyby se to mělo dávat do socketů, tak tím hodně klesne míra integrace, protože desky jsou většinou jen 2S a 4S by už bylo hodně drsné. Ty karty jsou prostorově poměrně efektivní řešení. Pokud by se dělala „socket“ verze tak spíš něco jako mezannine provedení u Nvidie.

            • Co se tyce 250W a 300W, tak tam jsi mozna zamenil pricinu s nasledkem. Kvuli limitaci rozhrani co se tyce bandwidth/features nemuselo mit smysl jit na vyssi takty – zadny dalsi zisk. Protoze ale rychlejsi rozhrani kartu nelimituje, je mozne povolit power limit a jit dal i vykonem.

              „Critically, NVLInk 2 also introduces cache coherency allowing the GPUs to be cache coherent with CPUs. Expect to see this play a big part in the eventual Power 9 + Volta systems.“
              https://www.anandtech.com/show/11367/nvidia-volta-unveiled-gv100-gpu-and-tesla-v100-accelerator-announced

  2. Jestliže dosavadní MI25 byla v cenách okolo 5000US$, tak ty nové modely na tom asi nebudou cenově výrazně lépe. Takže na cenově dostupné SR-IOV řešení můžeme zatím s klidem zapomenout.

  3. Plánované Hi-end Free Sync monitory s vyšším rozlišením a frekvencemi budou vyžadovat high end grafické karty. Provozovat současnou Vegu nebo dvě RX590 v Crossfire se mi stále nezdá jako dobré řešení a věřím, že AMD překvapí. Minimálně 7nm mainstreamové NAVI bude zajímavý krok vpřed a tam už bych třeba o Crossfire i uvažoval… ale snad se přeci jenom dočkáme i něčeho lepšího.

    • Mainstream bude co, něco s výkonem řekněme RTX 2070? Proč na tom dělat crossfire? Když je tu 2080Ti, která bude mít v průměrnu podobný výkon jako lépe optimalizované CF tituly a výrazně vyšší výkon tam kde škálování není aspoň 60% nebo zcela postrádá přínos. MultiGPU stavím až tehdy když mi nestačí výkon jedné – nejvýkonnější karty.

    • To je něco jiného, prostě běžné CrossFire/SLI. Tam je ve hře o dost nižší přenosová kapacita, a jen nějaká synchronizace a posílání kusů snímků.

      Koherentní propojovací logika (NVLink a tohle) je úplně jiný kafe než primitivní věc typu SLI a CF, tohle je synchronizace obsahu pamětí a cache dvou procesorů. Jako mají mezi sebou CPU ve vícesocketových serverech. To znamená zamezení problému, že procesor A změní nějaká data a ta změna je u něj v jeho cache a jeho paměti. Ale co když na stejnou adresu chce zapsat nebo ji přečíst procesor B? Je nutné, aby si navzájem daly vědět, že hodnotou byla změněná, ab každý nepočítal s nějakou jinou. je to dost náročná věc, pokud to nemá zabíjet výkon.

      • Je uplne jedno k comu sa to pouziva, proste mostik naviac znamena bandwidth naviac a jeho dedikacia k niecomu eliminaciu potencialneho kolisania rychlosti, ci latencii. Ale to by Ddebilek musel mat aspon zakladny Ahnung ako pocitace a hardware naozaj funguje. 😉

        • V době, kdy se tohle řešilo, konektivita PCIe iirc stačila bohatě na řešení CF a tehdy ten můstek u Nvidie taky zas tak velkou přenosovou kapacitu neměl. A to řešení AMD fungovalo přes DMA do paměti GPU, možná to mělo i svoje přínosy proti dedikovanému rozrhaní/můstku (proč by to AMD jinak dělalo, že jo). Ale o tom, jestli můstkové rozhraní u Nvidie proti tomu bylo horší, zase těžko mluvit, když se o něm zas tak moc ani nevědělo.
          Každopádně myslím, že tehdy na tom moc nesešlo. Ona konektivita PCIe je těma GPU využívána silně hlavně při výpočtech a hlavně pro výpočty je taky NVLink/tady tohle u AMD.
          Je možný, že teď s 4K+ rozlišením se ta vyšší propustnost začne rentovat i v herním SLI, ale zase na druhou stranu multi-GPU dost skomírá/hry ho kolikrát nepodporují, tak je otázka, jak důležité je.