Architektura a detaily GPU Nvidia Ampere/GeForce RTX 3000 a čipů GA102 a GA104

27

Podívali jsme se podrobně na architektonické novinky, kterými se GeForce RTX 3000 s GPU Ampere odlišují od Turingu. Například na to, jak velký je druhý čip GA104 v modelu RTX 3070.

Minulý pátek jsme tu měli porci nových detailů o architektuře Nvidia Ampere, které byly odhalené v Q&A vlákně na Redditu. Od té doby vypršelo NDA na další architektonické informace, takže se teď na architekturu podíváme znovu a více kompletně.

Parametry jednotlivých odhalených – a brzy uvedených – grafik (GeForce RTX 3090, GeForce RTX 3080 a GeForce RTX 3070) jsme probírali separátně v tomto článku. Zde se jim tedy už věnovat přímo nebudeme a zaměříme se na jejich celkovou architektonickou povahu.

Předchozí
Následující

Architektura bloku SM v architektuře Ampere

Nejzásadnější změna v Ampere se odehrává na úrovni bloku SM s shaderovými jednotkami. Jde o ono zdvojení jednotek FP32 (alias „Cuda jader“), o kterém jsme psali již minule. To nespočívá v prostém zdvojení všech prostředků v SM, implementace je jiná.

Blok SM má stejně jako v architektuře Turing čtyři nezávislé Warp Schedulery a Dispatche, které posílají instrukce do jednotlivých shaderů. Lze si to představit jako čtyři jádra se širokým SIMD – Scheduler posílá na všechny jemu příslušné shadery (= čtvrtinu SM, zde 32 shaderů) jednu vektorovou instrukcí, tzv „warp“. Warp je vlastně SIMD16 instrukce (poznámka: AMD tomuto říká wavefront a šířka wavefrontu u architektury RDNA je SIMD32; u GCN to bylo dvakrát širší SIMD64).

Blok SM v architektuře Ampere: novinky Zdroj: Hot Hardware

V Pascalu posílal scheduler jednotlivé warpy 16 shaderům (SM měl tedy celkem 64 shaderů). V Turingu jak známo přidala Nvidia separátní celočíselné jednotky, takže warp sheduler mohl celočíselné (INT) instrukce (warpy) poslat do separátních 16 jednotek INT32 a paralelně poslat FP32 warp do klasických FP32 shaderů. Toto značně zlepšilo výkon na 1 MHz, neboť část operací se počítala paralelně, INT warpy už nezabíraly cykly, které se tak mohli předělit FP32 operacím.

Ampere ponechává úplně stejně čtyři warp schedulery, takže na SM se pořád dá v jistém smyslu pohlížet jako na čtyři jádra. A warpy by pořád měly mít šířku 16 shaderů. Ovšem do oněch drujých paralelních jednotek byla doplněna podpora pro výpočet nejen INT, ale už i standardních FP32 operací. Takže tyto sekundární jednotky nyní mohou dělat i to, co ty primární. Scheduler tak může do jednotek poslat dva FP32 warpy za jeden cyklus místo jednoho – v takové situaci je potenciální hrubý výkon 2× vyšší než u Pascalu nebo Turingu. Alternativně může poslat jeden INT a jeden FP32 warp, což už uměl Turing – v takovém případě výkon nestoupne.

Blok SM v architektuře Ampere Zdroj: techPowerUp

Celý blok SM se čtyřmi warp schedulery/dispatchy má tedy celkem 4× (16+16) shaderů, což dává 128 shaderů, a dokáže spočítat až osm warpů za takt (pokud by se náhodou sešly samé INT operace, tak jenom čtyři, ale to bude asi spíš vzácné).

V Turingu ještě Nvidia INT jednotky nepočítala mezi počtem „Cuda jader“ (shaderů), uvedeným ve specifikacích. Nyní, když sekundární jednotky zvládají i FP32 operace, už je jako shadery uvádí, proto mají GPU více jak dvojnásobné počty shaderů proti předchozí generaci. GeForce RTX 2080 (2944 shaderů) a RTX 3070 (5888 shaderů) mají ve skutečnosti stejný počet bloků SM (46), rozdíl je jen ve schopnosti oněch sekundárních jednotek.

Dále v SM

Kromě samotných shaderů obsahuje jeden blok SM jedno RT jádro pro výpočty ray tracingu a čtyři tensor jádra. V každém SM jsou čtyři texturovací jednotky a sdílená 128KB L1 cache. Registry a load/Store jednotky (čtyři) nejsou sdílené pro celý SM, ale vždy pro onu jednu čtvrtinu (16+16 shaderů) sdruženou pod jeden ze čtyř Warp Schedulerů.

Herní Ampere je výrazně odlišný od výpočetního

Mimochodem: toto je unikátní jen pro herní verzi Ampere. Výpočetní verze Ampere v akcelátoru A100 má v SM místo toho, co jsme popisovali, uspořádání stejné jako Turing. Na jeden warp scheduler je 16 FP32 jednotek a 16 separátních INT jednotek, které operace FP32 neumí. Takže počet shaderů je ve specifikacích jen 64 na blok SM, ne 128 jako u herního Ampere. Na oplátku má blok SM ale vyhrazené jednotky pro výpočty FP64 – těch je osm na blok SM.

Článek pokračuje na další straně.

Galerie: Architektura a detaily GPU Nvidia Ampere

Předchozí
Následující

27 KOMENTÁŘE

    • Ale aj spotreba ti poriadne narástla 215W vs 320W (+49%) a to sa jedná o 8nm namiesto 12nm, takže v tomto ohlade Nvidia sklamala. V desktope to nie je až taký problém, ale v notebookoch je to problém! Výkonnejší model ako RTX 3070 (Super) pravdepodobne nebude, keď sa pozrieme na aktuálny najsilnejší model pre notebooky a to je 2080 Super 150W (MaxQ je 80W), pričom v desktope má 215W, čo je podobná hodnota akú má RTX 3070 (220W).

            • Keby som mal možnosť, tak si poskladám desktop, ale nedalo sa v mojom prípade(práca v zahraničí).
              Tak som si kúpil notebook, ale kvôli chladeniu som nebral silnejšiu konfiguráciu, ale som sa uskromnil na 4C a GTX 1650 a aj to má vysoké teploty pri max záťaži, ale len CPU.
              Keby bola možnosť, tak beriem nejaké 25W 8 jadro s nejakou lepšou grafikou max 65W, aby celé nepresiahlo 90W, to by bol môj strop. No uvidíme, aké modely predstavia budúci rok, ale nepáči sa mi to neustále zmenšovanie notebookov, pri hernom by mi nevadilo, keby bolo o 1cm hrubšie, ale malo poriadne chladenie a nie tieto tenké atrapy.

  1. Kterej blbec vubec pouziva motion blur?
    To je jako super, ze je to rozmazany pri pohybu a ja tak nepritele hure vidim jo.
    Jak pise CRYPTON:
    MB okamzite vypinam vsude.
    OT: jesteze amd zaclo prodavat ta hnusna kola, alespon o necem se bude kolem amd mluvit 🙂

  2. Už jsem to psal jinde, 3080 se mi za tu cenu velmi líbila, do toho super DLSS 2,0, prostě Jensen vytvořil očekávání… a teď to vypadá jako POOR Volta, ale obráceně, takže Poor RDNA2.
    1/3 slíbeného výkonu chybí (mvladar ji ale samozřejmě někde najde – jako jediný, a bude mít upravený JPG na jeho Rajčeti 😀 ).
    Nicméně bych raději počkal na opravdu reálně testy, a teď už asi počkám i na to RDNA2 – obě firmy zatím jen slibují, chci vidět výsledky nezávislých WEBů.
    Aspoň spojím upgrade na ZEN3 i tou GPU (která se bude zdát lepší do 20 tisíc) na přelomu roku

    • Bohužel to vypadá, že ano.
      Hardware to umí, ale GeForce to nakonec poskytovat nebude, Nvidia omylem uvedla chybné informace. takže ta informace o SR-IOV už neplatí (hned ten článek zaktualizuju).