Architektura a detaily GPU Nvidia Ampere/GeForce RTX 3000 a čipů GA102 a GA104

27

Podívali jsme se podrobně na architektonické novinky, kterými se GeForce RTX 3000 s GPU Ampere odlišují od Turingu. Například na to, jak velký je druhý čip GA104 v modelu RTX 3070.

Minulý pátek jsme tu měli porci nových detailů o architektuře Nvidia Ampere, které byly odhalené v Q&A vlákně na Redditu. Od té doby vypršelo NDA na další architektonické informace, takže se teď na architekturu podíváme znovu a více kompletně.

Parametry jednotlivých odhalených – a brzy uvedených – grafik (GeForce RTX 3090, GeForce RTX 3080 a GeForce RTX 3070) jsme probírali separátně v tomto článku. Zde se jim tedy už věnovat přímo nebudeme a zaměříme se na jejich celkovou architektonickou povahu.

Předchozí
Následující

První dva Ampere: charakteristiky čipů GA102 a GA104

Pro začátek nejdříve oficiálně potvrzené charakteristiky čipů. Jak již víme, jsou vyráběné procesem „8N“, což znamená 8nm proces Samsungu s úpravami specifickými pro Nvidii, které by měly přinášet lepší charakteristicky.

Nvidia GeForce RTX 3080 1600
Nvidia GeForce RTX 3080 Founders Edition (Zdroj: Nvidia)

Velký (herní Ampere) GA102

Čip GA102, který je v RTX 3080 a RTX 3090, má plochu 628,4 mm² (únik od twitterového leakera kopite7kimi říkal 672 mm², což je tak blízko, že si nejspíš nevymýšlel). Obsahuje 28 miliard tranzistorů, což dává vysokou hustotu tranzistorů (44,6 milionů na mm², proti 24,7 milionům u Turingu TU102).

Čip obsahuje 84 bloků SM uspořádaných do zdá se sedmi bloků GPC neboli Graphic Processing Clusters (každý obsahuje 12 bloků SM). Jeden blok SM má 128 shaderů (proti 64 v architektuře Turing). Základním stavebním kamenem není přímo blok SM, ale pár bloků SM, který je sdružený to tzv. bloku „TPC“ (Texture Processing Cluster), těch je v čipu tedy 42. Čip má 384bitovou sběrnici a 6 MB L2 cache. Počet tensor jader je 336 a RT jader 84. Celkej má čip 10 752 shaderů.

Schéma čipu GA102 v GeForce RTX 3090 Zdroj: techPowerUp

V modelu GeForce RTX 3090 Nvidia vypíná dva bloky SM (jeden TPC), což je asi minimum, co se dá najednou vypnout. Počet RT jader a současně i bloků SM tím klesá na 82 (41 TPC), tensor jader je 328, shaderů 10 496.

Konfigurace GeForce RTX 3080 má stejné GPU výrazněji ořezané. Nvidia zde ponechává jen 8704 shaderů, jen 320bitovou paměťovou sběrnici a také je neaktivní rozhraní NVLink pro SLI. Ořezání by modelově mělo vypadat tak, že je vypnutý vždy jeden celý GPC ze sedmi a dále dva TPC v nějakém dalším (nebo dvou dalších). Je ale asi možné, že ořezání může vypadat i jinak (tedy že by bylo aktivních 7 GPC), jinak by si tímto Nvidia poměrně svazovala ruce při využívání zmetků z výroby – není-li chybovost velmi nízká. RTX 3080 má 68 bloků SM (34 TPC), 68 RT jader a 272 tensor jader. Nemáme informace o tom, že by byla osekána L2 cache.

Schéma čipu GA102 v GeForce RTX 3080 Zdroj: techPowerUp

Menší Ampere: GA104

Levnější mainstreamovější čip GA104, který bude v kartách už od 499 dolarů (a eventuálně možná i levnějších), obsahuje 17,4 miliardy tranzistorů, což je o něco málo méně než TU102. Jeho plocha je 392 mm², tedy o dost menší, než TU102. Na tom je vidět škálování mezi 12nm (16nm generace) a 8nm (10nm generace) procesem.

Toto GPU má aktivních 46 SM, tedy 5888 shaderů, 184 tensor jader, 46 RT jader. Ovšem nevíme jistě, zda je jich na čipu fyzicky víc, nebo je to plná palba. Sběrnice pamětí je 256bitová a čip má 4 MB L2 cache.

ROP už nejsou navázané na paměťový subsystém

Velmi zajímavá změna nastala u rasterizačních jednotek. Ty bývaly dlouho navázané na řadič pamětí a šířka sběrnice tak nepřímo udávala, kolik ROP je v GPU přítomných/aktivních. Karty s 384bitovou sběrnicí by měly 96 ROP, ty s 256bitovou 64 ROP a tak dále. U Ampere je ale Nvidia oddělila a ROP jsou místo toho distribuované v blocích SM. Podle Nvidie tato změna příslušnosti nemá příliš ovlivňovat celkový výkon, ale znamená, že kapacita rasterizérů škálovat nahoru se šířkou GPU co do počtu bloků SM/shaderů.

Článek pokračuje na další straně.

Galerie: Architektura a detaily GPU Nvidia Ampere

Předchozí
Následující

27 KOMENTÁŘE

    • Ale aj spotreba ti poriadne narástla 215W vs 320W (+49%) a to sa jedná o 8nm namiesto 12nm, takže v tomto ohlade Nvidia sklamala. V desktope to nie je až taký problém, ale v notebookoch je to problém! Výkonnejší model ako RTX 3070 (Super) pravdepodobne nebude, keď sa pozrieme na aktuálny najsilnejší model pre notebooky a to je 2080 Super 150W (MaxQ je 80W), pričom v desktope má 215W, čo je podobná hodnota akú má RTX 3070 (220W).

            • Keby som mal možnosť, tak si poskladám desktop, ale nedalo sa v mojom prípade(práca v zahraničí).
              Tak som si kúpil notebook, ale kvôli chladeniu som nebral silnejšiu konfiguráciu, ale som sa uskromnil na 4C a GTX 1650 a aj to má vysoké teploty pri max záťaži, ale len CPU.
              Keby bola možnosť, tak beriem nejaké 25W 8 jadro s nejakou lepšou grafikou max 65W, aby celé nepresiahlo 90W, to by bol môj strop. No uvidíme, aké modely predstavia budúci rok, ale nepáči sa mi to neustále zmenšovanie notebookov, pri hernom by mi nevadilo, keby bolo o 1cm hrubšie, ale malo poriadne chladenie a nie tieto tenké atrapy.

  1. Kterej blbec vubec pouziva motion blur?
    To je jako super, ze je to rozmazany pri pohybu a ja tak nepritele hure vidim jo.
    Jak pise CRYPTON:
    MB okamzite vypinam vsude.
    OT: jesteze amd zaclo prodavat ta hnusna kola, alespon o necem se bude kolem amd mluvit 🙂

  2. Už jsem to psal jinde, 3080 se mi za tu cenu velmi líbila, do toho super DLSS 2,0, prostě Jensen vytvořil očekávání… a teď to vypadá jako POOR Volta, ale obráceně, takže Poor RDNA2.
    1/3 slíbeného výkonu chybí (mvladar ji ale samozřejmě někde najde – jako jediný, a bude mít upravený JPG na jeho Rajčeti 😀 ).
    Nicméně bych raději počkal na opravdu reálně testy, a teď už asi počkám i na to RDNA2 – obě firmy zatím jen slibují, chci vidět výsledky nezávislých WEBů.
    Aspoň spojím upgrade na ZEN3 i tou GPU (která se bude zdát lepší do 20 tisíc) na přelomu roku

    • Bohužel to vypadá, že ano.
      Hardware to umí, ale GeForce to nakonec poskytovat nebude, Nvidia omylem uvedla chybné informace. takže ta informace o SR-IOV už neplatí (hned ten článek zaktualizuju).