Kolik stojí ray tracing v GeForce RTX? Detailní fotky ukazují o 22 % větší plochu, ale…

Fritzchens Fritz pořídil detailní snímky GPU Nvidia Turing TU116 a TU106, z nichž se dá vyčíst, jak moc tranzistorů padlo na technologii RTX a ray tracing.

18

Když loni v srpnu, respektive září Nvidia vydala grafické karty GeForce RTX 2000, ukázalo se, že jejich 12nm GPU Turing mají velmi velkou plochu. Občas se nad tím objevují hlasy, že by čipy mohly být o dost menší a karty levnější, kdyby do nich Nvidia neintegrovala podporu pro realtime ray tracing (což však ignoruje to, že cena je na rozhodnutí výrobce a není pevně závislá na nákladech). Pokud vás zajímá, jaké má „RTX“ ve skutečnosti na velikost čipů a jejich výrobní cenu dopad, máme teď konečně podklady pro podobné debaty.

 

Turing s RTX a bez pod lupou

V minulosti jsme tu už párkrát odkazovali (třeba zdezde) na práci německého fotografa s přezdívkou Fritzchens Fritz, který pořizuje parádní detailní makrosnímky odhalených čipů. Přesně ten teď obrousil a vyfotografoval dvě GPU z rodiny Turing. A to TU106, které pohání GeForce RTX 2070RTX 2060 na jedné straně a TU116 na druhé (to je v kartách GTX 1660 TiGTX 1660). Ta jsou totiž obě postavená na architektuře Turing a lze tak srovnat, kolik na čipu implementace s RTX a bez zabírá.

Toho se chopili uživatelé na Redditu, když na fotky jak říkají na Slovensku „naďabili“. Nemá pochopitelně smysl přímo porovnávat velikost čipů, protože do toho může promluvit odlišná výbava, paměťový řadič a různé další komponenty čipu, které s RTX nesouvisí. Byly by to jednoduše řečeno hrušky a jabka. Ovšem na fotografiích jsou dobře rozlišitelné přímo jednotlivé bloky výpočetních jednotek, a ty už se srovnávat dají.

nvidia turing tu106 foto fritzchens fritz
Snímek GPU Turing TU106 (foto: Fritzchens Fritz)

Turingy se skládají z větších klastrů GPC (TU102 jich má například šest, TU106 tři), ty ovšem opět ještě mají oddělené bloky SM (či TPC), kterých je v jednom GPC šest. SM/TPC obsahuje 128 shaderů/stream procesorů. Každopádně, na úrovni této stavební jednotky je patrné zvětšení, které si technologie RTX vyžádala. Podle proměření na Redditu by plocha zabraná blokem SM měla být okolo 10,89 mm² u čipu TU106, který RTX umí, a jen asi 8,94 mm² u TU116, které je bez (nekontroloval jsem to, tak doufám, že to reddiťáci spočítali správně).

Ray tracing zvětšil shadery o 22 %

Rozdíl je to mrzké dva milimetry čtvereční, což nezní jako mnoho, ovšem když se to vezme relativně, jednotka samotná je tím o 22 % větší, tedy skoro o čtvrtinu (přičemž nejde jen o plochu výpočetních jednotek, jsou v tom i L1 cache). Dopad na velikost tedy není úplně malý, ale v čipu zase nejsou jenom bloky SM, ale i další sekce, takže i u TU102 se 4608 shadery by ty dva milimetry na SM daly jen asi 70,2 mm² navíc. Úspora by to tedy byla, ale GPU by stále bylo hodně velké (asi 684 místo 754 mm²).

nvidia turing tu116 foto fritzchens fritz
Snímek GPU Turing TU116 (foto: Fritzchens Fritz)

V oněch 2 mm² (1,95 mm²) na 128 shaderů se schovávají RT jádra čipu, ale pozor – nejen ta. Současně jsou v tom obsaženy také akcelerátory pro výpočty neuronových sítí, tensor jádra. I ta jsou totiž ve stejném RTX „pytli“. Máme tu tedy dohromady spojený ray tracing a třeba DLSS. Na druhou stranu, ray tracing v_dnešní podobě nutně potřebuje denoising, který také běží na tensor jádrech, takže je toto spojení vlastně v pořádku. Je samozřejmě otázka, zda kvůli podpoře RTX nemusely být nějak posíleny/zvětšeny ještě nějaké obvody mimo samotné SM, ale to hlavní by snad mělo být lokalizováno v něm.

Odstranění RTX ušetřilo místo, ale zase vynutilo přidání speciálních jader pro FP16

Reálně je asi cena za podporu RTX o něco nižší než těch 1,95 mm² kvůli jedné další věci, byť v praxi to není úplně podstatné. Turing má totiž jednu zvláštnost. Ex post až při uvedení TU116 Nvidia prozradila, že výpočty FP16 (ty architektura umí s dvojnásobným výkonem proti FP32) nepočítá na standardních shaderech. Údajně jsou přesměrovávány do tensor jader a počítají je jejich ALU – a mohou běžet současně s FP32 (v praxi asi ale může být omezení co do příkonu kvůli TDP). To je docela závažné a pozoruhodné zjištění (docela by mě zajímalo, zda to má třeba nějaký dopad na latenci a schopnost míchat FP32 a FP16 v rámci jednoho shader programu).

Zajímavé je to také tím, že u TU116 je to úplně jinak, protože Turingy bez RTX tensor jádra ztratily. Nvidia tvrdí, že má čip místo toho plnohodnotné separátní jednotky ALU FP16, které naopak neexistují v Turingu s RTX. Pokud by se tyto FP16 jednotky odečetly, byl by rozdíl mezi RTX a ne-RTX tedy vyšší. Ale odečítat bychom je neměli, protože FP16 patří mezi výbavu architektury Turing. Nvidia ale zrecyklováním tensor jádra pro tuto roli dopad RTX zmenšila (pokud tedy ta FP16 jádra ve skutečnosti nejsou kompletní tensor jádra, která jen nejsou exponována pro software – ale to už by bylo na poli konspiračních technologií, takže bych tuto variantu nezvažoval).

Nvidia TU116 SM Diagram FINAL 1550763261
Diagram bloku SM v čipu TU116 se separátními ALU pro výpočty v FP16

Díky těmto fotografiím se nám tedy trošku povedlo kouknout pod pokličku Nvidie. Ve flamewarech o tom, jestli se Nvidia měla na ray tracing radši vykašlat (s čímž bych si dovolil nesouhlasit), tedy bude aspoň možné se opřít o nějaká čísla.

Galerie: snímky GPU Turing TU116 a TU106 (foto: Fritzchens Fritz)


Kolik stojí ray tracing v GeForce RTX? Detailní fotky ukazují o 22 % větší plochu, ale…
Ohodnoťte tento článek!
4.7 (93.08%) 26 hlas/ů

18 KOMENTÁŘE

  1. SM(stream procesor) obsahuje 64 shaderov a nie 128.

    Nova architektura sa pohorsila vo vykone na plochu a to porovnavam GTX 1060(200mm2) vs GTX 1660 Ti(284mm2) bez Tensor a RT jadier.
    Rozdiel je o 50% viac tranzistorov a o 42% vacsia plocha, pricom vykon narastol len o ~36%(Techpowerup).
    Ked si vezmem, ze GTX 1060 Ti má 3072 FP16 jednotiek(128 FP16 na SM) a 1536 INT32 (64 INT32 na SM), tak si myslim, ze tento narast vo velkosti SM je sposobeny hlavne tymito jednotkami.

    • Taky jsem si nad tím lámal hlavu že to je krok zpět… Ale ten o 42% větší křemík s 36% vyšším výkonem má stejnou spotřebu jako starší GTX 1060… No a jako obyčejnému člověku mi muže byt plocha křemíku jedno, tu neocením spotřebu a výkon ano… Možná byl hlavní cíl Nvidie co nejvyšší energetická efektivita a možná si to žádalo nějaké tranzistory navíc a tím i plochu… Sice to nezní moc logicky ale co já vím. Mylím že ví co dělají 😀

      • Na spotrebu som zabudol.
        Je pravda, ze napriek 36% nárastu vo výkone ostala spotreba rovnaka. Bol pouzitý trochu lepsí vyrobny proces, takze aj to trochu pomohlo – 16nm(Pascal) vs 12nm(Turing).
        Stale si myslim, ze sa dalo usetrit na mnozstve FP16 a INT32. Aj keby ich tam nechali len polovicu, na vykon by to malo minimalny vplyv a nejake miesto by urcite usetrili.

        • Keby zmensenim poctu FP16 a INT32 jadier na polovicu by usetrili dajme tomu 20mm2, tak by velkost TU116 bola namiesto 284 len 264mm2. To by bol rozdiel vo velkosti len 64mm2 voci gtx1060(200mm2), co je 32%. Potom by sa zlepsil aj pomer vykon/plocha cipu.

      • Ale jo 2080ti má výkon vysoký ale to neznamená že bude stát 35K já za 980ti jsem dal 21K a to v té době byla novinka když přišla 1080ti tak její nejvyšší cena byla nějakých 25-26K ale tohle co je teď je jen zlodějna. Nanejvýš by měla stát stejně jako před dvěma lety 1080ti když to byla novinka ale ne 35K zas takový nárůst tam není a už vůbec s RT a tím rozmazávačem.

        • Novu 2080Ti si vies kupit uz od 28 595kc na Alze, ale neviem kolko stala pri uvedeni.
          Rozdiel vo výkone je 38%(2080Ti vs 1080Ti), co urcite nie je malo.
          Rozdiel vo velkosti cipu je 60%.
          Chciet ju za rovnaku cenu ako bola 1080ti pri uvedeni, hoci je vyrobena len na trochu lepsom procese a ma drahsie a rychlejsie GDDR6 je celkom nerealne.

          • No úplně nereálný to není, protože 12nm proces by teď na jeden mm2 měl vycházet levněji než 16nm v době svého uvedení, kdy to byla horká novinka a poprvé FinFETy. A obecně jsem zvyklí, že výkon, který dostanete za určitou cenu postupně stoupá, jinak by si dneska PC nemohl skoro nikdo dovolit, žejo (kdyby cena dejme tomu od jendojádrový/DX9 éry roku 2003 za 15 let stoupla tolik, co výkon, tak potěš koště).

            Třeba Maxwelly měly taky o dost větší čipy než Keplery, ale IIRC jejich cena tolik nestoupla. Jednak se 28nm proces mezitím zlevnil, vedle toho cena a náklady jsou dvě různý věci.

            • 12nm moze byt lacnejsi ako 16nm, ale ten cip je o 60% vacsi a GDDR6 je drahsie ako GDDR5, takze vyrobne naklady su urcite vyssie ako ma 1080ti.
              Netvrdim, ze tam nie je priestor na znizenie ceny, ale nie az taky, aky by chcel carda19 pri zachovani podobnej ziskovosti ako mali pri 1080ti.

              Neviem, ktore cipy mas na mysli, tak som porovnal TOP cipy.
              GeForce GTX 680(28nm, 294mm2) $500
              Geforce GTX 780(28nm, 561mm2) $699
              Vykon je o 49% vyssi a cena je o 40% vyssia, takze v tomto pripade sa pomer vykon/cena velmi nezlepsil.

              GeForce GTX 1080Ti $699
              GeForce RTX 2080TI $999($1199 FE)
              Vykon je o 38% vyssi a cena je o 43%(71% pre FE) vyssia.
              Cena 2080Ti mala byt $899, to by bolo o 30% viac ako 1080Ti pri uvedeni.
              Uprimne si myslim, ze aj cenovka $799 by pokryla vyssie naklady na vyrobu pri zachovani rovnakej ziskovosti.
              Ked nie je konkurencia, tak to vyzera takto.

            • Honzo internet je plny grafu jak nelinearne roste cena s klesajici nanometrazi. jak se treba ukazalo naposled u RVII. To bys mel vedet ty nejlip.

  2. podle mě to bude v reálu více jak těch 22%…

    IMHO tu plochu navyšují i ty samostatné FP16 jádra, protože předchozí arch. uměla na FP32 jednotkách počítat 2xFP16 jako to dělá např. Vega. Teprve s RTXTuringem se tohle změnilo a FP16 u RTX Turingů počítají (údajně) tensor jádra zatímco u GTX verzí Turinga to jsou samostatné FP16 jednotky, kterých je logicky 2x tolik co FP32 jednotek. (pokud to tedy nejsou jen softwarem okleštěné Tensor units)