Unikly detaily architektury Turing: cache, schéma GPU, výrazně rychlejší shadery?

24. 8. 2018

Autor: Nvidia

Počítám, že prakticky všechna pozornost ve světě počítačového hardwaru je teď upřená na nová GPU Nvidie Turing, která budou pohánět grafické karty GeForce RTX (a Quadro RTX). A to tím spíš, že Nvidia je sice odhalila a už si je můžete předobjednat, ale čísla o výkonu (s touto výjimkou) a podrobnosti o jejich architektuře zatím tají. Ovšem Nvidia již zdá se začala informovat média pod NDA, a tak začínají zatím tajené podrobnosti zákonitě unikat.

Schéma a specifikace TU102

Slajdy z brífinku Editor's Day začal publikovat web VideoCardz díky kterému se tak detaily dostávají na veřejnost o něco dřív, než Nvidia plánovala. Na prvním z těchto snímků můžete vidět přehled specifikací čipu použitého v kartě GeForce RTX 2080 Ti a Quadru RTX 6000/8000. Ten se jak vidíte jmenuje TU102. Na slajdu jsou specifikace pro plnotučnou verzi, která je v Quadrech: na křemíku je fyzicky 72 bloků SM s celkem 4608 stream procesory (shadery). Na každý blok SM připadá jedno RT core pro akceleraci ray tracingu a čtyři texturovací jednotky (celkem je jich 288). Rasterizačních jednotek (ROP) má GPU celken 96, což sedí s jeho 384bitovou sběrnicí. Podle Nvidie má také toto GPU dvě rozhraní NVLink.

Schéma a specifikace GPU Turing TU102, plná verze čipu (Zdroj: VideoCardz)

GeForce RTX 2080 Ti by měla mít čip ořezaný na 68 SM a tím 68 RT jader, 272 texturovacích jednotek a 4352 shaderů. Oříznutí sběrnice na 352 bitů by také asi mělo vést k deaktivaci 8 ROP (takže by jich GPU mělo 88). Podle snímků se také zdá, že rozhraní NVLink bude GeForce používat jen jedno, ostatně Nvidia podporuje jen SLI dvou karet.

Výkonnější a větší cache

Včera pak unikl ještě slajd, který odhaluje změny v subsystému cache architektury Turing. L1 cache, která je vždy jedna pro jeden blok SM, byla zvětšena z 24 KB v architektuře Pascal na 64 KB. Sdílená paměť má 32 KB, ovšem na slajdu je zmíněna i možnost obráceného rozdělení (co to znamená, to ještě nevíme). Nejen kapacita L1 ale stoupla. Důležité (možná i důležitější) bude, že Nvidia zdvojnásobila propustnost této cache, v jednom cyklu bude možno z ní nebo do ní dostat dvojnásobnou šířku dat. Navíc prý Nvidia i snížila její latenci. Kromě L1 cache jinak byla zvětšena i L2 cache celého čipu, která má u Turingu 6 MB (není úplně jasné, zda je tento údaj pro TU102, TU104 nebo pro obě GPU). U L2 však propustnost zvýšena není.

Paměti cache v Turingu (Zdroj: VideoCardz)

Masivní zrychlení shaderů?

Nejzajímavější slajd jsem si nechal nakonec. Na tomto snímku Nvidia uvádí, že architektura Turing by měla mít výrazně vyšší výkon shaderů, tedy programovatelných výpočetních jednotek/stream procesorů. Jeden shader (Nvidia jim říká „Cuda jádro“) údajně může dosáhnout až o 50 % vyššího výkonu, než shader architektury Pascal. To by byl skutečně masivní nárůst IPC, i pokud by část tohoto zlepšení měla na svědomí vyšší frekvence Turingu.

Zde je třeba upozornit, že výkon shaderu v této tabulce neznamená, že se o podobné procento zvedne také celkový herní výkon, je asi třeba chápat je spíš jako mikrobenchmarky. V tabulce totiž není výkon pro nějaký větší kód nebo celou hru, ale pro izolované konkrétní shader programy vytažené z daných her. To jsou relativně malé prográmky, kterých typická hra používá velké množství. Je možné, že Nvidia zde vybrala nějaké takové, které mají u Turingu velmi velké zrychlení, a u dalších podobný dopad být nemusí. Neznáme kontext a podmínky tohoto testu, bohužel.

Podle tohoto slajdu dokáží shadery Turingu podat podstatně vyšší výkon na jádro (Zdroj: VideoCardz)

Ale i pokud by oněch 50 % navíc (nebo dokonce 100 % u VRMarku) bylo netypickým výsledkem, stále to znamená, že Nvidia u Turingu udělala architektonické změny, které zvýší výkon shaderů. Bbyť by to i v průměru bylo s menším faktorem. Kde by se tento výkon navíc mohl vzít? V úvahu může připadat třeba ona posílená L1 cache. Ale mohlo by jít také o vliv jedné změny, kterou Nvidia zmínila při prvním odhalení architektury Turing.

Turing stejně jako Volta zavádí do stream procesoru samostatnou celočíselnou ALU, kterou lze použít paralelně s floating-point ALU. Turing tedy může za takt shaderem prohnat jednu floating-point a jednu celočíselnou operaci, zatímco u Pascalu mohla dovnitř v každém taktu jen jedna instrukce celkem. To znamená, že shadery s významnějším podílem integer či logických operací by mohly zaznamenat vysoká zrychlení, jaká vidíte v této tabulce. Otázka samozřejmě je, jak výrazně se to projeví na koncovém výkonu ve hrách, každopádně by to ale mělo zvýšit „IPC“ (tím myslíme výkon při stejném počtu jednotek a stejném taktu) nové architektury. Nu, další věc, na kterou budeme napnutí do recenzí.

Slajd s popisem čipu Turing, kde Nvidia zmiňuje, že jádro dokáže současně počítat celočíselné i FP operace (Zdroj: VideoCardz)

Recenze mají vyjít 14. září

Podle VideoCardz zatím Nvidia nedala prakticky nikomu do rukou ovladače ke GPU Turing, proto zatím neunikají žádné benchmarky nebo údaje o výkonu. I pokud by někdo nějak exemplář hardwaru získal třeba od výrobce karet, bez ovladače se pochopitelně žádné testování nemůže uskutečnit. Většina potenciálních leakerů ale ještě údajně nemá ani hardware. Podle VideoCardz dostanou média vzorky pro recenze až někdy začátkem září. Pak už by to ale mohlo jít relativně rychle. Podle VideoCardz budou recenze karet totiž vycházet už 14. září. Na tento den stanovila Nvidia informační embargo. Výkon by tedy měl být znám již necelý týden před dnem, než se karty začnou prodávat (a posílat předobjednávatelům).