Pascal GP100 je 610mm² monstrum s 3840 shadery, Nvidia sdělila úplné parametry

0

Na rozbíhající se akci GTC 2016, pořádané Nvidií, se očekávala nějaké forma poodhalení grafické architektury Pascal. A k němu také došlo, ovšem rozsah podrobností, které byly zveřejněny, asi nikdo nečekal. Nvidia se totiž místo nějakého namlsávání pochlubila rovnou nejvýkonnějším čipem 16nm řady, „velkým Pascalem“ GP100. A hned k němu prozradila vpodstatě vše: počet stream procesorů, vlastnosti paměťového subsystému, ba dokonce i takty. Až to skoro připomíná apríl, jelikož takto oficiálně jasno dopředu před uvedením asi ještě nikdy nebylo.

Nvidia čip GP100 představila jako komponentu výpočetní karty Tesla P100, která bude určená pro superpočítače a bude nejvýznamnějším upgradem v tomto segmentu od uvedení Kepleru (GK110, později GK210). Jednak jde konečně o 16nm čip – proces TSMC už je potvrzen – hlavně ale vůbec ne o kartu, nýbrž o PCB modul v novém plochém formátu s konektory na spodku, určený speciálně pro superpočítače. Podobu můžete vidět na obrázku. Na PCB se nachází napájecí komponenty, paměti i GPU leží na interposeru v centrálním pouzdru BGA. TDP celého modulu je 300 W, takže chlazení bude muset být pořádné.

Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal

Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal
Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal a HBM2

 

 

Kompletní specifikace čipu GP100 jsou venku

Tesla P100 bude mít s tímto GPU výkon 10,6 TFLOPS v jednoduché přesnosti (FP32) a 5,3 TFLOPS v dvojité (FP64, poměr výkonu je 1:2). Pro srovnání: Titan X dosahuje jen na 6,14 a GTX 980 Ti 5,63 TFLOPS v FP32! Navíc GP100 umí také výpočty v přesnosti poloviční (FP16), které mohou mít dvojitý výkon (21,2 TFLOPS). Ovšem toto ještě není výkon plného neořezaného GPU. Čip GP100 bude mít totiž v této Tesle aktivních jen 56 bloků SM z fyzických 60. Jeden blok má 64 stream procesorů (poloviční počet proti Maxwellu), což znamená, že celé GPU má 3840 shaderů; verze použitá v Tesle P100 pak „jen“ 3584.

Blok SM je rozdělen do dvou sekcí po 32 shaderech (FP64 jednotek je polovina) – ty mají společný buffer pro instrukce, warp scheduler a dispatch (dvě jednotky). Texturovacích jednotek je celkem 224 (plný čip by jich měl mít 240), ty rasterizační zatím uvedené nejsou. GPU nese 4 MB L2 cache a každý blok SM má soubor registrů o kapacitě 256 KB. Počet TPC (Texture Processing Cluster) je zřejmě poloviční proti počtu SM, tedy celkově 30, u ořízlé verze 28. GP100 (či Pascal) bude mít také proti předchozím architekturám určitá zlepšení a nové schopnosti – verze „Compute Capability“ byla z 5.3 povýšena na 6.0.

Schéma jednoho bloku SM s 2×32 stream procesory
Schéma jednoho bloku SM s 2×32 stream procesory

Nvidia kupodivu vyzradila i takty (které ovšem vyplývají již ze zmíněných teoretických výkonů). Nový výrobní proces s 3D tranzistory FinFET umožnil kromě zvýšení počtu shaderů také nasadit podstatně vyšší takt (pravda při vyšším TDP). Základní je 1328 MHz, turbo je 1480 MHz. To je hodně, jelikož se zde bavíme o skutečně velkém GPU a navíc ve verzi pro náročnější sektor HPC, kde nelze běžet tak nadoraz, jako u herních grafik.

 

Schéma čipu GP100
Schéma celého čipu GP100

 

HBM2 s ECC na 1,40 GHz

Paměti jsou použity HBM2 ve čtyřech kusech, sběrnice má tedy šířku 4096 bitů. Nvidia osadí 4GB čipy, celkem bude kapacita 16 GB. Efektivní takt je podle zveřejněných specifikací 1,40 GHz, jelikož propustnost je údajně 720 GB/s. Zde Nvidia poněkud zařadila zpátečku, protože když poprvé oznámila GPU s integrovanou 3D pamětí, mělo údajně mít propustnost 1 TB/s. Paměti HBM2 podle Nvidie nativně podporují ECC jak pro obsah, tak při přenosech po sběrnici.

Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal

Naopak v souladu se sliby má GP100 kromě PCI Express nové speciální komunikační rozhraní NVLink – obdobu HyperTrasnportu či QPi. GPU má čtyři tyto linky, každou s rychlostí 40 GB/s obousměrně a může jimi komunikovat buď s dalšími GPU, nebo v budoucnu s procesory Power, které mají tuto technologii také integrovat. Pro výkonné servery by mělo jít o velmi významné zlepšení, i když tato logika zdá se není plně koherentní jako v případě systémů s vícero CPU.

Příklad zapojení Tesly P100 v dvouprocesorovém serveru pomocí propojek NVLink
Příklad zapojení Tesly P100 v dvouprocesorovém serveru pomocí propojek NVLink

 

Navzdory FinFETům historicky největší GPU vůbec

Specifikace vypadají pro výkon velice dobře, nehledě na zvýšené TDP, které v tomto segmentu není již tak významným problémem. Zda se v dohledné době objeví také plně aktivní verze, je trochu otázka. Čip je totiž enormně velký, ačkoliv používá zcela nový a také náročný proces. S 15,3 miliardami tranzistorů měří 610 mm², což je na samé hranici toho, co TSMC vůbec dokáže vyrábět jakýmkoli procesem – je dokonce větší než GM200 na zralém 28nm procesu. V případě 16nm ale nepochybně úřaduje mnohem vyšší výskyt defektů a horší výtěžnost. Z toho vyplývá, že tento čip musí být těžké vyrobit. Ono vypnutí čtyř SM je možná holou nezbytností, aby z waferu vůbec zůstaly nějaké použitelné čipy.

Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal

I vzhledem k tomuto si moc nedovolím odhadovat, jak by mohla (co do počtu aktivních shaderů) vypadat eventuálně vydaná herní karta GeForce s tímto monstrčipem. Zřejmě tuhé výrobní náklady si Nvidia bude kompenzovat vysokými maržemi i karet Tesla. Za jak dlouho to ale bude na uvedení nějaké karty GeForce s cenou řádově 600–700 dolarů (respektive teď již asi spíše Titanu za 1000 či více dolarů), to bude záviset na vývoji cen waferů, zrání procesu a zlepšování výtěžnosti.

Kdy můžeme velkého Pascala čekat, je vůbec otázka. Byť bylo toto první odhalení na informace velmi pestré, jedno chybělo: jakékoliv informace o ceně a co je podstatnější, datum vydání. V případě Tesly P100 je nicméně hlavní spíše to, kdy ji budou mít v nabídce výrobci serverů a superpočítačů. Velcí výrobci serverů mají tento termín položen údajně až na první čtvrtletí roku 2017. Ale GPU samotné má být nyní prý již ve výrobě a některé stroje by ho prý mohly mít již během léta. Kdy bude herní verze, je ale hodně těžké odhadnout. Teoreticky by možná mohla přijít ještě letos, pravděpodobný je ale asi také příchod až v roce 2017. Na druhou stranu, vyloučit nelze nic, u GM200 byla herní verze vydána dříve než karta Tesla.

Zdroje: Nvidia, AnandTech

Pascal GP100 je 610mm² monstrum s 3840 shadery, Nvidia sdělila úplné parametry

Ohodnoťte tento článek!