Intel poodhalil první samostatné GPU: všude IVR, EU turbo se shadery na dvojitém taktu

4

V novoročním bilančním článku za rok 2017 jsem si dovolil vyjmenovat jako významnou událost loňska (plánovaný) vstup Intelu na trh samostatných GPU. Zatím nevíme, kdy a v jakém měřítku se toto uskuteční a na trh udeří grafiky či výpočetní karty s GPU „made in Intel“. Plán je ale zřejmě rozjetý už nějakou dobu: společnost už má první prototypy. A co víc, na ISSCC o nich prezentovala zajímavé technické detaily. Máme tak vzácnou možnost nakouknout pod pokličku tohoto projektu a také něco zjistit o tom, jak si Intel asi budoucí výkonná GPU představuje.

 

První samostatné GPU je zatím laboratorní prototyp

Tento prototyp není určen k uvedení na trh, jde o čistě zkušební návrh, což je vidět na parametrech. Složen je ze dvou čipů – ze zkušebního GPU vyrobeného 14nm procesem, v kterém jsou výpočetní jednotky, blok pro obrazový výstup, „system agent“ s paměťovým řadičem a další části a druhým separátním obvodem, který pro tento kus křemíku realizuje připojení na sběrnici PCI Express a komunikaci se zbytkem počítače. Tato druhá část je implementována pomocí FPGA, u standardního produktu už by asi oboje bylo v jednom čipu.

intel-isscc-gpu-prototyp-prezentace-02Prototyp vychází z grafické architektury Gen9 v procesorech Skylake, potvrzuje se tedy, že Intel samostatná GPU vyvíjí jako derivát stejné architektury, kterou má v grafikách integrovaných. Konfigurace prototypu není nijak silná, čip je složen jen z jedné tzv. slice, v níž jsou tři sub-slice po zřejmě šesti výpočetních jednotkách EU. Celkem má tedy toto GPU jen tolik jednotek co Atomy a ani takt není vysoký. Čip může běhat mezi 50 MHz (při napětí pouhých 0,51 V!) a 400 MHz (1,2 V). Rozměr je asi 64 mm², v čemž je 1,542 miliardy tranzistorů – EU ale zabírají jen malou část plochy.

intel-isscc-gpu-prototyp-prezentace-01

Regulace napětí zvlášť pro každou výpočetní jednotku

Zdá se, že na tomto prototypu si Intel zkouší zejména techniky správy spotřeby a taktů, které by mohly být hodně důležité. Výkon GPU je totiž limitován jejich TDP, a tedy se každé zlepšení energetické efektivity dá proměnit ve zvýšení absolutního výkonu. Testovací GPU se dělí na několik nezávislých domén, které mohou běžet na různých taktech a napětích a výrazně využívá integrované regulátory napětí (IVR). Ty nejsou použité pro úpravu napětí zcela na vstupu, ale distribuovaně po různých částech čipu, takže je pak možné provozovat různá napětí na mnohem větší škále – bloků s nezávislým nastavováním napětí by teoreticky mohly být třeba stovky. V prototypu mají zdá se vlastní regulátory typu DLDO i jednotlivé jednotky EU (mimochodem, regulátory DLDO pro jednotlivá jádra má například procesor Epyc od AMD).

intel-isscc-gpu-prototyp-prezentace-07intel-isscc-gpu-prototyp-prezentace-03

EU Turbo: shadery na dvojnásobné frekvenci

Takto pokročilá práce s napájením zřejmě má být základem pro podobně sofistikované řízení výkonu. Toto zkušební GPU má totiž implementováno nezávislé taktování výpočetních jednotek EU (shaderů) a dalších částí. U výpočetních jednotek přišel Intel s poměrně pozoruhodným způsobem, jak zvýšit výkon. Možná si vzpomínáte, že kdysi před architekturou Kepler měla Nvidia v GPU výpočetní jednotky běžící na dvojnásobném taktu, což ale poté zase opustila. Intel v tomto svém GPU vyzkoušel něco podobného, ale v jistých ohledech pokročilejšího.

intel-isscc-gpu-prototyp-prezentace-04EU totiž do tohoto režimu dvojnásobného taktu (u tohoto prototypu je maximum pro shadery zdá se stále 400 MHz, takže reálně to funguje tak, že se vlastně celý zbytek čipu podtaktuje na 200 MHz) umí přecházet dynamicky. Intel tento režim tudíž označuje jako EU Turbo. Dvojnásobnou frekvenci je zřejmě relativně jednoduché synchronizovat se zbytkem čipu a smyslem tohoto turba je logicky zvýšit výpočetní výkon EU. Grafika ale při nízké zátěži nebo menší potřebě výkonu shaderů oproti ostatním fixním částem pipeline může frekvenci zase snížit, takže na řekněme 200 MHz běží jak EU, tak zbytek čipu. To by nebylo možné, pokud by onu dvojnásobnou frekvenci měly EU stále. Od tohoto systému fungování si Intel zřejmě slibuje vyšší účinnost. Při stejném výkonu údajně tato architektura spotřebovává v průměru o 29 % méně energie než pokud by takt EU byl fixní a stejný jako pro zbytek čipu.

Kromě toho ale provoz EU na dvojnásobném taktu dovoluje zmenšit plochu čipu (protože není třeba do něj nahustit tolik jednotek), nebo při stejné ploše čipu dosáhnout vyššího výkonu, Intel udává až 50% snížení plochy, nebo až 68% zvýšení výkonu. Tento zlepšovák by tudíž mohl dovolit implementaci výkonnějších čipů v highendu, kde je limitem maximální plocha vyrobitelná v továrně. Ale zároveň by mohl být užitečný k redukci plochy čipu, kterou zabírá integrované GPU v procesorech. To by Intelu zlepšilo marže, ale také by mohlo udělat místo pro CPU jádra navíc.

Od prvních prototypů bude ještě dlouhá cesta

Prezentace tohoto prototypu může naznačovat, jak by mohla vypadat eventuální „ostrá“ GPU, která Intel vyprodukuje. Ovšem je třeba pamatovat na to, že jde asi o do značné míry experimentální projekt. Může se stát, že například ona dvojnásobná frekvence se nakonec do produkční architektury nedostane, protože se ukáže, že nějaký alternativní přístup funguje lépe. Nicméně ono agresivní použití regulátorů napětí DLDO by se nejspíš v praxi čekat dalo. Máme informace, že Intel chystá ve své roadmapě GPU založená na architektuře čipů Tiger Lake (Gen12) a Alder Lake (Gen13). Ta jsou tedy zatím poměrně vzdálená, jelikož tento prototyp ještě staví na architektuře Skylake (Gen9) a mezitím se objeví Gen 10 a Gen11. Mezi dnešním experimentálním čipem a grafikami, které jednou Intel skutečně vpustí do obchodů, tedy nevyhnutelně budou značné rozdíly. Minimálně frekvence a počty jednotek budou někde úplně jinde.

Ohodnoťte tento článek!

4 KOMENTÁŘE

  1. Prečo je densita tak nízka? V minulosti ste tvrdili že Intel dosahuje nížšiu densitu pretože GPU sú odlišné ako CPU a vyzerá to tak že v Intelovom prípade to bude aj platiť (narozdiel od AMD).

    Ale prečo nedosiahli 50 Mtr/mm2 ako uvádzajú v materiáloch kde to porovnávajú s 25 Mtr/mm2 procesov konkurencie?

    A z toho vyplýva aj niečo k minulému článku: marketing Intelu sa snaží opäť prezentovať ich 10nm ako konkurenciu ostatních 7nm procesov, ale v tomto svetle: verí tomu ešte niekto? Lebo podľa tohto to vyzerá že pri troche šťastia sa Intelu s 10nm podarí len dorovnať ostatné 10nm pričom 7nm budú o dobrú generáciu napred.

    Druhá vec je, prečo len 400 MHz? Ak by to bol test čip kompletne novej architektúry na novom procese (v tejto fáze rozumej už 7nm, nie 10) tak by sa to dalo pochopiť, ale je to stará architektúra na starom procese.

    • Myslím, že ta frekvence je tak trochu odpověď. Evidentně, Gen9 dokáže Intel rozchodit na 1200 MHz. Tady je to IMHO protož, že je to čip, na kterým si jenom něco zkoušej a zároveň na to nechtějí utratit zbytečně moc peněz, takže tam asi nebude nějaká velká optimalizace, což může taky způsobit nižší hustotu tranzistorů? Je to prostě čistě experimentální věc, nemá smyslu u toho IMHO moc řešit výkon a jestli je to něčemu konkurenceschopné – má to horší parametry než nejméně výkonná současná iGPU a potřebuje to k provozu FPGA, takže evidentně ne.

      Některé ARMy mají také se stejnou architekturou jádra nižší takty než jiné.

      • Všetko z toho by sa tým dalo vysvetliť ak by to boli odchýlky vrámci pár percent ale toto je 2 až 3 násobný rozdiel v porovnaní s tým čím sa Intel chváli.

        Aj tie ARMy majú určité rozdiely v parametroch ale vrámci rovnakého jadra niesu tak veľké.

  2. Nevim jestli ma Intel sanci vyzdimat neco vic z technologie shaderu na dvojnasobne frekvenci. A nejde ani rict, ze je jejich pristup pokrocilejsi. Nvidia pravdepodobne ve svych labech vyzkousela mnoho zpusobu, jak tu technologii nekam posunout. My se o tom ale nikdy nedozvime. Pointa je, ze se nakonec rozhodli prejit na jiny, vyhodnejsi design. A dnesni urovne vykonu, kdy Nvidia drti AMD v DX11 (s velkym naskokem) I v DX12 (porad s naskokem, I kdyz uz mensim) jim dava za pravdu.