Intel ukázal highendové GPU Xe HP: „jeden z největších čipů“, provedení do socketu LGA

53

Zkraje roku Intel na CES 2020 představil první samostatnou grafiku Xe DG1 ve formě karty do slotu PCI Express, určené vývojářům softwaru. Tehdy se ještě nepoštěstilo vidět samotný čip (příjemci pravděpodobně podepisují NDA). To však asi nastává nyní. Přímo Intel publikoval fotku, na které zřejmě je přímo samotné GPU – ovšem ve výkonnější serverové/výpočetní verzi.

 

Highendové GPU Xe HP v socketovém pouzdru

Podobně jako před časem, kdy na Twitteru ukazoval wafer s vyrobenými GPU, stojí za tímto asi opět boss GPU v Intelu Raja Koduri. Sociální účet Intel Graphics publikoval prvního května obrázek čipu – respektive pouzdra opatřeného rozvaděčem tepla. Ten sice vypadá jako procesor (zejména Xeon), ale ve skutečnosti zde bylo ukázáno GPU. Jednak vzhledem k účtu, který tweet publikoval (i s hashtagy, kterými provází všechny tweety o grafickém počínání firmy), dále k tomu, že takto žádné CPU nevypadá a zejména proto, že na tento tweet pak reagoval právě Raja Koduri.

Raja Koduri k fotce přidal, že jde o „baap of all“, což v kombinaci hindštiny a angličtiny zřejmě znamená něco jako „taťka všech“ [míněno asi všech GPU] se zmínkou o výpočtech ve formátu Bfloat, které používají AI akcelerátory.

S tímto se tedy můžete pokochat: na fotkách je poměrně velké pouzdro (můžete si udělat představu podle tužkové baterie na fotce), v němž bude čip/čipy a zřejmě paměti HBM2, obojí nejspíše propojené pamětí EMIB. Napájecí kaskáda se nejspíš nachází vně, na desce okolo speciálního socketu typu LGA, do kterého se pouzdro osadí. Nejde myslím o existující socket (ani LGA 3647, ani LGA 4189 nebo LGA 4677 pro Xeony – i když kontakty jsem nepočítal). GPU by mohlo mít socket vlastní. Kovový IHS sice kryje čip nebo čipy, ale všimněte si SMD součástek na spodku, které tvoří čtyři stejné segmenty. Toto by teoreticky mohlo odpovídat použití čtyři kusů stejného křemíku uvnitř, tedy že by zde šlo o MCM/čipletové GPU podobné koncepci Threadripperů nebo Epyců u AMD. Informace, že by Intel mohl v první generaci GPU použít spojení čtyř čipů, se už objevila dost dávno.

Intel Twitter Xe HP GPU
GPU Intel Xe HP, fotka publikovaná na twitteru Intel Graphics

Koduri prozradil v jiném tweetu, že tímto označením říkají zaměstnanci vývojového centra Xe HP v Bangalore čipu, jenž „je zřejmě největším křemíkem, který kdy byl navržen na území Indie a patří k těm největším vůbec“. Opět je zde tedy zmínka o Xe, čili GPU.

Pokud jde o jeden z největších křemíků vůbec, pak se zřejmě pohybujeme někde mezi 600–800 mm². A pokud jsou tyto použité čtyři, pak může výsledek mít dohromady kolem 3000 mm², což by muselo dodávat velmi vysoký výkon. Samozřejmě s ohledem na limitaci spotřebou. I při 400–500W TDP by na jeden takto velký čip připadalo jen omezujících 100–125 W. Je ale možná i interpretace, že oněch 600–800 je souhrnná velikost všech čtyř čipů. Je pravda, že circa 100 až 125 W na zhruba 200mm² čiplet asi dává větší smysl, ale zase nechceme Intel podcenit.

Viz: Grafické karty Intel Xe „Arctic Sound“: Až 4096 shaderů, HBM2 a PCIe 4.0, TDP až 500 W

Druhá varianta by mohla sedět k tomu, že Xe HP bude mít 128 čili 1024 shaderů na jeden čiplet (celkem 4096), jak se dříve spekulovalo. Pokud by samotný jeden čiplet měl onu obří velikost, pak by seděla spíš optimistická alternativní interpretace, že 4096 shaderů obsahuje ve skutečnosti jediný čiplet, takže pro celé čtyřčipové monstrum je to 16 384). Uvidíme, co z tohoto se potvrdí.

Slajdy ke GPU Intel Xe Arctic Sound zdroj Digital Trends 01
Slajdy ke GPU Intel Xe Arctic Sound, které unikly v únoru 2020, hovoří o čtyřčipletové konstrukci (Zdroj: Digital Trends)

Na trh by se toto GPU mělo dostat ještě letos, takže moc dlouho už snad záhadou nezůstane. Jde ale zřejmě o produkt čistě pro servery, ne o herní GPU. Intel by na stejném křemíku (třeba s použitím jednoho čipletu místo čtyř) ale mohl nějaké klientské a potenciálně herní grafiky vydat, úniky tuto možnost i zmiňují, jen ale asi budou vypadat jinak.

Intel se prý zpočátku soustředí na integrované a levnější GPU

Koduri také nyní zatweetoval, že se Intel momentálně soustředí na integrované GPU (Xe v procesorech Tiger Lake bude mít 96 EU/768 shaderů) a na samostatné grafiky ve výkonnostních segmentech hned nad integrovanými.

To by mohlo sedět k oněm 128 EU/1024 shaderům, o nichž se už jednou objevila informace dříve. Ale zatím není potvrzené, zda spotřebitelské GPU Intel Xe a datacentrové GPU Xe HP byly založené na stejných čipletech, takže není jasné, zda na tomto můžeme zakládat nějaké úvahy.

Tipněte si: kolik bude mít špičkové serverové GPU Intel Xe HP mít EU/shaderů?

Speciální provedení místo karty PCIe může mít strategický význam

To, že je GPU Xe HP v provedení do proprietárního socketu, má technologické nevýhody i výhody. Nelze ho instalovat bez toho, aby na to deska byla speciálně připravená (ovšem je možné, že verzi do slotu má Intel také vyvinutou), ale zase se může usnadnit chlazení. Tato proprietární řešení, jaké má také Nvidia v podobě modulů SXM, v nichž vyrábí GPU Tesla, jsou pro výrobce zajímavé ale i tím, že fungují jako háček na zákazníky. Pokud jednou prodáte desku nebo server, který je stavěn na takováto GPU, nebude provozovatel moci vaši produkci nahradit za konkurenční GPU nebo jiný akcelerátor, ať už ASIC pro neuronové sítě, FPGA nebo jiný. A podobně, pokud přesvědčíte OEM výrobce k tomu, aby server založili na této technologie a místo slotů PCIe do něj přichystali sloty/sockety pro podobná speciální provedení grafik, máte tím zase zajištěné to, že zákazníci budou muset nakupovat vaše GPU. Což pak znamená možnost vyšších cen díky eliminaci konkurence.

Nvidia Tesla V100 s čipem GV100, modul SXM2

Intelu se takto může podařit prosadit vlastní GPU a poměrně rychle dostat významné tržní podíly, ačkoliv začíná jako outsider v sektoru, kde by normálně mělo být obtížné se prosadit proti zavedené konkurenci. Ale Intel má velkou schopnost určovat chování trhu skrze dominanci serverových CPU Xeon. To ukázala třeba situace, kdy konkurenční procesory AMD Epyc vzdor vyšší energetické efektivitě a výkonu nezískávají výrazné prodeje a trh jako by se jim skoro bránil, ačkoliv by tyto vlastnosti dle dřívějších pozorování měly být rozhodující. Pokud by se Intelu podařilo dosáhnout pomocí bundlů nebo jiných pobídek, aby toto provedení akcelerátorů bylo použito u důležitých serverů velkých výrobců, dokázal by prosadit svoje řešení GPU pomocí tohoto spojení a uchytit se na důležitém novém trhu.

Zdroje: Intel/Twitter (1, 2, 3, 4), VideoCardz

Galerie: Foto a uniklé dokumenty ke GPU Intel Xe HP

Intel ukázal highendové GPU Xe HP: „jeden z největších čipů“, provedení do socketu LGA
Ohodnoťte tento článek!
4.8 (96.67%) 12 hlas/ů

53 KOMENTÁŘE

    • Historie se opakuje. Tynyt pindá. Zatím to vypadá, že integrovaná grafika v Tiger Lake bude cca na úrovni integrované grafiky v Renoiru. Tedy ta samostatná, s výkonem kousek nad integrovanou, kterou budou párovat se 14nm notebookovými čipy, ji pravděpodobně s přehledem překoná.
      A že integrovanou grafiku překoná i ten čip, o kterém je článek, by asi nemusel pochybovat nikdo.
      Já vůbec netvrdím, že Xe bude nějaký extra úspěch. Na to je totiž potřeba víc, než jen nějaký hrubý výkon. Ale přijde mi dost divné se navážet do něčeho, o čem toho moc nevím.

      • https://www.cnews.cz/intel-gpu-architektura-xe-samostatne-graficke-karty-10nm-tigerlake-odhaleni

        Tak až to “zatím vypadat přestane” a půjde koupit grafiku, která jak tvrdíš bude lepší než Renoir. Zatím je tedy venku jen tato newska: https://www.svethardware.cz/unikaji-benchmarky-intelu-xe-v-tiger-lake-je-lepsi-nez-amd-vega-8/51647 která ovšem ukazuje, že Intel má problémy se spotřebou, takže aby dosáhl srovnatelného grafického výkonu, musel zásadně omezit ten procesorový – tak to mezi řádky čtu já. Nevíme, jakou bude mít spotřebu, ale tipnu si, že s ohledem na ST výkonovou mantru si Intel nedovolí vydat Tigera na směšných 2,8GHz – což zase znamená buď zásadní snížení grafického výkonu, NEBO nesmyslně vysokou spotřebu.

        Za mě se teda žádná konkurence pro Renoir nekoná. A pokud se bavíme o řešení s dedikovanou grafikou, tak potom Renoir s libovolnou adekvátní nvidií, nebo lépe RDNA GPU (kde lze čekat lepší provozní vlastnosti díky lepšímu provázání platforem) intelí řešení rozmázne.

        edit: a to už ani nezmiňuju, že Cezanne je na cestě…

        • A zase pindáte. Co do toho taháte nějaký procesorový výkon? Tam je snad jasné, že čtyřjádro Tiger Lake je horší, než osmijádro Renoir. A že 15W APU, ať už od Intelu nebo AMD (všechno v libovolné generaci) nedokáže současně zatížit na maximum CPU i GPU část, je snad jasné naprosto každému, evidentně s výjimkou vás.
          Tedy o jaké integrované grafice, co nemá žádný problém tu Xe překonat, mluvíte?

          • Ze celkem slušného a korektního Holečka se stal tlučhuba. To IT dění má nějaký neblahý vliv na jedince. Za chvíli bude sprostý jak špaček, ale pořád si bude hrát na to, že je nejchytřejší… škoda ho. (a nebo to dělají ty jeho nakoupené akcie Intelu, kdy za každou cenu chce Intel vidět v záři reflektorů).

            • Mě by bohatě stačilo, kdyby tady trotlové nelhali, až se jim práší od huby. A je jedno z jakého tábora. Stačí se podívat, že se tu zastávám i AMD, naposledy pod článkem o Comet Lake.
              Jako akcionář nepředpokládám, že by grafiky začaly Intelu vydělávat tak, aby to bylo na financích znát. A naopak, i kdyby to byl naprostý propadák, což se klidně stát může, opět to nebude mít nějak výrazný dopad na jeho hospodaření.
              Z mého pohledu je dobře, že Intel do grafik jde. A stejně tak je dobře, že AMD konečně vyrukovává s Renoirem. A možná vás to překvapí, ale grafiku od Intelu si s velkou pravděpodobností nekoupím (současná GT 1030 mi na to, co na počítači dělám, úplně v pohodě stačí), zatímco notebook s Renoirem si pravděpodobně koupím (každý rok v rámci obměny kupujeme do rodiny jeden, takže předpokládám, že letos tak v září, by to mohlo být něco s Renoirem.

            • tynyt:
              Jsem rád, že se srovnáváte s mvladarem. A samozřejmě, že na něj reaguju. Třeba u toho článku o Comet Lake, kde lhal o tom, že Comet Lake je základ nejlepší současné herní sestavy.

            • Právě naopak, vidím tady jeho výkřik, který nijak nedoložil a žádnou tvou reakci.

              Já mám na svůj názor podpůrné argumenty, které jsem sem i dal.

              A tím tuhle nesmyslnou diskusi plnou invektiv z tvé strany končím.

          • Procesorový výkon se s grafickým výkonem podílí na TDP celého čipu. Tudíž pokud upřednostním výkon grafiky, je celkem jasné, že to 4C bude třít bidu na nízkých frekvencích. To je můj vzkaz, který jsi tak trochu nepochopil. Celkem logicky, pokud je turbo podvázané, nebo úplně vypnuté, je pak daleko větší příkon, a tedy výkon, vyhrazen grafice.

            Chápu že jsi nervózní a nakrknutý, a tak ti tvé invektivy promíjím.

            • Prozradím vám tajemství. Když si spustíte nějaký grafický benchmark, tak zjistíte, že CPU nevytěžuje na 100 %. Protože kdyby vytěžoval CPU na 100 %, neměří se výkon grafiky, ale výkon CPU.
              Takže než se začnete ohánět logikou, zkuste ji nejdříve použít.

            • Ježiš, díky. To jsem fakt nevěděl. Takže když běží grafický bench, tak CPU je vytížený na 0%?

            • tynyt:
              Počítače sice pracují v binární soustavě, ale opravdu to neznamená, že když procesor neběží na 100 %, že běží na 0 %.

            • Aha, aha. A co teda znamená těch 100%? A když CPU neběží na 0%, tak běží třeba na 50%, ale čeho? Není to třeba dostupný power budget? A není pravda, že s rostoucí frekvencí roste energetická náročnost?

        • “která ovšem ukazuje, že Intel má problémy se spotřebou, takže aby dosáhl srovnatelného grafického výkonu, musel zásadně omezit ten procesorový – tak to mezi řádky čtu já.”

          To je IMHO moc předčasný závěr, u těch unikajících vzorků se můžou dít různé divnosti a pokud si vzpomínám, tak byl zase i uniklý test v 3dmarku nebo něčem, kde měl Renoir taky vysoké GPU a vysoké CPU skóre, ale špatné kombinované skóre, což implikovalo, že bylo špatné řízení taktů a GPU moc omezovalo CPU ve spotřebě nebo naopak.

          S takovýmahle výkladama je třeba počkat, až to vyjde a budeme opravdu vidět, jak to reálně funguje. Ne vyjít z nějakého střípku měřeného na ES, který vůbec nemusí být typický, a pak to extrapolovat jako absolutní pravdu o těch procesorech.

          • To beru, ale podstata přece zůstává stejná: když se zmixuje potřeba výkonu CPU i GPU, bude přece výsledný výkon GPU části nižší. Na jednu stranu se tu řeší body a “fakt” že ES vyrovnal Renoir bez jakéhokoli dalšího komentáře, na straně druhé tu RH prohlásil že “pindám” protože jsem zpochybnil validitu takového výsledku.

            • I Renoir sdílí TDP mezi CPU a GPU… jestli to u jednoho nebo druhého vede k problémům, bych fakt nechal na recenze a ideálně ještě chvíli potom, až bude těch zkušeností víc.

            • Milý tynyte. Naučte se číst. To, že pindáte jsem vám napsal na vaše prohlášení, že Xe grafiku nebude mít soudobá integrovaná grafika v APU žádný problém překonat. Tohle prohlášení jste si vycucal z prstu a nepodložil ho vůbec ničím. Jediný odkaz, který jste uvedl, ukazuje pravý opak, tedy, že ta grafika překonána byla.
              Já jsem ovšem vážil slova a netvrdil jsem, že ta integrovaná grafika Xe je rychlejší, psal jsem, že bude na cca stejné úrovni, jako grafika v Renoiru, protože pár procent z jednoho benchmarku samozřejmě nic neznamená.
              Jinak to vaše mixování CPU a GPU části bude v rámci jednoho benchmarku konstantní. Prostě je tam nějaký CPU kód, který dokolečka volá nějaké GPU funkce. Když zvýšíte výkon CPU a snížíte výkon GPU, tak samozřejmě výrazně klesne výsledné skóre (tolik teorie). Ovšem jelikož při benchmarku běží typicky jen ten benchmark, tak nastane to, že ta CPU část stejně čeká na tu odpověď od GPU a tedy nic nedělá (a moc nežere) a na GPU tedy zbývá více energie, pomocí které může zvednout svůj výkon. Na opačné straně bude nějaký minimální výkon CPU, pod který už by začalo klesat výsledné skóre, protože by CPU nebylo schopno zásobovat GPU daty.
              Vy si myslíte, že chudáček Renoir nedosáhl takového výsledku, protože jeho CPU bylo vytíženo více, než CPU toho Tiger Lake. Ale to je technicky nemožné. To CPU musí zásobovat GPU daty. A čím víc dat GPU zpracuje, tím víc dat musí CPU dodat. Tedy, jestliže byl výsledek Tiger Lake lepší, znamená to, že jeho CPU vykonalo více práce (zpracovalo více instrukcí) ne naopak.

            • JO: ale samozřejmě že Renoir sdílí powerbudget. Jde o to, že zvládá obojí zároveň, tj. dodat poměrně dobrý výkon jak CPU, tak GPU.

              Holeček: tak tedy ještě jednou, a doufám, že už naposled. Výsledky toho ES nelze považovat za směrodatné, protože rozhodně není pravda, že při běhu grafického benchmarku běží jen GPU a CPU běží v nějaké triviální smyčce, naopak je tam poměrně velký vliv, který dokáže limitovat na výkonu výkonnější grafiky tak, že pak GPU score neodpovídá. Stejně tak, tento test běží v OS, ve kterém běží další aplikace, TUDÍŽ je naprosto směšné předpokládat, že CPU zastaví všechny ostatní aplikace a bude se věnovat pouze benchi. Z toho plyne poměrně jasný vzkaz: CPU, který bude uměle omezen na frekvencích, nebude boostovat kvůli zátěži, kterou mu cpe scheduler, a bude naopak sice pomalejší, ale díky tomu bude schopen alokovat více dostupné energie pro GPU, a tedy bude výsledek benche paradoxně lepší, protože ten zatěžuje primárně grafiku. V reálném světě ovšem bude takový setup dělby příkonu úplně k ničemu, protože Intel CPU na směšných 3GHz bude o velké desítky procent pomalejší než konkurence, což zase znamená, že tahle krásná čísla z benchmarků jsou jen virtuální realita, protože Intel ten procesor v takovém nastavení zcela určitě nevydá. Stačí se podívat, co se děje s frekvencemi, příkonem a teplem u dnešních mobilních CPU při mírně delší zátěži. Jinými slovy, ten bench o kterém je řeč uměle přiškrtil CPU odhadem o více než 50%.

    • Princip Larrabee byl v tom, že GPU bylo postavené na x86 architektuře, tedy programovalo se stejně, jako x86 CPU. To se ukázalo nevýhodné ze dvou důvodů. Jednak nebylo moc těch, kdo na tom chtěli programovat a druhý důvod byl ten, že když už na tom někdo něco programoval, tak k tomu přistupoval jako k jednoduchému GPU, tedy nevyužíval ani zdaleka všech možností té architektury.
      V tomhle je ta Xe architektura úplně jiná (daleko primitivnější, ale daleko blíže tomu, co nabízí konkurence).

      • a stejně se ukáže, že Xe je opět pozdně příchozí. Intel grafiky nikdy pořádně neuměl, navíc se s nimi snaží segmentovat trh CPU, což je další hřebíček do rakvičky intelích GPU, taková IrisPro byla tímto zcela zazděna.

          • “Intel grafiky nikdy neuměl, proto největší procento počítačů běží na intelácké grafice, co?”
            .. tohle se opravdu neda brat jako argument, kdyz vyjma HEDT a serveru, je v desktopu drtiva vetsina Intelovskych CPU ve skutecnosti APU, ktera se pouzivaji vetsinove jako ‘zobrazovadlo’… 🙂

            Jinak uvidime, IceLake grafika neni spatna. XE muze byt jen lepsi (aspon doufam) 😉
            Larabee byl opravdu propadak, co se tyce komercniho nasazeni…tady Intel i pres zajimavy koncept, uplne pohorel.

            • Ano, grafika je zobrazovadlo. A doby, kdy Intelácká grafika, tenkrát ještě v čipsetech, nezvládala nic jiného, než to zobrazování a měla obrovské problémy s ovladači, jsou už dávno pryč. Dnešní grafiky nejsou žádní trhači asfaltu, ale už se prakticky nestává, že by jim nějaká hra či jiná aplikace schodily ovladač. Naprostou většinu her rozjedou, byť na málo FPS. A proti tomu stačí jediné – zvýšit výkon.
              Propadáků měl Intel hafo. A ještě mít bude. V podstatě je to pozitivní, protože když se to nezkusí, nezjistí se, že to nejde. O tom by mohl vyprávět Google, který už zařízl několikanásobné množství služeb, než se jich nakonec uchytilo.

            • V podstate souhlasim, jen ta jedna veta neni tak jednoudcha..”A proti tomu stačí jediné – zvýšit výkon.” .. vzhledem k tomu, ze na to potrebujete vetsinou novou vykonejsi architekturu a/nebo lepsi+vykonejsi proces, tak zase tak jednoduche to neni. Ty ovladace pro novou architekturu musite minimalne upravit nebo i castecne prepsat, takze to bude zase stat nejaky cas.
              On kdyz loni vysel IceLake, tak i presto, ze to byla “jen GT na steroidech”, tak ze zacatku to v nekterych hrach melo problemy. Dneska myslim, ze to uz Intel vychytal, ale nejaky cas mu to taky trvalo.

      • Larabee byl zajimavy koncept, bohuzel neschopny komercniho nasazeni.
        Pokud si to vzpominam dobre, tak jeden z hlavnich problemu Larabee byl i v tom, ze to melo spatny pomer vykon/spotreba. Krome toho v dobe realneho uvedeni na trh, uz to bylo vykonove zastarale a neschopne konkurence.

  1. Kdo ma zajem zkouknout vykon ve hrach tak tady srovnani IceLake (22W TDP), Picaso (20W TDP) a Renoir (20W TDP)
    Prekvapive 😉 je v 5 z 5 testovanych her je Renoir (pokud sjem neco neprehledl) vyrazne rychlejsi i pres o chlup vyssi TDP IceLake 😉
    Pameti byli u IceLake a Renoir pouzite stejne, takze se da rict, ze minalne v tomto vzorku her a konfiguraci GK je Renoir podstatne lepsi.
    https://www.youtube.com/watch?v=Q4_EJ9f96rE

  2. Hmm, teď jsem viděl, že to pouzdro má podle odhadů okolo 3700 mm².

    Já si teda hned říkal, že 4 × 600-700mm² křemík by asi nemohl v jednom pouzdru být, když si vezmu, jak vypadá po delidu Xeon W-3175X, tak je jasný, že takhle veký křemíky by nejspíš kolem sebe měly víc volnýho místa a to pouzdro by musela být ještě větší lopata. https://cdn.mos.cms.futurecdn.net/bPHbyaFsMCKURfKXMApFKf-1200-80.jpg

    Takže buď to není čtyřčipletové kombo, nebo mi z toho vyplývá, že ty čiplety budou spíš celkem malé, a tudíž těch 4096 shaderů na jeden čiplet (krát čtyř) nejspíš není možné. Tak si jdu připojit do ankety a tipnu těch 4×128 EU, uvidíme, jak ta intuice dopadne 😀 Původně jsem se k tomu taky trochu klonil vzhledem k těm údajným spotřebám – provozovat 3000 mm² na 500 W je trošku plýtvání křemíkem, holt jsem udělal chybu, že jsem tu velikost nezkoušel odhadnout.