Intel vydává poslední Xeony Phi, se 4× výkonem v AI výpočtech. Potichu, bez fanfár

20. 12. 2017

Nedávno vyplynulo na povrch, že Intel podle všeho zrušil svůj program mnohojádrových výpočetních (ko)procesorů Xeon Phi, který vznikl na základě linie čipů Larrabee původně zamýšlených jako hybridní GPU s architekturou x86. Příští 10nm generace Knights Hill již nevyjde, částečně asi proto, že ji zabilo několikeré opoždění tohoto výrobního procesu, dílem se asi Intel rozhodl vůbec změnit architektonickou koncepci, se kterou na sektor HPC bude mířit. Ovšem přes to, že je tím DNA Xeonu Phi asi odsouzena k záhubě, ještě neřekla poslední slovo. Intel nyní potichu vydal čip Xeon Phi „Knights Mill“, jenž je po zrušení Knights Hillu zřejmě finálním výhonkem této evoluční větve.

Čip Knights Mill je stále 14nm, byl totiž do roadmapy přidán později jako specifické řešení pro výpočty umělé inteligence, pro které je speciálně uzpůsoben, zatímco ostatní Xeony Phi mají za účel zejména vědecké výpočty a tradiční HPC úlohy s vysokým výkonem v dvojité přesnosti (F64). Knights Mill vychází z architektury Knights Landing (příbuzné s Atomem Silvermont, ale s velkými úpravami, například čtyřvláknovým HT) a zachovává jejích 72 jader, vysokorychlostní 16GB integrovanou paměť MCDRAM a šestikanálový řadič pro paměti DDR4. Má však výpočetní jednotky a instrukční sadu AVX-512 přepracovánu pro operaci s 16bitovými hodnotami a podstatně vyšším výkonem v těchto operacích, zatímco výkon v FP64 byl okleštěn.

Modely: 250–320W spotřeba

Xeon Phi Knights Mill byl vypuštěn na trh poněkud zvláštně. Intel k němu ani nevydal tiskovou zprávu, čipy se místo toho jen potichu objevily v databázi ARK. Měly by ale tímto být oficiálně vydány, partnerům jsou již dostupné. V sestavě jsou celkem tři modely: základní Xeon Phi 7235 začíná s 64 jádry, 32 MB L2 cache a taktem 1,30–1,40 GHz. Jeho omezením je kromě toho ještě podpora jen 2133MHz pamětí DDR4. Druhý model Xeon Phi 7285 má jader aktivních 68 (34 MB L2 cache) a stejné frekvence, ale již umí i 2400MHz paměti DDR4. Oba tyto čipy mají TDP 250 W. Nejvyšší model Xeon Phi 7295 se všemi 72 jádry aktivními má 36 MB L2 cache, frekvenci už 1,50–1,60 GHz, avšak jeho TDP se zvýšilo na 320 W. Mělo by asi jít o procesor se zatím nejvyšší hodnotou spotřeby na výchozích taktech, jaký kdy Intel vydal.

Modely Xeonu Phi Knights Mill

Těmito modely se zatím řada Knights Mill vyčerpává. Jsou všechny určené do socketu LGA 3647 jako samostatné procesory. Zda Intel uvede koprocesorovou verzi ve formě karty pro slot PCI Express (která by se hodila pro nahuštění více těchto akcelerátorů, jak se to v serverech pro strojové učení dělá), není známo, pro Knights Landing totiž tyto modely náhle zrušil. Žádný ze známých modelů také nemá integrovánu podporu pro propojovací logiku Intel OmniPath.

Změny vektorové jednotky

Již jsme zmínili, že ona adaptace čipu Knights Mill pro strojové učení („umělou inteligenci“) spočívá v úpravě vektorových výpočetních jednotek. A ta je docela zásadní. Knights Landing měl pro každé ze svých jader vektorovou jednotku s dvěma porty, které dokázaly za takt provést po jedné 512bitové instrukci FMA (512bitový vektor pracuje najednou s osmi 64bitovými hodnotami či šestnácti 32bitovými).

Organizace vektorové jednotky u architektury Knights Landing (vlevo) a Knights Mill (vravo)

Quad FMA

Čip Knights Mill má stále dvouportovou jednotku ACX-512, ale její schopnosti jsou značně odlišné. Jen na jednom z portů je FPU/ALU pro operace FMA s dvojitou přesností (proto poloviční výkon v FP64). Hlavními klienty těchto dvou portů jsou totiž dvě jednotky pro instrukce AVX-512 nad 32bitovými a 16bitovými hodnotami. V FP32 byl výkon při stejném počtu jednotek naopak zdvojnásoben. Používá se k tomu operace, které Intel říká QFMA (Quad FMA) a jde vlastně o zřetězení čtyř FMA za sebou, kdy se výsledek jedné FMA hned použije jako činitel pro následující FMA (vstupy pro její součtovou část jsou ale nezávislé). Vykonávání je rozděleno do dvou průchodů jednotkou (v každém jsou zřetězené dvě operace FMA), což Intel označuje jako „double-pumping“ jednotek AVX-512.

Instrukce QFMA: čtyřnásobné zřetězené FMA v rámci AVX-512

Tuto operaci přitom jednotka dokáže stále provádět rychlostí jedna instrukce za každý druhý takt (kvůli doble-pumpingu), čímž je dosaženo dvojnásobného celkového výkonu proti jednotlivým FMA. Operace QFMA má však kvůli dvěma průchodům výrazně delší latenci než standardní FMA, takže kód vyžaduje určitou úroveň paralelizovatelnosti skrze vykonávání instrukcí mimo pořadí (tzv. „ILP“), aby nedocházelo k prostojům. K využití výpočetních prostředků ovšem pomáhá i onen čtyřcestný Hyper Threading – čtyři vlákna naráz dokáží jednotky saturovat i při poměrně velkém množství „bublin“ způsobených datovými závislostmi v kódu.

Srovnání pipeline pro výpočet běžné FMA a QFMA. QFMA je provedeno ve dvou průchodech jednotkou

Jelikož jde ale o čip pro strojové učení, není výkon v FP32 to hlavní, neboť pro tyto operace se využívají menší datové typy. Knights Mill proto podporuje výpočty s 16bitovými hodnotami, kterých se do 512bitového vektoru vejde dvojnásobek (tedy 32) a tím pádem s nimi čip dosahuje dvojitého teoretického výkonu. V kombinaci s instrukcemi QFMA by tedy výkon měl být čtyřnásobný proti čipu Knights Landing – který dosahuje v jednoduché přesnosti něco přes 6 TFLOPS. Pokud dobře počítám, pak při maximální frekvenci by nejrychlejší Knights Mill, model Xeon Phi 7295, měl dosahovat okolo 1,63 TFLOPS v FP64, ve výpočtech se standardní přesností FP32 při použití QFMA pak 13 TFLOPS (běžné AVX-512 FMA dává 6,5 TFLOPS). V 16bitových výpočtech by to tedy mělo být 26 T(FL)OPS. Jde o čísla zhruba srovnatelná s Radeonem Instinct 25 od AMD (výkon je o něco vyšší, spotřeba ale také), ale horší než u Tesly V100 od Nvidie, která může vyvinout podstatně vyšší výkon při použití speciálních bloků Tensor Core.

Slajd k instrukcím VNNI-16

Instrukce VNNI-16

Pro 16bitové výpočty však Knights Mill nepoužívá přesnost FP16 (floating point), ale celočíselné 16bitové hodnoty (INT16). Výpočty s nim jsou implementovány v instrukcích VNNI-16, což je opět nový subset AVX-512 („AVX512_4VNNIW“). Jejich specialitou je, že výsledky jsou ukládány s přesností INT32, případně lze INT32 použít také pro násobící člen v operaci FMA s 16bitovými sčítanci. Tento subset instrukcí bude ale zřejmě čistě specialitou Knights Millu, Intel jej alespoň zatím nehodlá přenést do ostatních architektur. Totéž platí pro QFMA (tento subset má označení AVX512_4FMAPS).

Vstoupit do diskuse (3 názory)

Jan Olšan

Redaktor portálu Cnews.cz. Zaměřuje se na procesory, mobilní SoC, grafické karty, disky a další počítačový hardware. Profil autora →

Témata:

Aha, já se domníval, že je to myšleno jako anglické "tops" ve smyslu maxima. Takže jde o tera operací za sekundu. OK, díky za upřesnění.

bez přezdívky

Sdílet

Modely: 250–320W spotřeba

Změny vektorové jednotky

Quad FMA

Instrukce VNNI-16

Autor článku

Jan Olšan

Témata:

Anketa

Má podle vás Mironet právo na odškodné?

Kvíz týdne

Nvidia dává ke grafickým kartám zadarmo Jamese Bonda. A tentokrát i k levnějším modelům

Alza slaví rok prodeje vlastních filamentů pro 3D tisk. A jak jinak, než limitovaným 1#Anniversady edition Alzamentem

Chromebooky už nejsou in. Nové Google počítače Googlebook sázejí na Android, prémiový hardware a hloubkovou AI

Garmin má nové nejlevnější běžecké hodinky Forerunner, výrazně posouvají možnosti low-endových modelů

Procesory Intel dostanou zpátky inovaci, s kterou přímo konkurovaly čipům Applu: On-Package Memory

Epic chystá velké rozdávání her. V květnovém výprodeji můžou být zadarmo i velké AAA tituly

Microsoft chystá turbo režim pro Windows 11. Aplikace i systémové nabídky mají zrychlit až o 70 %

Xbox řeší průšvih kolosálních rozměrů, na Steamu unikla Forza Horizon 6. Ihned vzniknul crack a hratelná verze

Evropa už brzy spustí vlastní sociální síť W. Slibuje soukromí bez sběru dat, chce ale vaši občanku i selfie

Nový úsporný Radeon na cestě: RX 9050 bude nejlevnější grafikou, s níž dostanete FSR4

Intel vydává poslední Xeony Phi, se 4× výkonem v AI výpočtech. Potichu, bez fanfár

Sdílet

Modely: 250–320W spotřeba

Změny vektorové jednotky

Quad FMA

Instrukce VNNI-16

Autor článku

Jan Olšan

Témata:

Anketa

Má podle vás Mironet právo na odškodné?

Kvíz týdne

Nejnovější články

Nvidia dává ke grafickým kartám zadarmo Jamese Bonda. A tentokrát i k levnějším modelům

Alza slaví rok prodeje vlastních filamentů pro 3D tisk. A jak jinak, než limitovaným 1#Anniversady edition Alzamentem

Chromebooky už nejsou in. Nové Google počítače Googlebook sázejí na Android, prémiový hardware a hloubkovou AI

Garmin má nové nejlevnější běžecké hodinky Forerunner, výrazně posouvají možnosti low-endových modelů

Procesory Intel dostanou zpátky inovaci, s kterou přímo konkurovaly čipům Applu: On-Package Memory

Epic chystá velké rozdávání her. V květnovém výprodeji můžou být zadarmo i velké AAA tituly

Microsoft chystá turbo režim pro Windows 11. Aplikace i systémové nabídky mají zrychlit až o 70 %

Xbox řeší průšvih kolosálních rozměrů, na Steamu unikla Forza Horizon 6. Ihned vzniknul crack a hratelná verze

Evropa už brzy spustí vlastní sociální síť W. Slibuje soukromí bez sběru dat, chce ale vaši občanku i selfie

Nový úsporný Radeon na cestě: RX 9050 bude nejlevnější grafikou, s níž dostanete FSR4

Dále u nás najdete

Prodal byt, aby mohl pražit. Dnes má jednu z nejlepších káv v Evropě

Počet sledujících je přežitek. Hledejte brand fit, radí odbornice

Končí lhůta pro elektronická přiznání za rok 2025. Čtěte souhrn všeho potřebného

Cukrovka není jen o cukru. Když život strávíte v masně, hrozí taky

Přílišně sebevědomí v oblasti kyberbezpečnosti může uškodit

U EET musíte nahlásit provozovny, kde přijímáte neevidované tržby

CreditShare míří na drobné investory, úvěry vybírá přísně

V Česku se budou řešit „zabijácké akvizice“

Lékaři zdarma vyšetří znaménka. Kdy a kam přijít?

Při přípravě newsletteru můžete nativně konzultovat s AI

Deepfake videa útočí. Falešný je hlavně Donald Trump

Pro koho je vhodná alergenová imunoterapie?

Počet technologických jednorožců na světě se blíží dvěma tisícovkám

Měkké neznamená zralé. Takhle poznáte chutné avokádo

AI agent, který vás pomluví, a další, kteří kradou hesla

Stát hodil školy přes palubu. Ty teď řeší, kde vzít na povinné plavání

Ukládání dat v EU láká. Půlka českých firem by za to připlatila

Zdanění kryptoměn: kam v přiznání patří a na co dát pozor?

Kyberhrozby v ČR mění tvář, průniky do systémů vytlačují DDoS

EET 2.0: Neopakujme chyby, které nás minule stály klid i peníze