Datum (1. 4.) je dnes poněkud rozpustilé, ovšem v kontrastu s tím tu máme velice seriózní, ba i vážný počin. Intel totiž včera uvedl Xeony E5–2600 v4, kódově označované Broadwell-EP. Jedná se o vůbec první vysoce výkonné serverové procesory založené na 14nm procesu. Doposud měl totiž Intel kromě základních Xeonů E3 (což je přeznačený desktop) a úsporných SoC Xeon D svou hlavní a nejvýnosnější serverovou řadu Haswell-EP stále na 22nm procesu. Tedy v podstatě technologii procesorů Ivy Bridge z roku 2012. Nový 14nm proces s čipy Broadwell-EP tedy může přinést velké pokroky pro uživatele a samozřejmě i pro Intel.
Prvním a nejhmatatelnějším
přínosem nového výrobního procesu je zvýšení počtu jader.
V nejvyšší konfiguraci jich přibyla třetina, z 18
u generace
Haswell-EP vydané v Q3 2014 se Intel s Broadwellem-EP
dostává na 24 jader. Ovšem s tím zádrhelem, že dnes vydané
modely řady Xeon E5–2600 v4 pro dvouprocesorové sestavy plného
počtu nevyžívají. Maximální model končí na 22 jádrech, čímž
se náskok na 22nm generaci zmenšuje na čtyři jádra k dobru.
Model s 24 jádry bude zřejmě dostupný jen v řadě Xeon
E7, založené na stejném křemíku.
K tomu mají tato CPU v záloze
architektonická
zlepšení jader Broadwell, jejichž IPC je dle úlohy obvykle až
o 3 % lepší než u Haswellu (Intel uvádí zlepšení
o 5 %, v praxi je ale obvykle procento nižší). Pro
asymetrické šifrování jako RSA má Broadwell přidány instrukce
ADCX a ADOX pro aritmetiku s libovolnou přesností.
Broadwell-EP také má konečně funkční instrukce TSX, které byly
uvedeny u Haswellu, ale poté zablokovány
kvůli chybě v návrhu čipu. Navíc jen pro Broadwell-EP
byla zvýšen výkon instrukce PCLMULQDQ (násobení bez přenosu),
propustnost této operace vzrostla na dvojnásobek, což urychlí
symetrické šifrování AES údajně o 20–25 % a CRC
až o 90 %.
Tři verze křemíku
Broadwell-EP se bude vyrábět ve třech
verzích čipu s různou velikostí. Největší s 24 jádry
má mít zhruba 456 mm², 7,2 miliardy tranzistorů a jádra
má uspořádána v dvou prstencových sběrnicích, kde každý
má po dvou šestičlenných sloupcích. L3 cache je po blocích
distribuována u jader a podle toho, jak daleko se data
nacházejí, je latence variabilní.
Schéma 24jádrové verze čipu
Oba prstence jsou spojeny
přepínači ve dvou místech a napojují se na ně jednak
řadiče PCI Express a QPI a bloky home agent s dvěma
paměťovými řadiči, které dohromady poskytují čtyři kanály
paměti DDR4. Paměť také prošla upgradem, CPU podporují o
stupínek rychlejší takty – 2400 MHz místo 2133, 2133 místo
1866 MHz, a lowend povýšil z 1600 na 1866 MHz.
Druhá varianta má jader fyzicky
patnáct. V tomto případě stojí v pětičlenných
sloupcích a jeden z prstenců je obsazen jen jedním
sloupcem (takže na jednom je 10 jader a na druhém jen pět).
Čip má v této verzi mít výměru 306 mm² a nějakých
4,7 miliardy tranzistorů.
Patnáctijádrový a desetijádrový čip
Poslední verze, která by se za nějaké
dva měsíce zřejmě měla objevit
i v desktopu, je desetijádrová a s 3,4
miliardami tranzistorů by měla zabírat 246 mm². Zde vidíte,
jak přínosný 14nm proces je, toto je totiž velikost
28nm APU Carrizo s čtyřmi jádry, čipsetem a velkým
integrovaným GPU. Použita je již jen jediná prstencová sběrnice,
na níž sedí všech deset jader. Mělo by to znamenat v průměru
lepší latence do L3 cache, na druhou stranu ale tyto čipy můžou
mít zhruba o 5–10 % menší propustnost pamětí,
jelikož home agent a paměťový řadič je již jen jeden,
obsluhující místo dvou všechny čtyři kanály DDR4.
Zlepšováky pro servery
Broadwell-EP má v oblasti cache
jednu novinku: Resource Director Technology (RST) umí nejen
monitorovat, ale také regulovat využití L3 cache. Lze s ní
alokovat místo v L3 zvlášť pro jednotlivé procesy, vlákna,
nebo virtuální stroje. Při virtualizaci či podobném využití
tak lze zamezit tomu, aby jedna úloha vytěžující I/O brzdila
zaplňováním cache ostatní a technologie by měla umožnit
lepší „QoS“ i v dalších nasazeních.
Broadwell-EP má také zredukovány
výkonnostní postihy virtualizace (latence VM exitu) a umí
obsluhovat přerušení přímo uvnitř virtuálního stroje pomocí
přemapovávací tabulky. Tento tzv. „posted interrupt“ by již
měl být podporován v KVM a Xenu.
Poměrně podstatné by mělo být
zlepšené řízení spotřeby při použití instrukcí AVX. Jejich
256bitové registry a datové cesty poměrně razantně zvyšují
spotřebu CPU (což se projevuje i na desktopu, kde lze jejich
použitím dostat CPU přes TDP, ačkoliv se normálně při zátěži
pohybují značně níž). Na Haswellu-EP aktivita instrukcí AVX
srážela frekvenci všech jader na čipu o zhruba 200–400
MHz, neboť pro AVX mají procesory specifikovány nižší základní
i turbo frekvence. U Broadwellu-EP je toto chování
upraveno: jádra mění takt samostatně, takže ta postižená AVX
kódem spadnou níže, ale ostatní bez SIMD zátěže mohou zároveň
běžet na vyšších taktech. Pokud na serveru pracují různé
úlohy naráz a jen některé používají AVX (či AVX2), měl
by celkový výkon být lepší.
Víc jader, menší takty, někdy víc peněz
A teď již k specifikacím
modelů, které Intel vypouští na trh. Dobrá zpráva je, že jsou
kompatibilní s existujícími základními deskami (někdy i desktopovými platformy X99) a servery,
tedy za podmínky, že pro ně máte/dostanete aktualizaci UEFI.
Modely spolu s cenami shrnu zde do tabulky. V materiálech
od Intelu není bohužel uváděno turbo, to tudíž pochází
z údajů
databáze ARK. Základní takty procesorů se při zvýšení
počtu jader o dvě obvykle snížily o 100–200 MHz,
někde se (obvykle o 100 MHz) snížilo i turbo.
| Model | Jádra | Takt CPU | Turbo | L3 cache | DDR4 | QPI | TDP | Cena |
| Xeon E5–2699 v4 | 22 | 2,2 GHz | 3,6 GHz | 55 MB | 2400 | 9,6 | 145 W | 4115 USD |
| Xeon E5–2698 v4 | 20 | 2,2 GHz | 3,6 GHz | 50 MB | 2400 | 9,6 | 135 W | 3226 USD |
| Xeon E5–2697A v4 | 16 | 2,6 GHz | 3,6 GHz | 40 MB | 2400 | 9,6 | 145 W | 2891 USD |
| Xeon E5–2697 v4 | 18 | 2,3 GHz | 3,6 GHz | 45 MB | 2400 | 9,6 | 145 W | 2702 USD |
| Xeon E5–2695 v4 | 18 | 2,1 GHz | 3,3 GHz | 45 MB | 2400 | 9,6 | 120 W | 2424 USD |
| Xeon E5–2690 v4 | 14 | 2,6 GHz | 3,5 GHz | 35 MB | 2400 | 9,6 | 135 W | 2090 USD |
| Xeon E5–2683 v4 | 16 | 2,1 GHz | 3,0 GHz | 40 MB | 2400 | 9,6 | 120 W | 1846 USD |
| Xeon E5–2680 v4 | 14 | 2,4 GHz | 3,3 GHz | 35 MB | 2400 | 9,6 | 120 W | 1745 USD |
| Xeon E5–2667 v4 | 8 | 3,2 GHz | 3,6 GHz | 25 MB | 2400 | 9,6 | 135 W | 2057 USD |
| Xeon E5–2660 v4 | 14 | 2,0 GHz | 3,2 GHz | 35 MB | 2400 | 9,6 | 105 W | 1445 USD |
| Xeon E5–2650 v4 | 12 | 2,2 GHz | 2,9 GHz | 30 MB | 2400 | 9,6 | 105 W | 1166 USD |
| Xeon E5–2650L v4 | 14 | 1,7 GHz | 2,5 GHz | 35 MB | 2400 | 9,6 | 65 W | 1329 USD |
| Xeon E5–2643 v4 | 6 | 3,4 GHz | 3,7 GHz | 20 MB | 2400 | 9,6 | 135 W | 1552 USD |
| Xeon E5–2640 v4 | 10 | 2,4 GHz | 3,4 GHz | 25 MB | 2133 | 8,0 | 90 W | 939 USD |
| Xeon E5–2637 v4 | 4 | 3,5 GHz | 3,7 GHz | 15 MB | 2400 | 9,6 | 135 W | 996 USD |
| Xeon E5–2630 v4 | 10 | 2,2 GHz | 3,1 GHz | 25 MB | 2133 | 8,0 | 85 W | 667 USD |
| Xeon E5–2630L v4 | 8 | 1,8 GHz | 2,9 GHz | 25 MB | 2133 | 8,0 | 55 W | 612 USD |
| Xeon E5–2623 v4 | 4 | 2,6 GHz | 3,2 GHz | 10 MB | 2133 | 8,0 | 85 W | 444 USD |
| Xeon E5–2620 v4 | 8 | 2,1 GHz | 3,0 GHz | 20 MB | 2133 | 8,0 | 85 W | 417 USD |
| Xeon E5–2609 v4 | 8 | 1,7 GHz | – | 20 MB | 1866 | 6,4 | 85 W | 306 USD |
| Xeon E5–2603 v4 | 6 | 1,7 GHz | – | 15 MB | 1866 | 6,4 | 85 W | 213 USD |
| Xeon E5–2658 v4 | 14 | 2,3 GHz | 2,9 GHz | 35 MB | 2400 | 9,6 | 105 W | 2040 USD |
| Xeon E5–2648L v4 | 14 | 1,8 GHz | 2,5 GHz | 35 MB | 2400 | 9,6 | 75 W | 1544 USD |
| Xeon E5–2628L v4 | 12 | 1,9 GHz | 2,5 GHz | 25 MB | 2133 | 8,0 | 75 W | 1364 USD |
| Xeon E5–2618L v4 | 10 | 2,2 GHz | 2,4 GHz | 25 MB | 2133 | 8,0 | 75 W | 779 USD |
| Xeon E5–2608L v4 | 8 | 1,6 GHz | – | 20 MB | 1866 | 6,4 | 50 W | 441 USD |
| Xeon E5–2687W v4 | 12 | 3,0 GHz | 3,5 GHz | 30 MB | 2400 | 9,6 | 160 W | 2141 USD |
Jak je zvykem, modely s „L“
v názvu značí úsporné verze, „W“ je model pro pracovní
stanice a čipy se sedmičkou na konci čísla preferují vysoké
takty před počtem jader (u zbytku je to spíš naopak). Čipy
končící na osmičku doporučuje Intel pro úložiště
a síťovou/komunikační infrastrukturu. Ceny se v některých
případech nemění, u některých modelů se ale zvýšení počtu
jader odrazilo ve zdražení (zhruba do 10 %).
Broadwelly-EP na nerozřezaném waferu (Zdroj: ComputerBase)
Zdroje: ComputerBase,
AnandTech,
Intel