Procesory za milion: 5,2GHz čtyřjádra od IBM

0

Kdesi pod kapotou…

Nové systémy z196 jsou nástucem mainframů řady z10. Podle IBM se výkon na jádro zvýšil o 35–50 % a celková kapacita systému je až o 60 % vyšší. Jejich cílem jsou stále převážně finanční instituce a vzhledem k parametrům těchto systémů zde téměř nemají konkurenci. O tu se pokouší Intel se svými procesory Itanium 2, které sice nabízí spolehlivost (např. možnost přepnutí do HW režimu kdy obě jádra počítají to samé a pak porovnají výsledky), ovšem IBM to přebíjí dodávkou kompletních systémů včetně konfigurace na přání a následné podpory od jediného subjektu. Postupně se tedy podívejme, co všechno za vylepšeními stojí.

Mikroprocesory

Procesory jsou postaveny na z/Architecture 2 (ARCH VL3), jedná se o architekturu typu CISC (Complexes Instruction Set Computing). Do této rodiny spadá i x86, jedná se v podstatě v obou případech o stroje, kterým nejsou cizí dlouhé a složité instrukce. Ty jsou vždy náročnější na paměť, usnadňují ale programování (o tom ještě bude řeč dále). Celkový počet instrukcí je 1079, z toho 75 může být spuštěno pouze přímo mikrokódem, 219 je běžně spustitelných mikrokódem a 24 dalších dle situace. Středních instrukcí rozdělovaných při zpracování na dvě kratší (jako RISC) instrukce je 211, duálně zpracovávaných 269 a jednoduchých (jako u RISC) 340.

Snímek jádra superskalárního mikroprocesoru IBM z196

Zachováno zůstalo to, že procesory v z196 jsou superskalární a obsahují šest jednodušších jednotek: dvě celočíselné (integer), dvě pro ukládání/načítání (load/store), jednu binární a jednu decimální pro výpočty s plovoucí desetinou čárkou (FPU). Na snímku to jsou FXU, LSU, BFU a DU. Hlavní mezigenerační změnou je u z196 zpracování instrukcí mimo programem stanovené pořadí (Out-of-order), to zajišťuje ISU. Předpověď dělení obstarává IFB, dekódování instrukcí IDU, překlad adres XU (k tomu má vlastní buffer) a obnovení po chybě RU (ta uchovává v paměti informaci o stavu systému vč. registrů).

Snímek celého superskalárního mikroprocesoru IBM z196

Změněno bylo rozložení paměti, to má nově čtyři úrovně. Cache první úrovně má kapacitu 64 KB (instrukční) a 128 KB (datová) pro každé jádro. Paměti druhé úrovně je 1,5 MB na jádro, třetí (sdílená) má 24 MB, přičemž obsahuje vlastní řadiče. Na waferu se ještě nachází řadiče paměťové a GX sběrnice a dva logické koprocesory pro šifrování a kompresi. Celý čtyřjádrový procesor běží na frekvenci až 5,2 GHz.

Koprocesor pro šifrování a kompresi

IBM procesory vyrábí 45nm SOI technologií ve své vlastní továrně v East Fishill v americkém New Yorku.

Procesorové moduly

Šest takových mikroprocesorů je pak baleno do MCM (Multi-Chip Module), jenž IBM nazývá kniha a který právě bude stát až onen milion amerických dolarů. Je to keramické pouzdro o rozměrech 96×96 mm se 7356 LGA kontakty a zhruba 11 miliardami tranzistorů. V něm se nachází další sdílená paměť o kapacitě 192 MB a na ní „sedí“ dva řadiče zajišťující komunikaci mezi dalšími knihami stylem každý s každým.

Schéma MCM Schéma vzájemného propojení knyh

První tři procesory zajišťují připojení paměti, paměťový řadič v každém obsluhuje až 10 DIMM banků, řazení je do tzv. RAIM (Redundant Array of Independent Memory, redundantní pole nezávislé paměti). Celková kapacita paměti na knihu tak dosahuje až 960 GB, z toho je ale 16 GB vyhrazeno pro HSA (Hardware System Area) a část je právě redundantní pro případ chyb či dokonce trvalého poškození. K dispozici tak je přímo pro aplikace „pouze“ 768 GB na knihu.

Struktura jednoho MCM

Zvlášť se můžeme zmínit o paměti třetí a čtvrté úrovně (L3 a L3 cache). U té IBM využívá dynamické technologie eDRAM namísto tradičnější SRAM. Jedná se v podstatě o upravenou DRAM technologii, jejíž výhoda tkví v mnohem menší velikosti buňky. Je sice 2–8× pomalejší než SRAM, ale stále 4–16× rychlejší než tradiční DRAM. Má navíc nižší spotřebu než SRAM a s velikostí celkem logicky rostou latence (k buňkám je dál). Jak IBM ukazuje (např. v prezentaci na serveru blooble.com), již od 8MB bloků jsou latence takřka vyrovnané.

Konfigurace a provedení modelů

Základní provedení mainframe

Mainframe je bez ohledu na konfiguraci vestavěn do dvou pevně spojených skříní o výšce 42U. V pravé se nachází procesororoví moduly, v levé napájecí zdroj. V horní části obou jsou baterie pro primární zálohování při výpadku proudu, další uspořádání se pak odvíjí dle použitého chlazení.

Fotografie Frame A

Obrovský výkon je totiž vměstnán na malé ploše (jedna kniha vyzařuje až 1,8 kW tepla), vracíme se tak do starých dobrých časů počítačů Cray: základní verze (Frame A) obsahuje kompresorové chlazení, které teplo ze dvou výparníků odvádí do výměníků. V případě selhání oběhu se rozjedou masivní ventilátory a frekvence procesorů sníží až o 17 % aby neshořely. Frame Z používá trochu konvenčnější vodní chlazení, jehož čerpadla jsou až pod I/O cage.

Fotografie Frame Z

Konektivita

V I/O šuplících a boxech se může nacházet dle konfigurace následující:

  • dvanáct InfiniBand linek 6 GB/s pro propojení s dalšími systémy z196/z10, 3 GB/s se z9, na vzdálenost až 150 m
  • jedna InfiniBand linka 5 Gb/s pro propojení s dalšími systémy z196/z10 na vzdálenost až 10 km
  • patnáct aktivních (jeden záložní) ESCON
  • až 336 kanálů FICON Express 8× (8 Gb/s) či Express 4× (4 Gb/s)
  • až 96 RJ-45 portů pro 1000Base-T či 10GBase-T
  • až 32 HiperSocketů (virtuální LAN pro propojení serverů uvnitř skříně)

Základní verze systému

Tabulka shrnuje pět základních verzí systému z196. Zapnuta jsou buď tři nebo všechna čtyři jádra v procesoru, část je však vždy nepřístupná, určená pro řízení I/O či redundanci. Podle určení pro ten který operační systém a programy je část funkcí procesorového jádra vypnuta a jádro pak dostává název příslušné výpočetní jednotky: IFL (Integrated Facility for Linux), zAAP (z196 Application Assist Processor), zIIP (z196 Integrated Information Processor) či SAP (System Assist Processor).

Model CP IFL zAAP / zIIP ICF zBX Paměť (GB)
M15 1-15 0-15 0-7 / 0-7 1-15 0-4 32-752
M32 1-32 1-32 0-16 / 0-16 1-16 0-4 32-1520
M49 1-49 1-49 0-24 / 0-24 1-16 0-4 32-2288
M66 1-66 1-66 0-33 / 0-33 1-16 0-4 32-3056
M80 1-80 1-80 0-40 / 0-40 1-16 0-4 32-3056

Díky shodným rackům je navíc možné upgradovat starší systémy z9 a z10 na z196.

Diagram upgrade na z196

Mainframy mohou fungovat jako řídící systémy rozsáhlé farmy virtualizovaných serverů, nově je jich podporováno až 100 000. Práce je pak přidělovaná clusterům s Power7 či x86 Blade servery.

Operační systémy

Na těchto a podobných systémech běží až archaické operační systémy a programy, stále programované v assembleru, Cobolu a jiných strojových jazycích. To má svůj důvod, programy a systémy jsou jednoduché, rychlé a bezpečné (bankovní mainframe zatím ještě nikdy nikdo nenaboural). Potíž je v tom, že pracovat s nimi umí obvykle jen málo lidí ve většině zemí, na druhou stranu je to velmi lukrativní obor. Zájemci se mohou přeptat na FJFI ČVUT, kde jsou otevřeny studijní obory programování a údržba mainframe.

Mezi konkrétní používané systémy patří z/0S, z/VM, z/VSE a z/TPF. Z konvenčnějších potom linuxové distribuce Red Hat a Suse.

Další informace lze získat z Redbook knihovny IBM, následuje příloha s fotografiemi ve vysokém rozlišení.

MCM s výparníky kompresorového chlazeníKlikněte pro zvětšení

Rack IBM zEnterpriseKlikněte pro zvětšení

Testování v laboratořiKlikněte pro zvětšení

Rack s Blader servery IBM Power 795

Blade server IBM Power 710

Klikněte pro zvětšení

 Blade server IBM Power 720

Klikněte pro zvětšení

Blade server IBM Power 730

Klikněte pro zvětšení

Blade server IBM Power 740

 

Zdroj: IBM, Wikipedia (1, 2), PCMag.com