Intel zdá se posouvá Atomy blíž velkým CPU. Goldmont+ by měl mít hodně vysoké IPC

10
BGA procesor z linie Intel Atom (generace Braswell)

Včera jsme tu měli uniklou roadmapu proceorů Intel. Soustředili jsme se v ní na to, co říká o Coffee Lake, tedy nadcházející nové generaci CPU pro socket LGA 1151, ale možná jste si všimli, že je v ní zmínka také o rodině „Gemini Lake“, která by se měla na trh dostat během čtvrtého kvartálu roku. Gemini Lake jsou čipy geneticky vycházející z linie „Atomových“ úsporných SoC Bay Trail, Cherry Trail/Braswell a Apollo Lake, tedy tzv. „malých jader“. Ovšem v Gemini Lake ta jádra zdá se přestanou být malá, přicházejí informace, že by s nimi Intel mohl naopak dohánět ta „velká“.

 

Goldmont+ patrně zvedne IPC

Architektura jader v procesorech Gemini Lake se oficiálně jmenuje Goldmont+ či Goldmont Plus, což by běžně vyvolávalo dojem, že jde jen o mlaou úpravu jader Goldmont bez plusu, které už jsou nyní v čipech Apollo Lake. To by ale mohly být mimikry. Podle informací z patchů pro jádro Linuxu, které zaslal přímo vývojový tým Intelu, bude asi architektura ve skutečnosti přepracovaná a patrně by měla výkon na 1 MHz (tzv. IPC) zvyšovat docela dost, což by možná vysvětlovalo dřívější zprávy zmiňující 31% zrychlení.

O přesnější povaze architektury Goldmont+ informace nejsou, v komunikaci okolo Linuxu je ale jeden důležitý detail: Goldmont+ má totiž mít čtyři instrukční dekodéry. Goldmont přitom obsahovatl dekodéry jen tři a architektury Silvermont a Airmont ještě jen dvě (podobně jako Jaguar/Puma od AMD). Tím pádem je Goldmont+ stavěn na zpracování čtyř instrukcí za jeden takt, zatímco předchůdci jen na tři (nebo dvě). Posílení dekódování je přitom znak, který by měl odrážet navýšení výkonu napříč celým jádrem. Takže lze čekat, že i zbytek projde různými upgrady, dokonce by snad mohly přibýt i nějaké výpočetní jednotky. Goldmont+ by pak byl skutečně velkým architektonickým předělem a 30% zvýšení výkonu by mohlo být docela reálné, přičemž zdaleka ne jen v nějakých výjimečných případech.

Gemini Lake má obecně (pokud ponecháme stranou výkon) být podobný současné podobě čipů Apollo Lake. Existovat budou dle roadmapy dvoujádrové a čtyřjádrové verze a TDP má být stále stejných 10 W, tedy alespoň u varianty určené pro desktop (minipočítače, Mini-ITX desky a podobně). Gemini Lake se bude opět vyrábět v pouzdru BGA pájeném na desku, nikoliv pro isntalaci do nějakého socketu. To také znamená, že po uvedení na trh v čtvrtém kvartále může ještě chvíli trvat, než se tato CPU objeví i v nějakém zařízení nebo desce, která se bude dát běžně koupit.

Desktopová roadmapa Intelu, Q3 2017 (Zdroj: PCEVA)
Desktopová roadmapa Intelu, Q3 2017 (Zdroj: PCEVA)

Gemini Lake podporuje dekódování 10bitového VP9

K čipům Gemini Lake se jinak objevila ještě jedna věc, která by mohla potěšit uživatele shánějící procesor pro HTPC či multimédia. Integrovaná grafika uvnitř má totiž podle informací získaných z linuxových ovladačů mít nativní podporu pro dekódování videa v 10bitovém formátu VP9. Ten doposud uměla jen velká CPU Kaby Lake. Stejně jako 10bitové VP9 bude Gemini Lake zvládat i 10bitový profil HEVC (Main 10), do nějž bude možné i enkódovat. Kromě toho budou podporovány i všechny starší běžné formáty. Dle dřívějších informací údajně také má být ve výbavě HDMI 2.0, které by umožnilo nativní výstup ve 4K s 60 snímky za vteřinu.

Pod tlakem Cortexů nebo Applu?

Proč by Intel jádra „Atomů“ najednou tak rychle rozšiřoval pro vyšší IPC, není úplně jasné. Je možné, že pro vyloženě „malé jádro“ už nevidí budoucnost v konkurenčním boji s aktuálními ARMy a potenciálně třeba i lowendovými CPU založenými na architektuře Zen (byť žádná taková zatím nebyla ohlášena). Intel by možná chtěl mít SoC, který by se úsporností vyrovnal běžným ARMům, ale zároveň také uměl konkurovat těm výkonnějším v jednovláknovém výkonu. Jejich IPC totiž v průběhu let rostlo.

Například SoCům Apple s velmi rychlými jádry nyní může takto konkurovat jen Core M a nikoliv Atom. Jenže u Core M Intel možná naráží na limity toho, že vychází z vysokofrekvenční architektury, v níž navíc zančné množství tranzistorů jde na spotřebu zvyšující prvky typu AVX/AVX2, které v mobilním CPU moc potřebné nejsou. I díky tomu asi proti těmto architekturám Apple dokáže v benchmarcích podávat tak překvapivě dobré výsledky. Možná nyní Intel změnil strategii a rozhodl se vytvořit jádro, které by sice bylo od základu přímo zaměřeno na úsporný běh s nízkým TDP, ale zároveň mělo vysoké IPC. Takové CPU by možná dokonce mohlo obnovit zájem výrobců Androidích tabletů o Atomy, případně odradit výrobce těch Windowsích od pokukování po čipech ARM.

10 KOMENTÁŘE

  1. Naozaj si myslíte, že spotrebu „veľkých“ jadier ovplyvňuje AVX? Predsa počet tranzistorov rastie so šírkou vektora len lineárne, tým že sa tam musí dať viac ale rovnakých ALU.

    Podľa mňa má oveľa väčší vplyv napríklad pomerne značný rozdiel v latenciách niektorých inštrukcií. Alebo v tom, že veľké jadrá majú všetky jednotky zreťazené, ale pri Atomoch treba na niektoré inštrukcie čakať 60+ taktov a celé jadro je vtedy idle.

    Čo sa týka dekóderov, tak hádam že zase bude len jeden komplexný. Inak pre zaujímavosť, koľko bajtov za takt to dekóduje? (nemá to pevnú šírku ako RISC, takže uvádzanie v počtoch inštrukcií nestačí)

    Inak taká konšpiračná teória: Atom môže byť tá nová zázračná architektúra, ktorú Intel plánuje. Samozrejme to vydajú pod iným názvom. 😀

    Pretože Core majú ten unifikovaný sheduler, ktorý pravdepodobne neškáluje nad 8 portov (preto sa musí AVX512 deliť o port s kopou ďalších inštrukcií). Na druhej strane, Atomy majú dedikované shedulery, podobne ako ZEN alebo POWER, takže teoreticky by tam mohol Intel nasekať toľko pipeline, ako je v POWER9.

    • IMHO jestli má něco smysl, tak uvádět u dekodérů počet instrukcí, které zhltnou za takt, ne bajty. Bajty dávají naopak smysl u RISCů jenom shodou okolností proto, že tam jsou instrukce stejně dlouhé. Počet bajtů by byl směrodatný u fetch, ne?

      Jinak to AVX není jen o počtu ALU pro ten vektor, i když to taky zvedne tu dynamickou spotřebu. Oni tam asi hodně proudu žerou ty rozšířené datové cesty a registry. To CPU by mělo být schopné tu infrstrukturu dynamicky vypínat a zapínat, aby se šetřilo energií, ale úplně dokonalé to nebude a nějakou výhodu to třeba tomu Applu, který má jen 128bit SIMD (Neon), nebo Zenu (128bitové jednotky pro SSE i AVX/AVX2) přihrává.

      • Ok máte pravdu, tak aká je šírka fetch z L1i?

        Pri RISC to je jedno, v x86 to jedno nieje pretože také Skylake dekóduje maximálne 5 inštrukcií (ak sa nemýlim) ale šírka fetch je len 16B, takže sa to nedostane na peak výkon ani v 386 kóde (ak rátame s 32b inštrukciami). Pokiaľ sú tam teda x64 inštrukcie, alebo nejaké AVX (ktoré ide až do 15B na inštrukciu) tak sa tá maximálna priepustnosť drasticky znižuje.

        Tak chápete prečo sa nato pýtam v spojitosti s dekóderom? …či to náhodou nieje len 8B na takt.

        A to so spotrebou AVX, nevravím že nie. (pardon že to tak vyznelo) Však všetci dobre poznáme spotrebu Intelov bez a s AVX2. Ale tie latencie a priepustnosti tiež zrobia svoje. A scheduler…

  2. „Takové CPU by možná dokonce mohlo obnovit zájem výrobců Androidích tabletů o Atomy, případně odradit výrobce těch Windowsích od pokukování po čipech ARM.“

    Problém už u Apollo Lake je absence variant s nízkým TDP (ekvivalent xN-8xxx cherry trail). V důsledku chybí opravdu malé a levné notebooky/tablety s novou generací malých jader (ekvivalent Surface non-pro nebo Lenovo Miix 320). Zvyšování IPC směřuje ještě více směrem od malých zařízení, takže otázka, co s tím v inelu zamýšlí. Jestli spíše nechtějí jít do lowend desktopu proti Bristol Ridge.

    • To je pravda. Záviselo by to na tom, jestli tentokrát budou varianty s nižším TDP. U Apollo Lake taky měly být (jmenovalo se to Broxton), ale Intel je zrušil loni, i když asi byly v podstatě hotové (embedded Broxton na trh šel). Jestli se teď vrátí, zatím těžko říct, no už to předchozí rozhodnutí bylo dost těžko pochopitelné, teda aspoň zvenku.

  3. Stále ide Jan myšlienkou, že „atomy“ majú byť pre tablety, telefony nejak mu to z minulosti nedá.
    Paradoxne najvýkonnejšie dokonca s brand name Atom bude/je platforma Intel Denverton s tou istou CPU microarchitektúrou Intel Goldmont Plus !

    Intel to proste už pri Goldmonte (Apollo Lake SoC) zarzal a drží sa troch segmentov:
    • J-series (dessktop) Celeron J3355, J3455 a Pentium J4205.
    • N-series (notbooky t.j. mobilný) Celeron N3350, N3450; Pentium N4200.
    • E-series (embedded) Atom x5-E3930, x5-E3940; Atom x7-E3950.

    Pri serverovej Atom C3000 preskočil Goldmont a nasadil rovno Goldmont Plus
    • C-series (Server) Atom C3338, ďalšie verzie pribudnú čoskoro up to 16C/16T viď. nižšie link
    Vlajková loď:
    Intel Atom Processor C3955 (16MB Cache up to 2.40GHz)
    atď.

    https://downloadcenter.intel.com/product/97941/-Intel-Atom-C?pg=9&keyword=Intel

    Additional selections available… (všetky Intel Atom Processor C3000 Series processors sú tam).

    A teraz kacírska myšlienka síce veľmi zjednodušene resp. otázka pre extrahardwarákov:

    Je Goldmont Plus (4-wide decode) odpočiatku len nedodelaný Goldmont (3-wide decode) a Goldmont (3-wide decode) bol len priškrtený-nevyladený-nedodelaný Goldmont Plus (4-wide decode) napr. s AVX/AVX2 (+1-wide decode +zdvojená L2 cache) ?
    Pomôžem si napr. VIA Nano CNA (1000/2000 Series) čo bol napr. (3-wide decode) avšak len so SIMD up to SSSE3 a ani nie do roka prišla revízia CNB (3000 Series) so SIMD up to SSE4.1, VT virtualization technology a mnohými ďalšími vylepšeniami – optimalizáciami na úrovni microarchitektúry.