ARM uvádí nové architektury CPU: Cortex-X3 už je s 6 ALU široký jako jádra Apple

30. 6. 2022

Křemík čipu Summit Ridge z procesorů AMD Ryzen generace 1000

Nové nejvýkonnější jádro firmy ARM odhaleno: Cortex-X3 má o 11 % lepší IPC než loňský Cortex-X2, výrazně ale rozšířil jak dekodéry, tak ALU. A v čipech pro notebooky má dosáhnout frekvence až 3,6 GHz.

ARM poslední léta každý rok uvádí nové procesorové architektury. Letos to je o nějaké týdny později než obvykle, ale firma nezklamala a odhalila novou generaci CPU – již druhou založenou na instrukční sadě ARMv9. Přichází s ní nové nejvýkonnější jádro Cortex-X3, které výrazně rozšiřuje výpočetní zdroje a obsahuje 6 ALU jako jádra Applu. Tato architektura zvýší jednojádrový výkon telefonů s Androidem, ale má jít i do notebooků.

ARM nyní v druhé generaci ARMv9 jader odhalil Cortex-X3, který bude hrát úlohu „prime“ jádra v telefonech – tedy jádra, které je v čipu třeba jen jedno a má za úkol poskytnout špičkový výkon pro jednovláknové aplikace. V telefonech pak ostatní výkonná jádra budou menší „prostřední“ kategorie, kterou bude zajišťovat druhé nově odhalené jádro Cortex-A715, jež je náhradou za předchozí A710. Nové malé jádro zatím ARM neodhalil, takže X3 a A715 budou párovány stále s loňskou architekturou A510.

Druhá generace ARMv9 jader (zdroj: ARM)

Cortex-X3: nové nejvýkonnější jádro ARMu

Zatímco již předchozí jádro Cortex-X2 (rozebírali jsme ho podrobně zde) odstranilo podporu pro 32bitový režim, Cortex-X3 z tohoto kroku dále těží. Jádro bylo údajně v mnoha ohledech překopáno právě tak, aby bylo optimální pro 64bitovou instrukční sadu (AArch64). Toto jádro by tedy mělo sklízet plody toho, že se ARM nemusí zatěžovat kompatibilitou se staršími verzemi instrukční sady.

Hodně změn proto v Cortexu-X3 prodělal frontend, kterého se právě týká změna instrukční sady. Frontend je nadále oddělený od zbytku jádra tak, že prediktory větvení běží napřed před hlavním zpracováváním kódu, ještě před tím, než dojde na fetch instrukcí z L1 cache. Tento frontend má schopnost zpracovat vysoké množství instrukcí na jeden cyklus, takže po restartu kvůli mispredikci rychle naplní frontu pro další fáze zpracování.

Zlepšení jádra Cortex-X3 – frontend (zdroj: ARM, via: ComputerBase)

Umožňuje to rychleji s zotavit ze špatně predikované větve, ale tento napřed pracující prediktor větvení zároveň funguje jako prefetcher, který předem načítá data z L2 cache a L3 cache, takže při samotném zpracování kódu je pak jádro již má připravené, nebo na ně čeká kratší čas. V Cortexu-X3 byla tato schopnost dále posílena, predikce pracuje s větším „oknem“ kódu v předstihu.

Zlepšení jádra Cortex-X3 – lepší predikce větvení (zdroj: ARM, via: ComputerBase)

Zároveň byl prediktor větvení posílen, jeho přesnost mají posílit větší Branch Target Buffery. Malý L0 BTB je zvětšený na desetinásobek, BTB druhé úrovně byl rozdělen na dva stupně – L1 spolu s nově přidaným L2 BTB – které mají dohromady kapacitu větší o 50 %. L0 predikce by měla být s latencí 0 cyklů, s o něco vyšší latencí ji pak může zkorigovat přesnější predikce dalších úrovní. Doposud ARM používal jeden takový lepší prediktor, ale v Cortexu X3 k němu přibyl i o něco rychlejší „meziprediktor“.

Jádro má také nový prediktor vyhrazený pro nepřímá větvení, která jsou zpracována s lepší přesností odhadu a nižší latencí než v předchozích jádrech. Zlepšit se ale má i přesnost odhadu podmíněného větvení.

Zlepšení jádra Cortex-X3 – lepší predikce větvení (zdroj: ARM, via: ComputerBase)

ARM uvádí, že by celkově Cortex-X3 měl v průměru o 6,1 % zredukovat počet špatně odhadnutých větvení proti jádru X2. Také se o 3 % snížil počet cyklů, které se vyplýtvají kvůli zastavení práce frontendu vlivem mispredikcí větvení a „bublin“ vzniklých při jeho zpracování. Zvýšení výkonu při zpracování predikovaného provedeného větvení (taken branch) má znamenat, že se zredukoval počet cyklů (latence), které průměrně provedené větvení stojí, o 12,2 %. Je to díky tomu, že výkonnější prefetch zmenší množství „bublin“ v pipeline, které při skoku v kódu kvůli větvení vzniknou.

Odklon od uOP cache, návrat dekodérového maximalismu?

Velká změna je u dekódování. Cortex-X3 zvýšil kapacitu fáze fetch z pěti na šest instrukcí za cyklus a také dekodérů je šest místo pěti, takže dokáží zpracovat šest instrukcí na takt. Je to díky tomu, že jen čistě 64bitové dekodéry zaberou méně místa a asi také mají nižší spotřebu.

Zajímavé je, že tým ARMu dekodéry posílil na úkor microOP cache, která ukládá již dekódované instrukce. Ta se zmenšila z 3000 záznamů na jen 1500 (jako v Cortexu A77, který ji první zavedl). I tato poloviční uOP cache ale dokáže dodat stejných osm microOPů za cyklus. Jádro má současně filtry, které proti předchozí generaci o něco striktněji vybírá operace, které jsou do uOP cache uložené, což zlepší využití této omezené kapacity.

Cortex-X3 zmenšil uOP cache na polovinu (zdroj: ARM, via: ComputerBase)

Toto přebalancování je asi proto, že čistě 64bitové dekodéry se staly levnějšími, takže přínos toho, když procesor díky uOP cache může dekódování přeskočit, se zmenšil. Toto je v kontrastu s procesory x86, pro které jsou kompletní dekodéry dražší, a proto jich mají méně a více se spoléhají na uOP cache (AMD Zen 2 a Zen 3 mají například kapacitu uOP cache 4000 operací).

ARM uOP cache patrně zmenšil ještě kvůli jedné věci – eliminovala se jedna fáze/stupeň v pipeline (uOP cache teď představuje jednu fázi místo dvou). Toto zkrátilo počet stupňů pipeline, které jsou ovlivněné chybným odhadnutím větvení z 10 na 9 (takže cena mispredikce je 9 cyklů místo 10).

Posílení dekodérů, ALU a Reorder Bufferu (zdroj: ARM, via: ComputerBase)

Reorder Buffer přerostl 300 instrukcí

ARM zvětšil také „okno“, v kterém probíhá out-of-order vykonávání instrukcí, jejich přehazování a optimalizování využití jednotek. Reorder Buffer je hluboký 320 položek (pro Cortex-X2 to bylo 288 položek), což je někde mezi Zenem 3 a Sunny Cove od Intelu (Ice Lake).

Zfúzované microOPy by měly zabírat jen jednu pozici, takže při jejich využití hloubka může být efektivně větší. ARM také uvádí, že byl vylepšen mechanismus zpracovávající přejmenování registrů tak, aby lépe zvládal větší out-of-order okno.

Jádro už má šest ALU

Velké změny jsou i v samotných výpočetních jednotkách, kterým se po této out-of-order fázi samotné operace přidělují. Cortex-X3 zvýšil počet ALU ze čtyř na šest. To se rovná jádrům od Applu, která mají nejvyšší IPC, například Golden Cove v procesorech Alder Lake má jen pět ALU a AMD se od Zenu zatím pořád drží jen čtyř ALU, byť to možná změní Zen 5.

Jádro Cortex-X3 má čtyři jednoduché ALU (místo dvou), které zpracovávají jednocyklové uOPy. Komplexní ALU, které dokáží zpracovat i dvou- a vícecyklové instrukce, zůstaly stále jen dvě. Jedna z nich podporuje celočíselné dělení. Jádro má navíc dvě samostatné jednotky pro větvení.

Celočíselná část jádra dokáže číst 32 bajtů za cyklus místo 24 bajtů. Cortex-X3 by měl nadále mít tři AGU (load/store jednotky), kdy dvě podporují čtení i zápis a třetí jen čtení (jádro tedy zvládne dva zápisy za cyklus, nebo tři čtení, nebo kombinaci, ale maximálně tři operace za cyklus). Výkonu by dál měla pomáhat obecná zlepšení prefetcherů, jádro by mělo mít nové enginy, které se snaží zachytit vzory v požadavcích na data.

Posílení load-store části a prefetcherů (zdroj: ARM, via: ComputerBase)

FPU a SIMD jednotka jádra má stále čtyři pipeline, zde k rozšíření nedošlo. Patrně také jádro stále pracuje se 128bitvou šířkou SIMD vektorů (i u instrukcí SVE/SVE 2) jako Cortex-X2. Nezvýšil se tedy teoretický výpočetní výkon SIMD instrukcí, i když další zlepšení v jádru logicky o něco zlepší výkon, kterého v dotyčných aplikacích Cortex-X3 bude moci dosáhnout.

ARM uvádí, že ideálního výkonu by Cortex-X3 měl dosahovat s 1MB L2 cache (L2 je vyhrazená pro jedno jádro, SoC pak ale bude mít ještě sdílenou L3 cache). Volitelně je možné zmenšit L2 cache na 512 kB kvůli zmenšení plochy jádra, ale to sníží výkon a zhorší energetickou efektivitu. 1MB L2 cache má snižovat objem požadavků na data z L3 cache až o 26,9 %.

Efekt 1MB versus 512kB cache u Cortexu-X3 (zdroj: ARM, via: ComputerBase)

Kapacity L2 a L1 cache patrně zůstávají nezměněné, ale došlo u nich k vylepšení efektivity dané změnami politiky cache (tedy řízení toho, která data v cache zůstanou a která se mají nahradit).

Vylepšená politika pamětí cache (zdroj: ARM, via: ComputerBase)

O 11 % lepší IPC

Cortex-X3 by podle ARMu měl mít asi o 11 % vyšší IPC (výkon na 1 MHz frekvence) v implementaci s 1MB L3 cache. Má jít o geometrický průměr z různých zátěží, v Geekbenchi 5 to, zdá se, bude jen +10 %, ve SPECint 2006 +11 %, ale ve SPECint 2017 podle grafů v prezentaci asi jen +8,5 %.

Cortex-X3 má mít o 11 % vyšší IPC než Cortex-X2 (zdroj: ARM, via: ComputerBase)

ARM uvádí také zlepšení IPC proti generaci Cortex-X1 (tedy za dva roky), proti tomuto jádru má Cortex-X3 IPC lepší o 22 %.

Cortex-X3 má o 22 % vyšší IPC než dva roky starý Cortex-X1 (zdroj: ARM, via: ComputerBase)

Toto by mělo být srovnání s Cortexem-X2 na stejné frekvenci. Zároveň by ale Cortex-X3 měl dosáhnout vyšších taktů. ARM uvádí odhad, že v telefonech by mohl běžet až na 3,3 GHz. Podle ARMu při taktu 3,3 GHz Cortex-X3 dosáhne až o 25 % lepší jednovláknový výkon než Cortex-X2 na 2,9 GHz. Toto je prý srovnání na stejném procesu, lepší frekvence tedy není jen díky použití lepší výrobní technologie, ale i architektonické zlepšení.

Nicméně, ačkoli ARM zde uvádí jako takt předchozího jádra Cortex-X2 jen 2,9 GHz, jsou i rychlejší implementace – Snapdragon 8+ Gen 1 dotlačil Cortex-X2 díky přechodu na 4nm proces TSMC až na 3,2 GHz. Takže pokud by se srovnávalo s ním, byl by reálný nárůst taktu nižší a tím i celkový nárůst menší než oněch 25 %.

Výkon jádra Cortex-X3 podle ARMu. +25 % platí pro frekvenci 3,3 GHz v mobilech, +34 % je při taktu 3,6 GHz v notebookových procesorech (zdroj: ARM)

Snad by to v telefonech mohlo odpovídat jednojádrovým skóre v benchmarku Geekbench 5 někde mezi 1400 až 1500 bodů, pro orientaci. Ve výkonnějších a žravějších implementacích pro notebooky by ale prý Cortex-X3 dokonce mohl dosáhnout až na takt 3,6 GHz, což by přidalo další jednovláknový výkon navíc (Geekbench 5 by možná mohl být okolo nebo těsně pod 1600). ARM uvádí, že takováto konfigurace by měla až o 34 % lepší výkon než to, co má ARM v noteboocích dnes.

Navýšení IPC „jen“ o 11 % není na druhou stranu zas tak vysoké v kontextu toho, že se počet ALU zvedl ze čtyř na šest. Asi to svědčí o tom, že Cortex-X3 je cosi jako základ pro další vývoj a teprve další generace asi z výrazně širšího celočíselného backendu vytáhnou větší užitek například dalším zvětšením Reorder Bufferu. Je otázka, zda ARM příliš nešetřil na uOP cache (i když je pravda, že jádra Applu ji nepoužívají vůbec). Každopádně až budoucí architektury posílí ostatní aspekty jádra, nyní přidané ALU se promítnou do většího zlepšení IPC.

Schéma a křivka výkonu Cortexu-X3 (zdroj: ARM, via: ComputerBase)

V telefonech za 6–9 měsíců, 12jádra pro notebooky?

Tato jádra by se snad mohla objevit už v přicházející nové generaci procesorů pro telefony, která by mohla začít vycházet koncem roku nebo na přelomu let 2022 a 2023. V telefonech by se tak snad Cortex-X3 mohl objevit během první poloviny roku 2023.

Zajímavá novinka je, že v noteboocích by se snad mohly objevit výkonnější konfigurace, kde by již jádro linie X nebylo jen jedno. ARM uvádí, že u nové generace jader je podporována konfigurace 8+4, kdy by procesor měl osm velkých „prime“ jader Cortex-X3 a k tomu jako malá jádra čtyři prostřední Cortexy-A715 – vyloženě malá jádra Cortex-A510 žádná.

Toto by mohlo mít hodně zajímavý mnohovláknový výkon, byť jednovláknový se tím samozřejmě nezlepší (ovšem oněch 1600 bodů v Geekbench 5 s Cortexem-X3 by bylo také slušných). Ale zatím nevíme, zda výrobci jako Samsung, MediaTek nebo Qualcomm opravdu nějaký takový SoC pro notebooky přichystají.

Zdroje: ARM, WikiChip, ComputerBase

Vstoupit do diskuse (23 názorů)

Jan Olšan

Redaktor portálu Cnews.cz. Zaměřuje se na procesory, mobilní SoC, grafické karty, disky a další počítačový hardware. Profil autora →

Témata:

ba, ba

7alken

Sdílet

Cortex-X3: nové nejvýkonnější jádro ARMu

Odklon od uOP cache, návrat dekodérového maximalismu?

Reorder Buffer přerostl 300 instrukcí

Jádro už má šest ALU

O 11 % lepší IPC

V telefonech za 6–9 měsíců, 12jádra pro notebooky?

Autor článku

Jan Olšan

Témata:

Anketa

Má podle vás Mironet právo na odškodné?

Kvíz týdne

Finanční výsledky AMD: Lisa Su jde k dalšímu rekordu, kvartální tržby se blíží k 12 miliardám $

Vysněný procesor bez E-Core konečně otestován: Je Bartlett Lake nejlepší herní procesor Intelu?

Seká se vám prohlížeč? Možná za to může chyba YouTube, která sežere až 7 GB RAM

Děti si malují na obličej knír, jiné kradou občanky. Systémy pro ověření věku nejsou příliš spolehlivé

Aplikace Lidl Plus nefunguje? Tahle rychlá oprava vás zbaví problémů u pokladny

Kdy přijdou paměti DDR6? Podle výrobců nejdřív za 2–3 roky, v herních PC ale možná až v roce 2030

Video v novém formátu AV2 přehrajete i na starém mobilu nebo počítači. S Dav2d to půjde bez hardwarové akcelerace

CETIN a O2 mají vlastního transformera. Mobilní vysílač na kolech rozjede signál kdekoliv během pár hodin

Elektromobil jako pojízdné autokino: Huawei má světla, která se umí přepnout do režimu projektoru

ACE je triumf AMD nad Intelem: Prosadilo do x86 procesorů jako standard svoji akceleraci AI místo AMX

ARM uvádí nové architektury CPU: Cortex-X3 už je s 6 ALU široký jako jádra Apple

Sdílet

Cortex-X3: nové nejvýkonnější jádro ARMu

Odklon od uOP cache, návrat dekodérového maximalismu?

Reorder Buffer přerostl 300 instrukcí

Jádro už má šest ALU

O 11 % lepší IPC

V telefonech za 6–9 měsíců, 12jádra pro notebooky?

Autor článku

Jan Olšan

Témata:

Anketa

Má podle vás Mironet právo na odškodné?

Kvíz týdne

Nejnovější články

Finanční výsledky AMD: Lisa Su jde k dalšímu rekordu, kvartální tržby se blíží k 12 miliardám $

Vysněný procesor bez E-Core konečně otestován: Je Bartlett Lake nejlepší herní procesor Intelu?

Seká se vám prohlížeč? Možná za to může chyba YouTube, která sežere až 7 GB RAM

Děti si malují na obličej knír, jiné kradou občanky. Systémy pro ověření věku nejsou příliš spolehlivé

Aplikace Lidl Plus nefunguje? Tahle rychlá oprava vás zbaví problémů u pokladny

Kdy přijdou paměti DDR6? Podle výrobců nejdřív za 2–3 roky, v herních PC ale možná až v roce 2030

Video v novém formátu AV2 přehrajete i na starém mobilu nebo počítači. S Dav2d to půjde bez hardwarové akcelerace

CETIN a O2 mají vlastního transformera. Mobilní vysílač na kolech rozjede signál kdekoliv během pár hodin

Elektromobil jako pojízdné autokino: Huawei má světla, která se umí přepnout do režimu projektoru

ACE je triumf AMD nad Intelem: Prosadilo do x86 procesorů jako standard svoji akceleraci AI místo AMX

Dále u nás najdete

U EET musíte nahlásit provozovny, kde přijímáte neevidované tržby

CreditShare míří na drobné investory, úvěry vybírá přísně

Ministerstvo zvýší penze. Ale později, než se čekalo

Přílišně sebevědomí v oblasti kyberbezpečnosti může uškodit

Končí lhůta pro elektronická přiznání za rok 2025. Čtěte souhrn všeho potřebného

Přehledy OSVČ. Do kdy je podat a na co nezapomenout?

Lidé už si nechtějí kupovat bezpečnost na míru

Prodal byt, aby mohl pražit. Dnes má jednu z nejlepších káv v Evropě

Fond dal facku všem občanům ČR, ti dotace pro Agrofert zřejmě zaplatí

Podívejte se, co asi budí šéfa Nvidie ze spaní

„Zakázali mi v e-shopu AI agenta.“

Odkud se berou a jak se zbavit domácích škůdců

Zácpa není jen nepříjemnost. Co může způsobit a jak ji řešit?

Vysílací rada dohlédne na youtubera Fiziho a Kluky z Prahy

V Česku se budou řešit „zabijácké akvizice“

AI agent, který vás pomluví, a další, kteří kradou hesla

Zoubky dětem čistěte hned od toho prvního a hned kartáčkem

Lékaři zdarma vyšetří znaménka. Kdy a kam přijít?

Sedm trendů, které změní podobu datových center

Hrozba, nebo příležitost? Umělá inteligence proměňuje webdesign