Unikly parametry prvních procesorů AMD s 3D V-Cache: Milan-X se 768 MB L3 cache

29

Máme informace o prvních procesorech AMD, které budou obdařené technologií 3D V-Cache: budou to až 64jádrové procesory Milan-X, obsahující 768 MB L3 cache.

Včera jsme tu měli parametry úsporných verzí procesorů Intel Alder Lake (řada T s 35W TDP). Současně unikly také údaje o zajímavých procesorech, které by se také během následujících měsíců měly chystat na trh: o prvních procesorech AMD, které ponesou – doslova – tzv. 3D V-Cache neboli druhý čip s velkokapacitní L3 navíc. Půjde tedy o 3D procesory. Máme k nim teď jména modelů a také parametry včetně taktů a kapacity oné 3D cache.

Tato technologie 3D pouzdření více kusů křemíku ve vrstvách na sebe byla představena na Computexu a věnovali jsme jí podrobný článek zde. V krátkosti jde o napojení druhé vrstvy křemíkového obvodu na CPU čiplet procesorů AMD s architekturou Zen 3 pomocí tzv. TSV (Through-Silicon Vias), přičemž oba křemíky jsou spojené přímým měděným vodičem, což by mělo eliminovat významnou část energetické neefektivity, kterou jinak podobná propojení čipů trpí – mělo by to být ještě výrazně efektivnější než můstky EMIB u Intelu, protože vůbec nejsou v cestě pájené kontakty.

Druhý čip osazený na CPU čiplet obsahuje 64 MB L3 cache navíc, takže zatímco běžně mají procesory Ryzen a Epyc s jádry Zen 3 jen 32 MB L3 cache na každých 8 jader, s touto nástavbou je to 96 MB.

Stavba CPU čipletu s 3D V-Cache Zdroj: AMD

Více: AMD odhalilo technologii 3D čipletů: Procesory s 64MB 3D V-Cache osazenou nad jádra Zen 3 (update)

AMD po představení naznačilo, že tento zlepšovák by se mohl dostat i do nějakých procesorů Ryzen, kde by mohl mimo jiné zlepšit herní výkon (většina aplikací ale z tak obří L3 cache asi nebude tolik profitovat). Ale jako první by se na trh asi mohly dostat takto vylepšené serverové procesory. Ty také budou založené na architektuře Zen 3 a mělo by jít o modifikaci Epycu 7003 „Milan“ se stejným IO čipletem a stejnými CPU čiplety, jen s onou 3D V-cache osazenou na nich, a tím až trojnásobnou L3 cache. Tato verze Epyců má údajně kódové označení Milan-X a od leakera ExecutableFixe z Twitteru teď máme jména modelů těchto procesorů i jejich parametry.

AMD Epyc 7003 Milan ilustrace 1600
AMD Epyc 7003 Milan

Milan-X: modely

Procesory Milan-X mají údajně interní označení GN-B2 (GN-B1 by zřejmě měl být klasický Milan/Epyc 7003). Nejvýkonnější model se jmenuje Epyc 7773X – toto X je zřejmě označení, které identifikuje procesory Milan-X a tedy modely s 3D V-Cache (Ryzeny ale asi ponesou jiné značení, protože Xko už si vyplýtvaly). Procesor má 64 jader (128 vláken) a celkem 768 MB L3 cache – je to tedy těch 96 MB na jeden CPU čiplet/CCX, celkem osmkrát. Procesor má přisouzeno 280W TDP, tedy maximální, jaké AMD u Epyců používá, a takty jsou jen 2,2 GHz v základu až 3,5 GHz v maximálním boostu.

Web HardwareLuxx pohotově parametry porovnal se srovnatelnými modely standardních procesorů Epyc 7003 se stejným TDP – u tohoto modelu je to s 64jádrovým modelem Epyc 7763. Ten má takty 2,45–3,5 GHz. Zdá se tedy, že spotřeba navíc, kterou přidaných 512 MB L3 cache konzumuje, přinutila AMD snížit základní takt o 250 MHz. Je možné, že reálné boostování v serverových úlohách zaznamená menší rozdíl ve frekvenci proti normálnímu 64jádrovému Epycu (základní takty se řídí „worst-case“ scénářem), ale nějaká cena za integrování L3 cache navíc se evidentně platí.

Procesory Epyc Milan X s 3D V Cache srovnání webu Hardwareluxx
Procesory Epyc Milan-X s 3D V-Cache – srovnání webu Hardwareluxx (ZDroj: Hardwareluxx)

ExecutableFix zveřejnil parametry ještě dalších třech modelů, které také můžete vidět porovnané s běžnými modely v tabule HardwareLuxxu. Jde o 32jádro Epyc 7573X na 2,8–3,6 GHz, 24jádro Epyc 7473X s takty 2,8 GHz–3,7 GHz a 16jádrový Epyc 7373X s takty 3,05 GHz–3,8 GHz. U těchto modelů není vždy základní takt zredukovaný tak moc, možná proto, že jsou méně omezená spotřebou vzhledem k počtu jader. Ale zase se objevuje podezřelé snížení maximálního boostu (platného při vytížení jen málo vláken) o 200–300 MHz. Že by osazení 3D V-Cache bylo překážkou i v dosažení vysokých frekvencí?

Všechny tyto procesory mají 768 MB L3 cache, což znamená, že i modely s nízkým počtem jader jsou složené z osmi CPU čipletů (mimo IO čipletu samozřejmě), byť jsou v každém aktivní jen 2, 3 nebo 4 jádra. Sice to plýtvá křemíkem a trochu asi i spotřebou, ale dovoluje to i u těchto modelů maximalizovat kapacitu cache. Tyto procesory Milan-X budou zřejmě aplikovány na úlohy, kde cache pomáhá víc než ostatní parametry, přičemž někdy asi stačí i poměrně málo hrubého CPU výkonu.

3D Ryzeny?

Po tomto navnazení jsme skutečně zvědaví, jak dopadnou procesory Ryzen s 3D V-Cache. Fanoušci AMD od nich zdá se často čekají, že budou schopné plnohodnotně odpovědět na procesory Alder Lake od Intelu, ale to se nezdá úplně pravděpodobné. Je sice možné, že cache navíc bude hodně pomáhat v řadě her, ale toto zdaleka nemusí nastat všude. Mnoho aplikačního softwaru asi zaznamená jen malé nebo někdy i nulové přínosy a tyto procesory přitom budou poměrně drahé (výrobní náklady budou proti Alder Lake asi dramaticky vyšší). Navíc pokud přidaná cache povede ke snížení taktů, může být přínos této technologie v desktopových PC dost limitovaný.

Prototyp procesoru Ryzen 9 5900X s 3D V-Cache osazenou na jednom z čipletů, na levém jsou asi vidět neobsazené TSV kontakty Zdroj: AMD

Ač to tedy není zatím jasně daná budoucnost, je třeba připravit se na možnost, že Ryzeny s 3D V-Cache nebudou žádný zabiják Intelu, ale do jisté míry okrajový produkt. Mohlo by to být sice zajímavé, ale jen někdy praktické řešení, které se bude vyplácet jen omezenému okruhu uživatelů a zdaleka tak nepůjde o tak atraktivní a univerzálně přínosné CPU, jako byly/jsou původní Ryzeny 5000.

Galerie: Technologie AMD 3D V-Cache a 3D čipletů na Computexu 2021

Zdroj: ExecutableFix, HardwareLuxx

Unikly parametry prvních procesorů AMD s 3D V-Cache: Milan-X se 768 MB L3 cache
Ohodnoťte tento článek!
3.9 (78%) 10 hlasů

29 KOMENTÁŘE

  1. Na těchto procesorech se v plné parádě ukáže, jak je současné testování výkonu čipů nedostatečné. Výhoda obrovské cache totiž není v tom, že by jedna aplikace dokázala tolik využít (byť i tam se nějaký přinos asi naměří), ale hlavně je v tom, že když na čipu běží tisíce nezávislých (pracujících s jinými daty) vláken, tak se může dramaticky zvýšit šance, že ta vlákna svá data v cache najdou. A tím dramaticky nemyslím 3x, když je cache 3x větší, ale třeba 100x (protože při malé cache paměti se neustále ta data do cache nahrávají a vyhazují a vlákno, než opět dostane nějaký procesorový čas už zase data v cache nemá).
    Myslím, že tohle novináři nedokáží změřit. Tohle si otestují a změří ti, co provozují nějaká datacentra a věřím, že někteří budou nadšeni. U určitých typů zátěže může vzrůst výkon serveru na několikanásobek.
    Kdybych to měl přirovnat k něčemu z klasického počítače, tak to může být podobné, jako rozdíl mezi 4 a 12 GB RAM. Většina benchmarků ukáže stejný výkon, ale při běžné práci je ten druhý výrazně rychlejší.

    • já bych to tak růžově neviděl … není to jeden křemík, je to křemík na křemík … jak tedy bude připojen ten „přímý měděný vodič“? Emib je taky křemík, to intel řešení je v podstatě stejné, křemík na křemík, akorát u emib je propojení na okraji, u amd na sobě … délka vedení stejná … co tohle u amd udělá s přehříváním, jak se to bude chladit, kde to vůbec aplikují, je zatím ve hvězdách … nemyslím, že by to cpali třeba na 5600-5800x, kdo by to zaplatil? Na desktopech možná! na 5950x, na threadrippery, pak na epic, kde to bude mít asi největší dopad …

      • Pokud si dobře pamatuji, tak cache je poměrně energeticky náročná. Asi to bude platit zejména o L1, ale i tak si ztrojnásobení L3 něco vezme.
        Nezabýval se tím nějaký článek či rozbor CPU?

            • Netreba zabúdať na fakt, že L3 sa nielenže zväčšila, ale aj jej rýchlosť stúpla akoby z 1kanálovej na 3 kanálovú rýchlosť (cca 2TB/s…predtým cca 800GB/s). Takže tých úloh, predpokladám bude viac ako by sa čakalo „len“ pri väčšej L3 cache.

      • Máte pocit, že to vidím růžově? Rozhodně jsem to tak nemyslel. Větší cache bude mít někde obrovský význam, protože je spousta aplikací, které nejsou limitovány výpočetním výkonem, ale spíše paměťovou propustností. Je to vidět i na současné nabídce serverových čipů, kdy se nabízejí relativně málojádrové čipy za dost vysoké ceny a to jen proto, že mají velkou paměťovou propustnost.
        Obrovský význam v některých typech zátěže (viděl bych to třeba na servery pro webhosting, kdy jeden server obhospodařuje velké množství malých webů) ale vůbec neznamená, že to bude dávat smysl v jiných případech. Dokonce bych řekl, že u většiny typů zátěže bude přínos menší, než nárůst nákladů, tedy se to nevyplatí.
        Můj příspěvek byl spíše o tom, že zrovna tohle se nedá nějak objektivně změřit. To po spuštění série benchmarků novinář nezjistí.
        A jinak moc nerozumím tomu co píšete o délce vedení. Jak stejná délka vedení, jako u EMIB? Tam přeci naprosto zbytečně musíte tahat signály někde z vnitra čipu k jeho okraji a zpátky. Tohle vrstvení eliminuje.
        A že to nebudou cpát do běžných (šesti či osmijádrových) desktopových čipů, je asi také jasné. Už teďka jsou drahé jako prase a při ceně o stovky dolarů vyšší, se to už nevyplatí.

        • s tím vedením 😀 tohle bude asi malinko složitější … latence uvnitř čipu budou asi řádově nižní, než na klasickém „drátu“, od toho je odvozeno vše ostatní … já mluvím o vedení mezi křemíky .. že si někdo představuje, že mezi křemíky bude miliarda přímých propojení, tak to asi nebude … stejně se ta data musí někam dostat v rámci křemíku … já píši o tom, že „drát“ mezi emib a čipem je cca stejně dlouhý, jako mezi dvěma křemíky na sobě … ano, pravděpodobně jich může být mnohem víc, než u emib, to ale nebude zadarmo … prašť jak uhoď …

          • Ten „drát“ je nepodstatný. Tedy pokud srovnáváte emib s vrstvením. Ale nejde o tu propojku, ale o ty vodiče v rámci čipu. Ty tvoří většinu těch ztrát. Čím delší jsou, tím vyšší energii potřebujete na přenos informací. A rozdíl délek mezi emib a vrstvením je už celkem propastný.

            • jak propastný? Emib na obrázku není to samé, co emib na interposeru … a taky emib propojuje úplně jiné části čipů, než o kterých je řeč tady …

            • možná mi něco uniklo, ale tady ta cache, ty čipy nejsou vrstvené tak, jako třeba 3D Nand …

            • gogo1963:
              Já nevím, jestli si děláte srandu nebo jestli to myslíte vážně. Když budu mít tu cache vedle toho výpočetního čipletu, tak střední délka mezi nimi bude polovina velikosti cache a polovina velikosti toho čipletu. Tedy jen tohle bude cca 1 cm, na rozdíl od toho, kdy ty dvě věci budou na sobě a vzdálenost bude v desetinách milimetru. Takže ten rozdíl, což bude zase cca 1 cm je přesně ta zbytečná délka vedení, která se tím „vrstvením“ eliminuje. Chápu, že pak potřebujete rozvádět ty informace ještě po tom čipletu, ale to je část, která se nezmění, tedy je zbytečné ji řešit.

            • v klidu, nechám se překvapit … vím, že tohle je jen začátak 3D pouzdření, intel, stejně jako AMD se na tomhle podílí i s TSMC, kromě svých výmyslů … tady by se dalo polemizovat, jak ale vidím, podrážděnost vysoká … já jen narážím na to, že tohle je hybrid, ne propojení vrstev v rámci jednoho die … nevím, kolik tam bude propojení, jestli 10, nebo třeba milion … od toho se odvíjí délka cest …

          • Je vážně velký rozdíl, dva čipy vedle sebe a na sobě, když tady ta cache navíc leží na stávající cache a ne na výpočetní části. Lépe už to moc udělat nejde a rozdíl do budoucna už může být jen ve vyšším počtu spojů.

      • „není to jeden křemík, je to křemík na křemík … jak tedy bude připojen ten „přímý měděný vodič“? Emib je taky křemík, to intel řešení je v podstatě stejné, křemík na křemík, akorát u emib je propojení na okraji, u amd na sobě“

        Rozdíl je tam v tom, že je snad nějak přímo spojená (letováním? netuším…) měď na měď, takže je to jeden materiál z horní kovové vrstvy proceosoru i přes tu TSV až do horní kovové vrstvy toho čipu s L3 V-Cache. Mělo by to asi dávat lepší kvalitu signálu a prý až 3× lepší energetickou efektivitu díky tomu.

        U té první verze EMIB je použitá pájka mezi kontakty (tzv. microbumps), ta změna materiálu je pravděpodobně důvod, proč je to o něco horší. Ale i Intel dělá na té tehnologii direct bonding (měď-měď), takže v nějaké nové verzi jejich technologie Foveros to bude taky – myslím, že pro to používají označení „Foveros Direct“, takže až to někde uslyšíme, tak to je analog téhle technologie TSMC.

        V Sapphire Rapids asi ještě myslím nebude, ale třeba už v další generaci?

      • Nevím zda jde vertikální spoje a EMIB srovnávat co do latencí, délky spojů a jejich množství. Tady vertikální spoje kopou úplně jinou ligu. Psalo se tam o desítkách tisíc spojů na každý chiplet. A co se chlazení týká, obě vrstvy jsou ztenčené na polovinu, tedy celková tloušťka je stejná jako výchozí křemík, navíc cache moc tepla nevytváří a tedy by chlazení výrazně horší být nemělo.

          • Není to úplně srovnatelné protože EIMB můstek sice využívá substrát, ale opět jen na okraji čipu. Zato 3D pouzdření s měděnými spoji, se nachází na celé ploše toho čipu, podobně jako HBM a SSD pamětí. Pak je tu ten rozdíl, že není nic pájené, to má vliv na přechodový odpor a tedy rychlost může být vyšší i spotřeba nižší.

    • Bude nejspíš záležet na charakteru zátěže, pokud se bude s velkým datasetem (s prakticky 100% cache-hit-ratio) pracovat opakovaně zejména nenáročnými operacemi (významně zdržovanými při práci z RAM) může být přínos asi značný.

  2. to nechápu, jak to chtějí jako propojit? Tonějak propíchnou nebo to tam tisknou nějakou tiskárnou ? By mě zajímalo jak je to s chlazením? Jinak 3D procesory budou, když už i ty trazistory se snaží vyrábět nastojato, tak to je k vrstvení směrem nahoru celkem jen krůček.