Hynix oznámil paměti HBM3. Frekvence až 6,4 GHz, jediný čip má propustnost jako RTX 3080

8
Paměti HBM3 firmy SK Hynix 1600
Paměti HBM3 firmy SK Hynix (Zdroj: Hynix)

Nový král pamětí pro grafické karty je na obzoru. Hynix už má vyvinuté paměti HBM3, které výkonem zametou se vším, co jme doposud viděli.

Zatím je asi pořád daleko nová technologie pamětí GDDR7 (i když Nvidia zdá se s Micronem předběhla standardizaci a zařídila si vlastní GDDR6X). Ale výkonná GPU by mohla v blízké budoucnosti dostat jinou novou technologii pamětí: čipy HBM3. Hynix nyní oznámil, že má vyvinutou první generaci těchto pamětí, které by mohly propustnost grafik zvednou skoro řádově. Jediný čip (pouzdro) HBM3 má propustnost vyšší než celá GeForce RTX 3080.

Společnost SK Hynix, která stála za vůbec první generací této technologie (označené ještě jen „HBM“), nyní oznámila vyvinutí třetí generace celé technologie. Respektive čtvrté, pokud pokládáme HBM2E, která zvýšila frekvence a kapacity proti HBM2, ale jinak se tak moc nelišila, za separátní verzi.

O paměti HBM3 se výhledově hovořilo už v roce 2016, ale až nyní se pomalu chystá do reálného světa. V létě byla oznámena dostupnost IP pro paměťové řadiče od Synopsys a Rambusu, nyní už tedy byla oznámena i paměť. Zdá se ale, že zatím ještě standard není finálně ratifikován, na příchod hotových zařízení (GPU, CPU a akcelerátorů) s těmito pamětmi si asi počkáme až někdy do roku 2022.

Obří propustnost

HBM3 bude přirozeně navyšovat výkon, a to docela o dost. Počítá se u ní s efektivní frekvencí až 6400 MHz, což je na úrovni LPDDR5, GDDR5 nebo přetaktované budoucí DDR5. HBM začínala na poměrně nízkých frekvencích, tento deficit ale postupně zmírňuje. Tento takt by znamenal, že paměti budou mít 3,2× lepší propustnost, než jakou dosahovala 2,0GHz (efektivně) HBM2 třeba v kartě AMD Radeon VII. Je to také dvojnásobné zrychlení proti 3,2GHz HBM2E, i když od té existovaly i rychlejší varianty nad rámec standardu.

Paměti HBM3 by opět měly být vyráběné ve formě vícečipových pouzder s velmi širokou sběrnicí (má 1024 bitů), v tomto případě tedy jeden „šváb“ není jeden čip, ale čipů několik navrstvených uvnitř. Jedno takové pouzdro zastoupí několik čipů GDDR6, grafické karty by třeba teoreticky mohly mít jenom jedno pouzdro.

Schéma stavby pamětí typu HBM (Zdroj: Hynix)

Pokud bude HBM3 běžet na avizovaném maximálním taktu 6400 MHz efektivně (či chcete-li, 6400 MT/s na jeden pin/bit), pak bude jediné pouzdro dosahovat propustnost 819,2 GB/s, což je dnes výbava highendové grafické karty – Nvidia GeForce RTX 3080 má nižší propustnost (760 GB/s), GeForce RTX 3080 Ti má víc (912 GB/s). A těch 819 GB/s je mimochodem dvojnásobek propustnosti, kterou má brutální integrované GPU procesoru Apple M1 Max, který ohromil 512bitovým paměťovým řadičem LPDDR5-6400 s propustností 400 GB/s (přesněji je to asi 409 GB/s). V porovnání s možnostmi HBM3 už to jako moc ovšem nevypadá.

Pokud by GPU bylo vybavené jen dvěma těmito pouzdry (jako kdysi Radeon RX Vega 56/64), mělo by propustnost 1,638 TB/s, mnohem více, než dosud ty nejvýkonnější herní grafiky. Se čtyřmi pouzdry (4096bitovou sběrnicí) už 3,276 TB/s a pokud by se dokonce použilo šest pouzder (6144bitová sběrnice), což v poslední době podporují highendová výpočetní GPU Nvidie, dostáváme téměř 5 TB/s.

GPU Vega 20 se čtyřmi pouzdry HBM2 po stranách hlavního čipu (Zdroj: techPowerUp)

S HBM3 by měly také být pro GPU či jiné procesory dostupné vyšší kapacity. Nyní vyvinuté paměti HBM3 od Hynixu budou existovat v podobě 16GB a 24GB pouzder, v nichž je 12 nebo 8 vrstev pamětí DRAM. Každý plátek o kapacitě 16 Gb/2 GB má tloušťku jen asi 30 mikrometrů a jsou propojené pomocí TSV (vertikálních vodičů procházejících čipem).

Tip: Nvidia GeForce RTX 3090 má nové paměti GDDR6X s rychlostí až 21 GHz, potvrdil Micron

Možná v Nvidia Hopper

Nejpravděpodobnějšími uživateli pamětí HBM3 budou výrobci akcelerátorů AI a podobného hardwaru. Mohou to být i specializované ASICy, ale samozřejmě také nejvýkonnější výpočetní GPU Nvidie, možná třeba už i připravovaná GPU Hopper, údajně čipletová a možná hodně velká, protože prý mohou mít spotřebu přes 1000 W. To by implikovalo obrovské množství jednotek a také výpočetního výkonu, takže by možná takové monstrum skutečně mohlo potřebovat tak šílenou propustnost pamětí, jako oněch zmíněných šest pouzder HBM3 s propustností 5 TB/s.

I když kdo ví, možná Nvidia skočí na ještě víc kusů, zde asi neexistuji nějaké konkrétní limity, například chystané Xeony Sapphire Rapids od Intelu integrující paměť HBM2E mají pod kapotou až osm pouzder (tedy 8192bitovou sběrnici). Také procesory by teoreticky mohly mít HBM3 integrovanou ve svém pouzdru, takže ji možná uvidíme v nějaké budoucí generaci Xeonů.

Paměti HBM3 firmy SK Hynix
Paměti HBM3 firmy SK Hynix (Zdroj: Hynix)

Bude HBM3 někdy v herních grafikách?

Herní grafické karty od odchodu Radeonů R9 Fury a poté karet Radeon RX Vega 56 a 64 paměti HBM a HBM2 přestaly používat (jedinou výjimkou byl Radeon Pro 5600M s čipem Navi 12 od AMD používaný exkluzivně firmou Apple). Důvodem je, že tyto paměti se musí osazovat na křemíkový interposer, což jejich použití hodně prodražuje. Proto jsou teď jen ve výpočetních GPU pro servery, která se prodávají za výrazně vyšší ceny než herní karty (…nebo tomu tak aspoň bylo před kryptoměnovou bublinou). Ovšem to, že by se technologie pamětí typu HBM mohla vrátit i do herních grafických karet, není asi úplně vyloučené.

Pomoci by tomu mohl příchod pokročilých pouzdřících technik, jako je EMIB od Intelu. Jde o křemíkové můstky, jimiž je realizováno jen propojení GPU a paměti HBM2 pod čipy. Není už potřeba interposer o velké ploše, takže se celek méně prodraží. Podobné technologie by měly mít i další firmy a nejen Intel, takže je možné, že v budoucnu se použití HBM3 tímto o dost zlevní a opět se otevřou dveře k jejímu nasazení na herních grafikách.

Energetické úspory, které by HBM měla přinášet proti poměrně žravým pamětem typu GDDR (zejména GDDR6X zdá se celkem významně zvyšuje TDP karet GeForce RTX 3000), by se pak daly využít na zvýšení výkonu samotného GPU. Pro to by pak zbývalo víc energie. Případně by HBM3 díky rozměru a opět nižší spotřebě mohla umožnit lepší výkon GPU v herních noteboocích.

Zdroje: SK Hynix, AnandTech

Hynix oznámil paměti HBM3. Frekvence až 6,4 GHz, jediný čip má propustnost jako RTX 3080
Ohodnoťte tento článek!
4.6 (91.11%) 9 hlasů

8 KOMENTÁŘE

        • Co na tom v hernych grafikach prosim pekne vyladili, zralo to jako tank a vykon bol ala RX 580, neskor 1070 Ti. Mat to spolu v jednom puzdre, je sice pekne, ale v hernom segmente sa to zatim moc nechytilo, snad len ta zaberajuca plocha v mm² potesi 🙂

          • První VEGA na kterou asi narážíte, byla universálně zaměřená, tedy narozdíl od do té doby čistě grafických byla VEGA první která měla posíleny výpočetní schopnosti, proto pokrok v grafickém výkonu nebyl tak velký a efektivita horší. Jenže ty pozdější profi modely už byly krapet jiná liga výpočetně a tehdy se mluvilo o tom že první VEGA ani nepotřebovala HBM paměti, protože je nevyužila. AMD zkrátka u tohoto modelu poprvé v reálném provozu testovala technologie, které se později uplatnily právě u výpočetních řešení, což vyvrcholilo úplným odštěpením grafické a výpočetní linie a díky tomu jsou jak grafiky tak výpočetní Instict modely tam, kde jsou. Prostě VEGA pomohla ten budoucí vývoj zaplatit. Za mne klobouk dolů. Mimochodem věděl jste o dvoučipových VEGách speciálně pro nejvýkonnější profi Apple modely? AMD musí jako firma jednat efektivně, nemůže vyhazovat peníze oknem jako rozežraný Intel.

    • Ne, na rozdíl od NAND neexistuje technologie, kdy by se to vrstvené přímo vyrábělo, bohužel.
      Jsou to hodně ztenčené jednotlivé čipy vyrobené samostatně, které se musí opatrně nanést na sebe a pak propojit (vrtají se skrz ně vertikální díry, ty se pak vyplňují měděnými propojeními…).

      • Technologicky to ani jako u NAND nejde. Protože se musí vzít standartní chiplet, část s L3 Cache ztenčit a až pak to můžou vrstvit, jinak by vycházela rozdílná tloušťka u L3 a zbytku chipletu a blbě by se to chladilo. Co mne zajímá, je reálný dopad na latence takové L3. Dle tvrzení AMD, tím že dokáží ten měděný vertikální spoj udělat bez pájení, je přechodový odpor výrazně menší, snad až k úrovni přímého spojení vertikálního a horizontálního vodiče, tedy na ekvivalent svařování nebo odlévání. To má mít vliv jak na nižší potřebné energie tak na zpoždění. Tomu celkem rozumím. Ale nejde mi do hlavy, jak chtějí zachovat celkovou latenci, když je obvyklé, že násobná kapacita u běžné tedy plošné cache bývá automaticky vyšší. Jediné co mne napadá, že je to tím, že procesor už od výroby počítal s tím, že navýšení kapacity přinese i úměrně vyšší počet paralelních spojů a tedy i násobné navýšení datové propustnosti. Jestli to tak je a podařilo se jim to utajit, je to naprostá pecka. I kdyby ten nárůst rychlosti neodpovídal nárůstu kapacity. Je tu ale ještě druhá možnost. Že sice nedojde k nárůstu přenosové rychlosti, ale latence se nezvýší prostě proto, že navýšení dráhy datových cest kvůli kapacitě je v porovnání s plošnou cache výrazně menší. Takto vrstvením desek s TTL obvody obvody řešil Cray latence u prvních generací superpočítačů. Mimochodem odbočka – to byly první vektorové 64. bit procesory. Tím ten výkon získal. Každopádně na první reálné měření datové propustnosti a latencí jsem velmi zvědavý stejně jako na celkový přínos.