Ultimátní čip dneška: 7nm Wafer Scale Engine 2 má 850 000 jader pro AI výpočty, 462 cm²

21

Jsou čipy a pak je Cerebras Wafer Scale Engine: monstrózní procesor, zabírající celou 300mm desku. Jeho plocha se měří v cm² a výkon (i příkon) je extrémní.

V oblasti CPU a GPU, či AI procesorů soutěží firmy o to, kdo nabídne nejvyšší výkon v dané kategorii, přičemž faktor, který je limituje je velikost čipu, který je maximálně možné vyrobit na křemíkových procesech. Ve vyždímání tohoto potenciálu byla lídr Nvidia, která už v roce 2017 dostala GPU Volta GV100 přes 800 mm² a dostala se asi na samý limit toho, co TSMC dokáže. Tyto limity mají monolitické čipy doteď.

Pak je tu ale kategorie, která je vysoko nad tím. Firma Cerebras se rozhodla, že nabídne výkon za hranicemi, které klade maximální velikost čipu. Předloni jsme tu psali o jejím AI akcelerátoru WSE – Waffer Scale Engine. Při běžné výrobě se postupuje tak, že se čip tvořící čtverec či obdélník replikuje vedle sebe na waferu (křemíkové desce) a po výrobě se tyto kousky od sebe rozřežou. Cerebrases WSE na to jde jinak.

Sice také na waferu vytváří jednotlivé replikované bloky, ale nerozřezává wafer (odstraní se jenom okraje okolo výsledného bloku, který má celkovou plochu 46 225 mm²). Firma místo separace těchto vyrobených čipů naopak dělá to, že přemostí vodiči dělící prostor mezi jednotlivými bloky, a tím z nich opět udělá celek. Současnou technologií nelze udělat z jednoho waferu jeden obří čip (protože velikost oné jedné části, která se replikuje, je omezená na těch něco přes 800 mm²), ale technologie Cerebras toto omezení obchází tím, že propojení aplikuje na wafer druhotně po jeho výrobě.

Cerebras Wafer Scale Engine a GPU Nvidia Volta GV100
Cerebras Wafer Scale Engine (první generace) srovnaný s GPU Nvidia Volta GV100 (Zdroj: Cerebras)

Výsledkem je „čip“, který má obrovské množství paralelních jader, což se dobře hodí pro akceleraci AI aplikací. Cerebras WSE je určený speciálně pro ně a díky monstróznímu množství tranzistorů, které dokáže na problém vrhnout, má zejména pro trénování neuronových sítí výkon, který tvoří kategorii samu o sobě proti běžným řešením z jednoho čipu, takže se tento procesor prodává za velmi vysoké ceny (údajně přes 2 milionů dolarů).

Wafer Scale Engine 2: 7nm proces umožní víc než dvojnásobek jader a paměti

V roce 2019 byla uvedena první generace WSE na 16nm procesu TSMC, která měla celkově nějakých 400 000 jader a 1,2 bilionu tranzistorů. Teď má Cerebras novou generaci, Wafer Scale Engine 2. Ta přešla na 7nm proces TSMC (N7, tedy stejný, na kterém vznikají Ryzeny 3000, 4000 a 5000 a také Radeony RX 5000 a 6000) a dosáhla víc jak dvojnásobné hustoty tranzistorů. Procesor vypadá velmi podobně a má stejnou plochu (v součtu 46 225 mm²). Už je v tom ale rovnou 2,6 bilionu tranzistorů.

Celý procesor má proti 400 000 jader v první generaci okolo 850 000 AI jader. Wafer Scale Engine nese přímo v křemíku také velké množství integrované paměti SRAM, která tvoří jeho pracovní prostor, díky němuž nemusí používat externí paměť jako třeba GPU. První generace obsahovala okolo 18 GB, což 7nm WSE 2 navýšil už na 40 GB paměti. Ta má celkovou propustnost (půjde asi o součet propustnosti jednotlivých bloků uvnitř celého megačipu) 20 PB/s a propustnost propojovací logiky mezi bloky čipu a jádry má být až 27,5 PB/s. Tyto parametry jsou 2,22× lepší než v první 16nm generaci.

Cerebras Wafer Scale Engine 2 Zdroj: Cerebras, via AnandTech

Jak asi víte, při výrobě CPU nebo GPU se firmy musí potýkat s přítomností defektů na waferu (wafer, kde by všechny čipy byl zcela bez vady je velká vzácnost). U malých čipů je to jednoduché, malé procento čipů, do nichž se nějaký wafer strefil, se vyhodí. U velkých čipů jako je GPU nebo CPU ale jeden defekt vyřadí mnohem větší jednotku plochy, takže se musí počítat s redundancí. Takový čip se zachrání tím, že se deaktivují příslušná jádra nebo jednotky GPU a protože zbytek funguje, může se čip prodat jako nižší konfigurace. Někdy se dokonce ani nepočítá s tím, že by se plně aktivní konfigurace někdy použila (případ konzolových APU, která musí mít všechny stejné parametry).

Přes 12 000 jader jen jako rezerva pro defekty

Cerebras nemůže žádnou část waferu vyhodit, protože v rámci své šachovnice musí fungovat všechny. Je to proto řešeno tak, že každé z jader na tomto složeném megačipu lze vypnout a akcelerátor dál funguje, protože toto jádro nahradí ostatní. Cerebras uvádí, že původně mělo být asi 1,5 % jader (při 850 000 na celém procesoru by to bylo 12 750 jader) vyhrazeno jako rezerva, která může být „sežrána“ defekty. Nakonec ale prý firma zjistila, že 7nm proces TSMC má tak nízkou defektnost a je tak zralý, že toto množství je výrazně víc, než je třeba (je ovšem pravda, že v tuto chvíli už je proces pár let starý a díky tomu vyladěný).

Wafer, respektive z něj vzniklý WSE, který vidíte na fotkách, má hodně vysokou spotřebu (představte si, že by se do desky o průměru 30 cm soustředila spotřeba všech procesorů nebo GPU, které se z ní vyrobí a rozřežou). Je proto potřeba hodně silné speciální vodní chlazení. Výsledný systém CS-1 (s 16nm první generací) tak obsahuje jen jednu desku WSE, ale infrastruktura okolo potřebuje rozměrný server, který má v racku výšku 15U, obsahuje dvanáct 100Gb síťových adaptérů Ethernet a 12 (2×6 redundantně) napájecích zdrojů o celkovém špičkovém výkonu až 23 000 W.

WSE 2 vyjde v Q3 2021

Podle firmy by druhá generace WSE 2 a na ní založený systém CS-2 měla vyjít letos v třetím kvartálu. CS-2 má být velmi podobný systému CS-1, takže by měla zachovat stejnou konektivitu a příkon, ovšem dosáhne díky výkonnějšímu srdci vyšší výkon.

Cena jednoho systému CS-1 je údajně přes 2 miliony dolarů (pokud to nečtu špatně a toto není jen částka za samotné křemíkové „plato“ bez provozní infrastruktury okolo). Druhá generace bude ale výrazně dražší, má stát „několik milionů dolarů“.

Cerebras Wafer Scale Engine 2, systém CS 2 Zdroj: Cerebras, via AnandTech

Uživateli systémů Cerebras první generace jsou zejména výzkumné instituce a procesory slouží pro simulace při výzkumu nemocí a léků včetně rakoviny, COVID-19, ale i dalších komerčních a státních využitích (architektura je vedle AI údajně použitelná i na vědecké simulace, simulace kapalin nebo genomiku). Systém by měly mít americké národní laboratoře Argonne, Lawrence Livermore, výpočetní centra v Pittsburghu, Edinburgh a dalších, někdy je WSE integrovaný do konvenčního superpočítače. Vyšší výkon druhé generace by část těchto uživatelů mohl vést k upgradům, ale také asi přitáhne další zákazníky, kterým unikátní výkon dokáže vydělat peníze nebo poskytuje možnost řešit do té dobyu nepraktické výpočetní problémy.

Uživatelé procesorů Cerebras Wafer Scale Engine/CS-1 Zdroj: Cerebras, via AnandTech

Proti běžným monolitickým čipům přináší opravdu Cerebras úplně odlišnou úroveň výkonu. Ovšem je možné, že teď s příchodem čipletových technologií a pokročilého pouzdření a propojení začne WSE pomalu dostává konkurenci. Třeba výpočetní GPU Intel Ponte Vecchio pro superpočítač Aurora sice nemá zdaleka takovou šílenou celkovou plochu jako Cerebras WSE, ale na poměry ostatních konkurentů „vrhá na problém“ také nebývalé množství křemíku, kdy jedno „GPU“ obsahuje přes 40 čipletů. V dalších generacích může Intel množství čipletů a plochu křemíku (a tím počty tranzistorů) posunout ještě dál, takže takovéto designy budou možná jednou WSE konkurovat. Tato extrémní řešení v budoucnu zdá se budeme vídat častěji.

Galerie: Cerebras Wafer Scale Engine 2

Zdroj: AnandTech

Ultimátní čip dneška: 7nm Wafer Scale Engine 2 má 850 000 jader pro AI výpočty, 462 cm²
Ohodnoťte tento článek!
4.6 (92%) 10 hlasů

21 KOMENTÁŘE

  1. Zaujala mě ta informace o velmi nízké defektnosti TSMC 7nm, na takový „megačip“ je to fajn. Držím jim palce, je to zase něco jiného, než lepit čipy z čipletů (i když prakticky je to asi docela podobné). Jsem zvědav, jak daleko to dotáhnou.

    • S tou výtěžností je to dost divné. Pokud by opravdu platilo, že jde vypnout každé jádro zvlášť, tak předpokládat, že na 46 tisících mm2 bude 12 tisíc defektů je úplně mimo realitu. To by byl defekt na každých 4 mm2, což by znamenalo, že se na tom procesu nedá vyrobit prakticky žádný funkční čip.
      Tedy to, že ten počet defektů je menší, je spíše logické, než že by to měl být důkaz o tom, že má 7nm proces nějak skvělou výtěžnost. Tím nechci říci, že nemá skvělou výtěžnost, jen to, že to neplyne z toho, co je napsané v článku.
      Kdybych si měl tipnout, tak každá z těch 84 dlaždic se skládá z nějakého počtu bloků po X jádrech. A ten blok je buď funkční nebo ne. Tedy jeden defekt vyřadí těch jader třeba 64.

  2. Ten chladič co uchladí ve špičce 23 000 W bych chtěl vidět. Právě v něm je ukryto tajemství proč to celé funguje. Zajímavé by bylo vědět jak dlouho tu špičkou jsou schopni udržet.

            • další z tvých pověstných mouder … taky by ses asi potřeboval víc pohybovat, nechladí ti to … jdeš pořád na volnoběh

            • Motor chladičem? Leda tak na motorce, u aut vzduchem chlazený Porsche a Tatra (u kterých notně asistovaly ventilátory). Vodou chlazený motor, třeba i stacionár (motor agregátu třeba) je v principu něco jako AiO.

            • Choze 23.4.2021 at 10:42

              Motor je chladičem – Ano kovové části motoru slouží jako chladič. V motoru hoří palivo a kov produkty hoření ochlazuje. Naproti tomu v procesoru kov vede proud a ohřívá okolí. Jediná část procesoru která funguje jako kovové součásti v motoru je heatspreader. Ten ale není funkční částí procesoru ale jenom odvádí tepla.

              Využití pohybu auta – U všech automobilů se používá k chlazení vzduch který obtéká automobil a minimalizuje se tak potřeba vytvářet proud vzduchu k chlazení. Protože počítač se nepohybuje proud vzduchu se musí vždy vytvářet větrákem.

              Proto nechápu proč tvrdíte, že to jako AiO. Nerozumím Vám.

            • Hřibe, proč si nenecháš poradit? Napíšeš hloupost a pak se snažíš všemi prostředky tu hloupost obhájit a děláš ze sebe většího a většího hlupáka … … nerozumíš procesorům, nerozumíš motorům, rozumíš máločemu …
              kdyby motor auta neměl vodní, nebo u několika málo vzduchový nucený okruh uvnitř bloku, upeče se na prvním semaforu i kdybys ho ofukoval osobně … …

            • @Dedek
              To všechno nerozporuju. Ano u některých konstrukcí se motor uchladí sám. Typicky je motor motocyklu bez kapotáže s pořádným žebrováním válce a hlavy motoru. Nicméně drtivé množství motorů v automobilech je chlazeno kapalinou stylem: Blok motoru (waterblock) -> vodní čerpadlo -> tepelný výměník (pro vyšší výkon doplněný ventilátorem). Ano drtivá většina aut má vepředu tepelný výměník (radiátor) jako chladič.

            • Já bych taky řekl, že se to AIO celkem podobá. Chladící kapalina odvádí teplo mimo motorový blok, do radiátoru, který je principiálně hodně podobný tomu v AIO chladiči procesoru, je za maskou jako když se AIO posadí do PC skříně vepředu. Rozdíl je v tom, že do něj fouká nápor vzduchu a to většinou stačí. V autě je i vrtule, ale ta se pouští jenom když auto zastaví/poskakuje v zácpě.

              (Pokud tedy auťák nemá chlazení vzduchem.)

            • Choze 23.4.2021 at 19:16
              Jan Olšan 23.4.2021 at 19:55

              Ano máte oba pravdu to nerozporuji. Tohle je princip obecně všech chlazení včetně kompresorové ledničky. Tyhle dva rozdíly (vznik tepla a náporové chlazení pohybem) na kterých jsme se shodli určují rozdíly mezi chlazením procesoru a automobilu. Snažím se na nich poukázat, že je návní si myslet, že můžeme použít chladič od auta na chlazení WSE 2. proto si myslím že to bude docela pěkný oříšek. Ano výkonově by to zvládly ale právě tahle specifika „auto chladiče“ diskvalifikují.

              Právě z těch dvou důvodů mne zajímá jak to chladí a bohužel jsem o tom nikde nic nenašel. Redukce problému chlazení jenom na výkon chladiče je neporozumění problému a proto jsem se poškleboval tady Simi 22.4.2021 at 14:21 a rozpoutal tuhle diskusi. I tak mi na to AiO nějak moc nesedí

            • Nepsal jsem, že můžeme použít chladič od auta! Ptal jste se na chladič o výkonu 23kW, chladič auta ten výkon má, jinak by auto neuchladil.

              Procesor má vodní okruh. Pokud používají výměník voda-vzduch, je ten chladič konstrukčně stejný jako chladič u auta nebo jakýkoli jiný výměník voda-vzduch. Třeba ten u AIO vodníků, klimatizací nebo sahar.
              http://www.krollczech.cz/eshop/teplovzdusne-sahary

              Motor auta má běžně kolik… 66kW (ať se to dobře počítá), což při účinnosti cca 40 % dělá cca 100kW odpadního tepla.

              Chladič auta těchto parametrů dosahuje při velkém rozdílu teplot – voda má až cca 105 stupňů a musí zvládnout uchladit auto i při cca 40 stupních(?) IMO, protože se teplo vyměňuje prouděním a ne sáláním bude při poloviční rozdílu teplot poloviční výkon. Takže mi to prijde přiměřené i při nižším proudění vzduchu.

              Chladič motoru má primárně logicky zajištěné proudění vzduchu náporem. Nicméně:
              1, to na principu nic nemění, pouze stacionární chladič musí mít dostatečně výkonný ventilátor
              2, Motor auta má ventilátor pro nucené chlazení a ten musí být dostatečně výkonný, aby uchladil motori při pomalé jízdě i s velkým zatížením – např. v terénu s těžkým vlekem, takže chladící výkon za běhu ventilátoru rozhodně nebude malý.

            • Když už chcete slovíčkařit tak já jsme nikde nenapsal že tvrdíte tohle „můžeme použít chladič od auta!“. napsal jsem „Viděl jste někdy vedle sebe chladič procesoru a motoru? :-)“

              1. Ano ale jak zajistíte pro každý chip proud vzduchu který kolem auta je třeba 80 km/h a v obtékaném průřezu auta dejme tomu 2 m čtverečné. Teď si vemte, že tohle máte zajistit pro serverovou farmu která je v uzavřené místnosti a jsou tam desítky takových serverů a v nich desítky chipů. To je šílený výkon. Proto si myslím že, vyfouknu teplo z case do místnosti je mimo a nepřekvapilo by mne kdyby byly servery napojeny na trubky s chladící kapalinou a ty by vedly ven z místnosti do venkovních výměníků. K serverům by se nepřiváděla jenom elektrika a kabely ale i chladící trubky. To je ale jenom fabulace.
              2. Ano ale tyhle servery stojí stále na místě v zavřené dobře izolované a zabezpečené místnosti. Ani je pasivně nechladí karoserie auta. Jenom málo ze serverů, jestli vůbec nějaký je potopen v moři které ho přirozeně chladí.

            • 0, ad. „tak já jsme nikde nenapsal že tvrdíte tohle „můžeme použít chladič od auta!“. “

              Napsal jste „Snažím se na nich poukázat, že je návní si myslet, že můžeme použít chladič od auta na chlazení WSE 2.“.
              Vymezujete se proti něčemu co tady nikdo netvrdí.

              1,
              „nepřekvapilo by mne kdyby byly servery napojeny na trubky s chladící kapalinou a ty by vedly ven z místnosti do venkovních výměníků.“

              Ty čipy mají vodní chlazení je to napsané ve zprávě!
              A přesně takto vodní chlazení funguje čip/motor předá teplo chladící kapalině a ta se odvede do místa, kde může předat teplo okolí/jinam.
              A ten venkovní výměník se zcela nepřekvapivě nazývá chladič. A jak jsem psal v předchozím příspěvku je konstrukčně v principu stejný jako u toho auta.

            • Nevymezuji se. jenom reaguji na jedno člověka který mi na otázku jak vypadá chladič takového procesoru reaguje „Chladič o mnohem vyšším výkonu je dnes v každém autě…“

              Zase mi jenom dokazujete že si neuvědomujete jaké množství tepla takové řešení vyzařuje. To co popisujete je obecně princip všech chlazení (i auta) ale nevysvětluje to jak to uchladí servery nebo farmy serverů.