Nvidia uvádí Voltu: obrovský 815mm² čip na 12nm procesu, HBM2 a 5376 shaderů

GPU GV100 je nejkomplexnější počin, který zatím Nvidia vyprodukovala, a to nejen proto, že je zatím nejnovější. Architektura Volta ve své formě určené pro výpočetní nasazení a zejména neuronové sítě docela silně překračuje hranice prostého grafického procesoru.

113

V uplynulých týdnech a měsících se množily zprávy o tom, že Nvidia „něco chystá“. Měli jsme tu drb o letním vypuštění GPU Volta, pak také dosti nečekanou zprávu o tom, že by mohlo být vyráběno 12nm procesem. Očekávání tedy byla napjatá a Nvidia navíc tento týden pořádá svou konferenci GTC. Když tedy šéf Jen-Hsun Huang údajně předevčírem upustil, že během své hlavní prezentace na GTC oznámí nový hardware, nadšenci do grafických karet už se asi nemohli dočkat. A zklamáni nebudou, neboť Nvidia skutečně novou generaci GPU oznámila. Byť s malým háčkem, neboť je zřejmě určena ne pro herní karty, ale jen pro enterprise výpočty.

 

Větší než cokoliv předtím

Ovšem Volta přes to bude úctyhodný počin. Od této architektury (která se ve veřejných roadmapách Nvidie mimochodem objevila ještě dříve než Pascal) bylo zatím představeno jen jedno GPU: čip zřejmě nazvaný GV100 a na něm zbudovaný výpočetní akcelerátor Tesla V100. Představuje zřejmě absolutní highend, navazující na Teslu P100 generace Pascal. Má tedy integrované paměti typu HBM2 – v kapacitě 16 GB, s 4096bitovou sběrnicí a propustností 900 GB/s – a používá kompaktní „placaté“ provedení SXM2 pro servery.

GPU GV100 má zcela bezprecedentní velikost. Údajně měří 815 mm², přestože je skutečně vyráběn novým, 12nm výrobním procesem TSMC (což by údajně měla být evoluce 16nm procesu, nicméně v tomto případě je proces „12FFN“ údajně uzpůsoben speciálně pro Nvidii). GV100 je každopádně s velkým náskokem zatím největší GPU vůbec, složeno je údajně z 21,1 miliard tranzistorů. Půjde i o jeden z nejrozměrnějších čipů obecně, protože takovéto plochy jsou velmi vzácné, dosahovaly by je asi jen některá „big iron“ enterprise CPU.

Nvidia Tesla V100 s čipem GV100
Nvidia Tesla V100 s čipem GV100 (na vizualizaci)

To se odráží i ve specifikacích. Tesla V100 má 5120 stream procesorů (80 bloků SM) a celkem 6 MB L2 cache. Takt by zřejmě měl být okolo 1455 MHz, jelikož čip má výkon 15 TFLOPS při jednoduché přesnosti. S dvojitou přesností je to pak 7,5 TFLOPS – ta je tedy prováděna s vysokým výkonem (FP64:FP32 v poměru 1:2). To se však čekalo, jelikož na GPU Volta mají běžet některé nové superpočítače. Specifikace Tesly V100 ale není maximální konfigurací čipu. Všechna GV100 mají vzhledem k velikosti část bloků deaktivovanou, takže fyzicky na čipech má být údajně shaderů dokonce 5376.

Tensor Cores pro čtyřnásobný výkon

Nejzajímavější je zřejmě přidání 640 takzvaných „Tensor Cores“, tedy Tensor jader. To jsou jednotky navíc mimo hlavní výpočetní ALU, které jsou úzce specializované na operace pro neuronové sítě a strojové učení. Měly by provádět operace typu FMA (součin dvou hodnot FP16 a pak součet s hodnotou FP16 nebo FP32), a to současně 16× najednou. Při plném zapojení všech těchto jednotek má údajně výkon čipu GV100 být až 120 TFLOPS.

Tensor Cores v čipu GV100 (Zdroj: VideoCardz)
Tensor Cores v čipu GV100 (Zdroj: VideoCardz)

Skutečná využitelnost ale bude pochopitelně záviset na tom, jak dobře se běžící úloze bude dařit tyto specializované jednotky navíc vytížit a asi se prosadí jen ve výpočetním použití, v herní grafice pravděpodobně ne. Mimo jiné proto, že je pravděpodobně Nvidia nebude integrovat i do nižších GPU určených pro herní karty (nicméně to je jen odhad, s jistotou to říci nelze). Tensor Cores však asi budou v Tegře Xavier, což vysvětluje podezřele vysoký teoretický výkon, který u ní Nvidia loni uváděla.

Maticová operace, kerou umí Tensor Cores provádět
Maticová operace, kerou umí Tensor Cores provádět

 

SM má FPU i celočíslené ALU

Základní jednotka SM je v architektuře Volta přepracována a údajně má být až o 50 % efektivnější co poměru výkonu a spotřeby. Složení SM je takovéto: 64 stream procesorů („shaderů“) pro výpočet s běžnou přesností FP32 (a patrně také FP16 s dvakrát větší propustností), 32 shaderů podporujících FP64, 8 oněch Tensor jader a k tomu ještě 64 stream procesorů pro celočíselné výpočty (až s přesností INT32). Volta by totiž měla umět paralelně posílat operace těmto jádrům a FP shaderům, což by mělo zefektivnit výpočty míchající typy operací a zlepšit výkon. V každém SM jsou také 4 texturovací jednotky (celkem je jich tedy 320), takže GV100 se stále dá použít i pro konvenční grafické operace.

Blok SM architektury Nvidia  Volta v čipu GV100
Blok SM architektury Nvidia Volta v čipu GV100

GPU bude jako rozhraní používat PCI Express 3.0, nebo rozhraní NVLink 2.0. Jendo GPU podporuje šest linek NVLink o propustnosti 25 GB/s, takže celkově až 300 GB/s. V kombinaci s procesory IBM Power9 by na tomto rozhraní měla být podporována koherence pamětí GPU a CPU.

Spotřeba tohoto obřího čipu bude logicky vysoká, údajně se ale stále vejdet do 300 W, což byla i hodnota pro Teslu P100. Nicméně toto je údaj pro ono modulové provedení. Kromě toho má prý být vyráběna i méně žravá varianta v konvenční podobě karty do slotu PCI Express, která má mít TDP jen 150 W. Její takty a výkon ale logicky budou muset být nižší. Podle Nvidie má tato verze sloužit spíše pro aplikaci neuronových sítí, nikoliv pro jejich trénování, pro což je určen hlavní 300W model.

Schéma čipu GV100
Schéma celého čipu GV100

Odhalení zatím jen na papíře

Ačkoliv Volta GV100 byla oznámena takto brzy, jde jen o papírové odhalení. Reálně dostupná má být až v třetím kvartále roku, a to zřejmě jen hodně omezeně. Nvidia totiž hodlá udělat to samé, co s Teslou P100 a ze začátku bude Teslu V100 prodávat jen ve svých vlastních značkových serverech DGX-1 (na čemž celkově shrábne vyšší marži). Je také možné, že v této fázi budou dostupná množství omezená. Širší dostupnost má nastat až v čtvrtém kvartále, kdy by Tesly V100 měli už mít k dispozici i ostatní výrobci serverů a distributoři. Reálně se tedy Tesla V100 bude na trhu objevovat až se zpožděním několika měsíců oproti dnešnímu odhalení. Nicméně vzorky již funkční jsou, Nvidia na nich údajně na GTC pouštěla dema.

Volta pro hráče?

Ačkoliv highendový výpočetní hardware je také zajímavý, nás přeci jen zajímá, jak by Volta mohla promluvit do herních grafických karet GeForce. Přímo u GV100 na to asi moc vysoká šance není – asi ještě nižší, než jaká byla u čipu GP100. Je to jednak velkou specializací tohoto GPU na výpočetní nasazení, pro kterou má navíc mnoho tranzistorů, které GeForce nevyužije. Zejména je tu ale problém s velikostí čipu vyráběného na velmi novém procesu. Tato GPU budou mít vysoké výrobní náklady a trh s kartami GeForce pro Nvidii asi proti kartám Tesla dostatečně lukrativní (pokud tedy za grafiku nechceme platit sumy převyšující sto tisíc korun). I se zajištěním potřebného vysokého objemu výroby by mohl být problém.

Nicméně, časem by se snad měl objevit derivát Volty, který bude pro herní grafiku už patřičně očesán, podobně jako má Nvidia k výpočetnímu Pascalu GP100 také herní GP102. A takový hypotetický čip GV102 už by pak pro nás měl i přímý význam. Dost možná by mohlo jít o údajnou katu s GDDR6 a 768GB/s propustností, kterou „avizoval“ Hynix.

Nvidia uvádí Voltu: obrovský 815mm² čip na 12nm procesu, HBM2 a 5376 shaderů

Ohodnoťte tento článek!
5 (100%) 1 hlas/ů

113 KOMENTÁŘE

      • Hlavne je legracni, jak se AMD fans Volty boji. Dival ses uz na ty dva cerveny fanweby? Ani jeden neuvedl, ze vykon se zapojenymi Tensor Cores ma byt az 120 TFLOPS 🙂 Ten silenec z blogysku na tom dokonce postavil teorii, ze narust vykonu u Volty neni moc velky, doslova „NVIDIA je tak o 48% větší, mnohonásobně výrobně náročnější a dražší a jen o 20% výkonnější“ 😀 Uvedomuje si vubec, jak brutalne se ztrapnil? 😀 Vykon Tesly V100 muze byt az o 545% vyssi, nez u Vegy od AMD 😀 Vegu v HPC proste nikdo kupovat nebude. To je uz ted docela jasne. A jestli prijdou brzy i consumer Volta GPU, nebude nikdo Vegu kupovat ani jinak.

        • Tak v HPC a deep learning ma nvidia takove uspechy, ze zdvojnasobila zisk a prijmy se zvedly o 50%. Nvidia ma knowhow, profi support, tradici a duveru provozovatelu cloudu jako MS, Amazon nebo Google.
          Tomu amd nemuze konkurovat, i kdyby ji Lisa nabizela nahore bez.

        • Chlapci vy jste hodně mimo. Jeden skočí Nvidii na marketing o 120 tflops. (při přesnosti FP4 lol) a druhej blekota o úspěších v deep learningu, přitom zisk táhne gaming a hlavně switch. Jste horší než ten ruddý demagog.

          • Přesnost by měa být standardní, FP16 nebo FP32 (teď úpně jistě nevím, ale výsledek se může uložit do FP16 i do FP32). To omezení je tam v tom, že je to jen jedna operace součinu nad 16 dvojicema vstupů a k tomu ten součet zase s 16 čísly. Čili to není srovnatelné s nromální shader ALU, je to spíš jako kdyby to byl specializovaný blok DSP nebo ASIC akcelerátoru.

            Užitečné to má být pro určitý algoritmus trénující neuronovou síť přesně těmahle operacema, nic víc, nic míň.

          • Tensor Cores maji presnost FP16/32 – viz. AT – „These cores are essentially a mass collection of ALUs for performing 4×4 Matrix operations; specifically a fused multiply add (A*B+C), multiplying two 4×4 FP16 matrices together, and then adding that result to an FP16 or FP32 4×4 matrix to generate a final 4×4 FP32 matrix.“

            Cela V100 ma ve skutecnosti 5376 (Cuda) + 672 (Tensor) = 6048 jader, protoze Tensor Cores jsou samostatna. Operace, ktere Tensor Cores delaji, jsou presne ty, co se pouzivaji ve strojovem uceni (konkretne deep learning). Na to ma byt nova Vega primo urcena, ale uprimne, s vykonem jen 22 TFLOPS proti 120 TFLOPS nema zadnou sanci. A to jeste pred tim, nez vubec stihla vyjit. Pro AMD naprosta katastrofa.

          • @JanOslan

            „Užitečné to má být pro určitý algoritmus trénující neuronovou síť přesně těmahle operacema, nic víc, nic míň.“

            To se pletete matrix-multiply FMA se da pouzit pro spoustu dalsich veci, i v simulacich. Ale ano, primarne to je urcene pro deep learning.

          • @Maudit
            Mělo by to být 25 TFLOPS. Jinak teda osobně nemám vůbec představu, k jak velkému subsetu všech různejch AI/NN algoritmů tahle oparace stačí. Pokud by to všechno bylo takhle jednoduchý, tak samozřejmě nepotřebujeme GPU, ale všechno by to jelo na jednodušších ASIC, které by neuměly nic jiného (takže super spotřeba a výkon…), něco jako se stalo s Bitcoin minery. Nebo teda aspoň z toho mám takovej pocit.

            U složitějších algoritmů by se to ale asi pořád dalo uplatnit vždycky na část toho procesu…

          • Údajně se prý ta architektura Tensor Cores dost podobá TPU od Googlu, ta je prý dělaná přesně na to samé, jen má jenom INT8 přesnost.
            Čili se to asi dá chápat jako specializovaný akcelerátor pro určitou operaci. Ale proti TPU tohle bude mít výhodu, že Volta mezi tím dokáže dělat i obecné operace.

          • @del42sa

            Kdyz se vyhodnocuje signal pro node (neuron), tak se nasobi prichozi hodnota vahou pro dane spojeni (typicky byva spojena kazda node v jedne vrstve site s kazdou v dalsi vrstve). To se udela pro vsechny nody v dane vrstve a ten vysledek se pak secte pro kazdou node. Proto matice. A tahle jedna iterace, to je presne to, co bude akcelerovane. A protoze deep learning site muzou byt sestavene mnoha ruznymi zpusoby, ale prakticky vsude funguje stejny princip, je vyhodne tuhle jejich zakladni stavebni jednotku specialne akcelerovat.

          • BTW jsem se poradne podival na ty Tensor Cores:

            These cores are essentially a mass collection of ALUs for performing 4×4 Matrix operations; specifically a fused multiply add (A*B+C), multiplying two 4×4 FP16 matrices together, and then adding that result to an FP16 or FP32 4×4 matrix to generate a final 4×4 FP32 matrix.

            … tudiz nejenze to umi jenom matice, ono to umi nasobit jenom FP16 matice. Tudiz vsichni co delaji neco jineho nez deep learning, na tech 120TFlops muzou rovnou zapomenout (protoze 99% HPC ktere neni deep learning, pouziva FP32 nebo FP64). Tohle mi uz prijde jako dost extremni sazka na AI…

        • Ono na porovnání stačí trojčlenka:
          P100 V100
          Peak FP32 TFLOP/s* 10.6 tflops 15 tflops
          GPU Die Size 610 mm² 815 mm²

          Ok, nevím kolik plochy zabírají tensor cores atd.. ale nárůst IPC bude marginální. Pokud někdo čeká od Volty revoluci… bude zklamaný.

      • Vítám partu ubrečenců a trolů z diit! Krásné ráno všem! Tak moje křišťálová koule nelhala když předpověděla, že AMD počká na Voltu aby zase hrála druhé housle.
        Uvědomil jsem si ale i jinou věc, vem si jakou to dalo práci navrhnout, odladit, dostat na výrobní linku, vyladit výrobní linku, snížit zmetkovost, a pak ti nějaká AMD socka napíše: „Ta nVidia má přepálený ceny! FŮJ! Počkám si na Vegu a nVidie bude muset zlevnit!“ Ale přitom vůbec nevidí jak to všechno bylo drahé a cena je opodstatněná. Pak výjde vega a bude mít srovnatelnou cenu s Voltou a najednou to bude super produkt za skvělé peníze?! Všichni AMD fanoušci jsou na chocholouška.
        Jinak k té Voltě, je jasné a viditelné z těch schémat, že u herního čipu vynechají ty výpočtové bloky, protože zabírají polovinu prostoru tak se nabízí že energie klesne na polovinu tedy těch zmíněných 150W a velikost čipu bude někde mezi 400-500mm2. Ani bych se nedivil kdyby vyráběli uprostřed wafru tyhle náročné čipy a na okrajích pro herní ty druhé zmetkovité.

        • jo a ještě koukám, předobjednávky už příjmají, a začnou dodávat celé systémy v Q3 a v Q4 už samotné karty. Takže Q2 pomalu končí, takže už je musí mít vyladěné, vyzkoušené a připravené a trh je vrhnout. Nejpozději v listopadu tady budou herní Volty, ne-li dřív. Ta platforma je hotová a už teď musí z linek sjíždět první čipy. nVidie na AMD čekat nebude a ty dva roky nadvlády pilovala Voltu k dokonalosti! Bay bAy vlhké sny o Vece…

    • Myslis? Minuly rok Nvidia uplne stejne uvedla Pascal grafiky. Taky nejdriv odhalila Teslu P100 (5. dubna 2016) a behem dvou mesicu odhalila prakticky kompletni Pascal radu. Volta je za rohem a zrejme vyjde zaroven s Vegou. Takze „papa AMD“ 🙂

      • Hele, mne osobne je to celkem sumak, jelikoz je pro mne stejne vsechno cenove nad 1060/580 nezajimave.
        Ja jsem spise zvedavy, jaka Volta bude, a jaky pokrok udelala NV v implementaci low level api.
        Treba NV neco za 2 mesice predstavi..neprijde mi to ale uplne pravdepodobne, protoze moc nema duvod.

        • Nvidia byla v low-level API lepsi nez AMD uz pred Voltou. To akorat vy AMD fans si to spatne vykladate. Ja to chapu, pri stavu, v jakem AMD je, se chytate cehokoliv, ok. A ano, AMD ma v low-level API vetsi narusty, nez Nvidia. Ale ve vysledku je i tak Nvidia stale rychlejsi (pouze naskok se zmensi). Jenze duvod pro vetsi narusty u AMD neni to, ze by mela lepsi implementaci low level API. Duvod je to, ze puvodni implementace AMD pro DX11 byla vyrazne horsi, nez u Nvidie, takze meli mnohem vetsi prostor pro zlepseni.

          GTX1060 of Nvidie je totiz v 30% mensi cip, presto dosahuje stejneho vykonu v DX12, jako RX480. To je to zasadni meritko efektivity architektury.

          • No jo, a zeme je plocha a neotaci se kolem slunce, vid 🙂
            Nejak zapominas na vyssi frkevence, n jo, oni by se nehodili do kramu, co.. jasne, nvidia je zelena a proto je nejlepsi 🙂
            Klesas na stejnou uroven jako tady Mr. Hnizdo..

          • Schopnost architektury dosahovat vyssich frekvenci je ale taky znamkou jeji vyssi pokrocilosti. V cem je problem? AMD zi zvolila architekturu, ktera ma velke problem dostat se na vyssi frekvence. To je ale chyba AMD a vada GCN, rozhodne ne chyba Nvidie 😉

          • http://www.in.techspot.com/reviews/graphics-cards/radeon-rx-580-vs-geforce-gtx-1060-27-game-battle/articleshow/58528882.cms?page=8
            tak, s tou vyhodnostou gtx1060 narozdiel od rx480(580)
            by som si na tvojom mieste kusol do jazyka 🙂
            pri 27.hrach je 16x rychlejsia,0xrovnaka 2x -1% a 9x pomalsia
            btw, tvojich 30%menej pravdepodobne robi presne to, ze ju nekupuju ludia na cryptomining, ale asi by ti odpadli prsty, keby si to napisal, co

          • Problem P4 (pozdejsi generace, prvni byly naprosto v poradku) neni vyssi frekvence jako takova, ale cena, kterou za to ten cip zaplatil – brutalni a neefektivni pipeline.

            U Pascalu mas jak vysokou frekvenci, tak efektivni architekturu.

          • Tak jo Maudite, Intel se s návrhem vysokofrekvenční architektury vůbec nesekl..tudíž ani nemohl přejít zpatky na PentiumM (alias vylepšené P3), které dosahovalo daleko vetsiho výkonu v přepočtu na 1 MHz než li P4.
            Shrnuto, tráva je o pět zelenější, v tomto případe modrejsi a vlastně proc tu diskutujeme.. 😉

          • tombomino 11.5.2017 at 11:51 Jako obvykle jsi kompletne mimo. Intel mel vysokofrekvencni architekturu northwood / prescott zcela v poradku, byla na vrzena na 4-5GHz. Jenze vyrobni proces tech frekvenci ani pres extremni spotrebu nedosahl. V procesu byl problem, ne v arch.
            Dnes ma tedy nvidia jak vhodnou arch tak proces, a jeste k tomu nizkou spotrebu.

          • Hnizdo, chapes ty pismenka co jsou napsane? Chapes vyznam slovniho spojeni „Schopnost architektury dosahovat vyssich frekvenci je ale taky znamkou jeji vyssi pokrocilosti.“ Coz je nesmyslna veta, protoze neni pravdiva.
            Pokud nechapes tuhle vetu, tak vubec nevim, proc tady na neco odpovidas. Protoze odpovidas uplne neco jineho.

          • Architektura P4 měla určité problémy (replay stormy, měla hodně slabých míst, které vyžadovaly, aby programátor speciálně pro P4 ladil a testoval výkon – pokud by to byla minoritní architektura od AMD, tak to úplně vybouchne).

            Ale není pravda, že by ji zradil proces. Problém byl v tom, že ten plán na vysoké takty narazil na fenomén, že spotřeba nad těma 3,5-4 GHz (tehdy) šla strašn nahoru a škálovat to prakticky už dál nemohlo, i když čistě ta archtiektura na ještě větší takty dělaná byla. Objevila se tzv. Frequency Wall, kteorou v době koncipování Netburstu nikdo nečekal. Lepší proces by moc nepomohl.

            A ještě se tam objevilo, že první generace P4 byla dobrá – nebyla. První 180nm generace byla nejhorší (Willamete, bez HT, jen 256KB L2 a tak dál). Nejlepší komparativně proti konkurenci byl Northwood, tj. druhá generace na 130 nm. Cedar Mill na 65nm už byl příliš pozadu za K8, ale taky byl lepší než Prescott.

          • tombomino 11.5.2017 at 12:34 „Schopnost architektury dosahovat vyssich frekvenci je ale taky znamkou jeji vyssi pokrocilosti.“ Coz je nesmyslna veta, protoze neni pravdiva.“

            Samozrejme je pravdiva 🙂 Jakykoliv pokrok je – znamkou pokrocilosti 🙂

            To je zase debata, ja se bavim.

          • @Maudit: o 30 % menší čip ? Možná ve zvláštní škole, kterou jsi nejspiš navštěvoval 🙂 nemluvě o tom , že i výpočetně jsou ty čipy od sebe zcela v jiných dimenzích.

            RX 480: 5.8 TFLOPs vs GTX 1060: 3.8 TFLOPs
            Fury X: 8.6 TFLOPs vs GTX 980 Ti: 5.6 TFLOPs

          • Jan Olšan 11.5.2017 at 12:45 V tom bordelu jsem to prehlid.

            „Ale není pravda, že by ji zradil proces. Problém byl v tom, že ten plán na vysoké takty narazil na fenomén, že spotřeba nad těma 3,5-4 GHz (tehdy) šla strašn nahoru a škálovat to prakticky už dál nemohlo, i když čistě ta archtiektura na ještě větší takty dělaná byla. Objevila se tzv. Frequency Wall, kteorou v době koncipování Netburstu nikdo nečekal. Lepší proces by moc nepomohl.“

            Hmm, architektura byla delana na vysoke frekvence. Procesem to nebylo. Cim to tedy bylo?

            https://en.wikipedia.org/wiki/Pentium_4

            At the launch of the Pentium 4, Intel stated that NetBurst-based processors were expected to scale to 10 GHz after several fabrication process generations. However, the clock speed of processors using the NetBurst microarchitecture reached a maximum of 3.8 GHz. Intel had not anticipated a rapid upward scaling of transistor power leakage that began to occur as the die reached the 90 nm lithography and smaller.

            Na wiki se pise, ze to bylo procesem.

          • to del42sa: Ty jsi dobrej traged, pry nehodi do kramu. Chtel bych vedet do ktereho? Ale jo, jen to ukazuje na ze to je super, druper architektura. Potrebuje daleko vetsi teoreticky vykon na stejny realny. Bez za Stachem onanovat nat teoretickym vykonem jako meritkem vyspelosti architektury.

          • @Hnizdo
            Procesem to nebylo, protože ani slušný 65nm proces po horším 90n to nezachránil. Ta frequency wall a zvýšená leakage by nastala na jakémkoli procesu. Architektura prostě byla dělaná v době, kdy byla leakage málo významná a zřejmě se nevědělo, jak moc na 90nm a později poroste. A když najednou ta leakage přišla a začla růst jako blázen, tak moc nebylo jak ji vyřešit – leda zůstávat na nižších frekvencích a výkon zvedat hlavně přes IPC (což ale bylo opačené rozhodnutí, než za koncepcí Netburstu).

            Toto by nastalo n akaždém procesu, erge myslím můžu zodpovědně říct, že proces to nazabil. Prostě to bylo koncipována za odlišného stavu vědění. Dneska je ten frequency wall známej a všichni si myslí, jak to bylo zřejmé, ale to je situace „po bitvě je každý generálem“. Před Pentiem 4 se to nevědělo a Intel měl prstoě smůlu, že ta čest ukázat všem na slepou uličku padla na něj.

            I když tedy jak bylo řečeno ty jádra měla i další slabiny, ale co tu koncepci znemožnilo byla ta frequency wall.

          • Hele Honzo ja mel struktury na kremiku jen dva semestry, ale leakage je zalezitost technologie, tedy procesu (vlastnosti substratu a fyzikalnich vlastnosti pouzitych hradel, bulk leakage – do substratu, inter-leakage meziprvkove), ne architektury (logicke struktury). Coz je presne to co se pise na wiki. Hadat se dal nebudu, protoze tohle nejde rozsoudit s nasimi znalostmi. Pokud tedy nemas doktorat z planarcnich technologii a mas pristup k vnitrofiremni dokumentaci intelu. Ja vychazim pouze z verejne dostupnych informaci a znalosti z VS.

          • Já myslím že to není až tak technické, ta leakage obecně dost rostla od 130nm do 65nm, zatímco dřív (předtím) dělala mnohem nižší část spotřeby čipu. Při návrhu Netburstu v devadesátých letech (tj na scéně byl 250-180nm proces) nejspíš ještě byla dost podružná, a tak s ní návrh málo počítal.

            Prescott a poslední Pentia 4 se trefila zrovna do doby, kdy ten problém s leakage byl největší. Protože potom při 45nm procesu se na ni Intel IIRC hodně zaměřil a povedlo se jí dost zredukovat použitím technologie HKMG. Později pak FinFETy/TriGate byly taky efektivní proti únikovým proudům. Ale to všechno přišlo pro Pentium 4 pozdě, v té době, kdy bylo nejvíc pod tlakem od K8ky, se zrovna ta jeho koncepce nejmíň vyplácela. 90nm proces Intelu byl asi taky horší než 130nm nebo 65nm, ale úplně zas tak drastický propad to asi nebyl.

            (Edit: onoo teda mi přijde, že se v tom zas tak nerozcházíme, ono to je z jedné strany pravda, že Intel byl nechán ve štychu křemíkem. Já s tím nesouhlasil proto, že to IMHO nebyla vina toho, že by jejich proces byl tak špatný, ale s jiným procesem by to nefungovalo. O co mi šlo, že IMHO by to v té době nefungovalo s žádným procesem, ani s tím od AMD (90nm byl u nich IIRC překvapivě povedený). Tehdy ta technologie prostě tu leakage měla a na těch vysokých frekvencí u Pentia4 se projevovala. Možná by to bylo úspěšnější dnes na FinFETech, ale stejně by to podle mě trpělo na tu frequency wall, teda že by se to pořád frekvencí nedostalo o moc výš než jádra s vyšším IPC, protože spotřeba by nad určitou hranicí rostla příliš rychle. Asi by to dopadlo podobně jako Bulldozer – dostalo by se to třeba až na 5-5,5 GHz, ale zase s horším IPC, takže pokud by proti tomu stálo jádro typu Nehalem/Sandy/Haswell, tak by to dostalo stejnou nebo asi i horší čočku, protože pro konkurenceschopnost by to potřebovalo 7-8 GHz).

            Je teda pravda, že by bylo zajímavé se podívat na extrémní OC 90nm a 65nm Pentií 4. Ty 65nm se daly pod udsíkem vytočit strašně vysoko, což ukazovalo, že archtiektura na frekvenci měla, problém byl ve spotřebě. 90nm snad pokud se nepletu taky šly na hodně vysoké frekvence (taky s tou hloubkou pipeline by bylo divné, kdyby nešla).

            Vycházím hlavně z toho, co jsem vyslechl tak porůznu, samozřejmě se můžu mýlit. Ale zapadalo by to.

  1. Tak v line-upu měli Voltu označenou jako nástupce Pascalu, takže herní hrafika z ní dříve či později bude. Každopádně je teď ani konkurence ani nedostatečný výkon u hráčů v současnosti nenutí ji vydávat.

    • Ano, Nvidia by pravděpodovbně byla schopná vydat herní verze podobně rychle jako loni s Pascalem, ale aktuálně asi nemá důvod. 1080Ti se prodávají nově, 1070/80 pořád bez konkurence, obecně má teď většina lidí upgradováno… A Vegy se nejspíš nebojí, no a i kdyby překvapila, můžou reagovat jak cenově, tak nejspíš i dřívějším vydáním herní Volty. Jsou holt až v nezdravě dobré sitauci. 😀

      Naopak v oblasti těch „enterprise výpočtů“ tak se na Voltu už čekalo a zájem by měl být množná i větší, než v případě Pascalu. A v oblastech, kde se využíjí Tensor cores, tak to může být opravdu revoluce, jinde standartní nová generace.

    • No – kdo říká, že vůbec budou v herních kartách? Tam by být neměly, jde čistě o výpočetní sektor, jak je tu řečeno. A tam to skutečně, pro některé typy operací, je obrovský pokrok, toť ale vše.

      • Jak nehodí? Když o tom tak přemýšlím, nebyla to právě AMD, která přispěchala s DX12 a Vulkánem pro asynchronní řazení grafických a výpočtových úloh? Co když nVidie přišla s tím že nebude provádět hyperthearding úloh, ale obě cesty zpracování od sebe oddělí, tak že budou obě fronty zpracovávány souběžně? aha že. (netrvdím že to tak bude, ale jen mě dojímají předčasné závěry, s tím že neexistující Vega je už teď lepší než už existující Volta)

          • I když teď čtu co jsi tu sám psal „jo a ještě koukám, předobjednávky už příjmají, a začnou dodávat celé systémy v Q3 a v Q4 už samotné karty. Takže Q2 pomalu končí…“
            Tak spíš nelžeš záměrně, ale jsi jen hloupej. Q2 není ještě ani v půli, natož aby končil. To můžeš rovnou napsat, že nám 2017 už pomalu končí. Crhova logika. 😀

          • Aznohh: Snažíš se z toho vylhat? Q2 – duben, květen, červen, Q3 – červenec, srpen, zaří.
            Do konce Q2 nám zbývá měsíc a půl a jestli si myslíš že to je dostatečně dlouhá doba na vývoj a testování čipu, tak jsi na omylu. Aby mohli v Q3 začít dodávat tak už nyní musí sjíždět z linky první čipy a dolaďovat poslední detaily. Tys to vzal časově, že končí jako že končí, ale mě šlo o to že nemají čas na to aby teprve teď začli ladit a testovat čip, to je blbost.

          • Crho ty se v tom plácáš jak žába na pánvi. Pokud to chceš doslova, tak Vega byla narozdíl od Volty k vidění už před půl rokem v akci. Takže mlč o čipech co jdou z výrobní linky. Celá tvoje věta „neexistující Vega je už teď lepší než už existující Volta“ je jen výplodek zedníka fanobye.

      • Zase nazarize v ramci rage proti Nvidii na limit znalosti. Tensor Cores se daji vyuzit nejek k trenovani, ale i k inference (tzn. pouziti vytrenovaneho modelu). Nvidia k tomu ma dokonce I knihovnu – TensorRT ( https://developer.nvidia.com/tensorrt ).

        Vyznam pro hrace je jasny – staci aby v GPU bylo par Tensor Cores (protoze inference je mnohonasobne rychlejsi nez trenovani) a hry muzou vyuzivat pokrocile AI – a to nejen pro nepratele, ale take pro porozumeni textu, hlasu atd. (pozor, nemluvim o rozpoznani reci, ale o pochopeni obsahu).

      • tak pozor, nevravim ze tazba je priorita, ale ze je tam ta moznost, z toho pohladu mi pride, ze je preto radeon CELKOVO vyhodnejsi. …a to neratam +freesync ..tj celkove riesenie vyjde v rovnakej cenovej hladine o 200€ lepsie

  2. tombomino, 11.5.2017 at 9:27: „Hele, mne osobne je to celkem sumak, jelikoz je pro mne stejne vsechno cenove nad 1060/580 nezajimave.“
    tombomino, 11.5.2017 at 12:37: „mi AMD fanatici jsme opravdu uz zoufali“
    tombomino, 11.5.2017 at 9:29: „Mne je Vega sumak, jelikoz to neni stejne moje cenovka.“
    VÁŽENÝ tombmimino, pokud VÁS high-end, NEZAJÍMÁ, tak bych vám velice rád doporučil aby jste se diskuzí u high-endu NEZÚČASTŇOVAL. Děkuji
    Mě opravdu slabodušší jedinci kteří na to nemají, nezajímají, a nezajímá mě ani jejich názor, že to není karta pro ně a další keci. Ať si koupí svou rx460 a nebo 1050Ti a dají pokoj. Nevím proč tady takoví lidé mají pořád potřebu psát do diskuzí co si nekoupí? Nejvíc mě vytáčí lidé: „mě to neoslovililo, protože mám xyz kartu a zatím větší výkon nepotřebuju.“ Tak proč to do diskuze píše? Co to je za jedince co si myslí si, že někoho zajímá jeho názor co si nekoupí? Já tady taky nepíšu co si nekoupím, nekoupím si růžové auto, nekoupím si zelenej hrnek, nekoupím si žlutej deštník, KOHO TO ZAJÍMÁ? Nikoho!!!

  3. Pro mě zatím zklamání, čekal jsem víc. Přes 15 Tflops tlačí Titan Xp na vodě, takže pouze lehká evoluce. Čip jako kráva (herní předpokládám kolem 600mm2), takže cena bude vysoká, výtěžnost mizerná. Ty marketingový kecy od kožené b(k)undy na mě neplatí. 2080Ti tu bude za cca rok, stejně jako 1080Ti od představení P100. To už by mělo AMD vydávat Navi, tak snad se dočkáme nějakých výkonnových posunů, protože tohle je nuda.

    • Což o to, čip je to moc hezký, jen asi bude po čertech drahý a obtížně vyrobitelný. Nicméně tam, kam míří, si tuhle cenu budou moci dovolit a za rok, rok a půl to bude možná i na uvolnění do běžného prodeje jako derivát této karty v podobě hiendu. Nvidia má teď opravdu našlápnuto.