
V uplynulých týdnech a měsících se množily zprávy o tom, že Nvidia „něco chystá“. Měli jsme tu drb o letním vypuštění GPU Volta, pak také dosti nečekanou zprávu o tom, že by mohlo být vyráběno 12nm procesem. Očekávání tedy byla napjatá a Nvidia navíc tento týden pořádá svou konferenci GTC. Když tedy šéf Jen-Hsun Huang údajně předevčírem upustil, že během své hlavní prezentace na GTC oznámí nový hardware, nadšenci do grafických karet už se asi nemohli dočkat. A zklamáni nebudou, neboť Nvidia skutečně novou generaci GPU oznámila. Byť s malým háčkem, neboť je zřejmě určena ne pro herní karty, ale jen pro enterprise výpočty.
Větší než cokoliv předtím
Ovšem Volta přes to bude úctyhodný počin. Od této architektury (která se ve veřejných roadmapách Nvidie mimochodem objevila ještě dříve než Pascal) bylo zatím představeno jen jedno GPU: čip zřejmě nazvaný GV100 a na něm zbudovaný výpočetní akcelerátor Tesla V100. Představuje zřejmě absolutní highend, navazující na Teslu P100 generace Pascal. Má tedy integrované paměti typu HBM2 – v kapacitě 16 GB, s 4096bitovou sběrnicí a propustností 900 GB/s – a používá kompaktní „placaté“ provedení SXM2 pro servery.
GPU GV100 má zcela bezprecedentní velikost. Údajně měří 815 mm², přestože je skutečně vyráběn novým, 12nm výrobním procesem TSMC (což by údajně měla být evoluce 16nm procesu, nicméně v tomto případě je proces „12FFN“ údajně uzpůsoben speciálně pro Nvidii). GV100 je každopádně s velkým náskokem zatím největší GPU vůbec, složeno je údajně z 21,1 miliard tranzistorů. Půjde i o jeden z nejrozměrnějších čipů obecně, protože takovéto plochy jsou velmi vzácné, dosahovaly by je asi jen některá „big iron“ enterprise CPU.

To se odráží i ve specifikacích. Tesla V100 má 5120 stream procesorů (80 bloků SM) a celkem 6 MB L2 cache. Takt by zřejmě měl být okolo 1455 MHz, jelikož čip má výkon 15 TFLOPS při jednoduché přesnosti. S dvojitou přesností je to pak 7,5 TFLOPS – ta je tedy prováděna s vysokým výkonem (FP64:FP32 v poměru 1:2). To se však čekalo, jelikož na GPU Volta mají běžet některé nové superpočítače. Specifikace Tesly V100 ale není maximální konfigurací čipu. Všechna GV100 mají vzhledem k velikosti část bloků deaktivovanou, takže fyzicky na čipech má být údajně shaderů dokonce 5376.
Tensor Cores pro čtyřnásobný výkon
Nejzajímavější je zřejmě přidání 640 takzvaných „Tensor Cores“, tedy Tensor jader. To jsou jednotky navíc mimo hlavní výpočetní ALU, které jsou úzce specializované na operace pro neuronové sítě a strojové učení. Měly by provádět operace typu FMA (součin dvou hodnot FP16 a pak součet s hodnotou FP16 nebo FP32), a to současně 16× najednou. Při plném zapojení všech těchto jednotek má údajně výkon čipu GV100 být až 120 TFLOPS.

Skutečná využitelnost ale bude pochopitelně záviset na tom, jak dobře se běžící úloze bude dařit tyto specializované jednotky navíc vytížit a asi se prosadí jen ve výpočetním použití, v herní grafice pravděpodobně ne. Mimo jiné proto, že je pravděpodobně Nvidia nebude integrovat i do nižších GPU určených pro herní karty (nicméně to je jen odhad, s jistotou to říci nelze). Tensor Cores však asi budou v Tegře Xavier, což vysvětluje podezřele vysoký teoretický výkon, který u ní Nvidia loni uváděla.

SM má FPU i celočíslené ALU
Základní jednotka SM je v architektuře Volta přepracována a údajně má být až o 50 % efektivnější co poměru výkonu a spotřeby. Složení SM je takovéto: 64 stream procesorů („shaderů“) pro výpočet s běžnou přesností FP32 (a patrně také FP16 s dvakrát větší propustností), 32 shaderů podporujících FP64, 8 oněch Tensor jader a k tomu ještě 64 stream procesorů pro celočíselné výpočty (až s přesností INT32). Volta by totiž měla umět paralelně posílat operace těmto jádrům a FP shaderům, což by mělo zefektivnit výpočty míchající typy operací a zlepšit výkon. V každém SM jsou také 4 texturovací jednotky (celkem je jich tedy 320), takže GV100 se stále dá použít i pro konvenční grafické operace.

GPU bude jako rozhraní používat PCI Express 3.0, nebo rozhraní NVLink 2.0. Jendo GPU podporuje šest linek NVLink o propustnosti 25 GB/s, takže celkově až 300 GB/s. V kombinaci s procesory IBM Power9 by na tomto rozhraní měla být podporována koherence pamětí GPU a CPU.
Spotřeba tohoto obřího čipu bude logicky vysoká, údajně se ale stále vejdet do 300 W, což byla i hodnota pro Teslu P100. Nicméně toto je údaj pro ono modulové provedení. Kromě toho má prý být vyráběna i méně žravá varianta v konvenční podobě karty do slotu PCI Express, která má mít TDP jen 150 W. Její takty a výkon ale logicky budou muset být nižší. Podle Nvidie má tato verze sloužit spíše pro aplikaci neuronových sítí, nikoliv pro jejich trénování, pro což je určen hlavní 300W model.

Odhalení zatím jen na papíře
Ačkoliv Volta GV100 byla oznámena takto brzy, jde jen o papírové odhalení. Reálně dostupná má být až v třetím kvartále roku, a to zřejmě jen hodně omezeně. Nvidia totiž hodlá udělat to samé, co s Teslou P100 a ze začátku bude Teslu V100 prodávat jen ve svých vlastních značkových serverech DGX-1 (na čemž celkově shrábne vyšší marži). Je také možné, že v této fázi budou dostupná množství omezená. Širší dostupnost má nastat až v čtvrtém kvartále, kdy by Tesly V100 měli už mít k dispozici i ostatní výrobci serverů a distributoři. Reálně se tedy Tesla V100 bude na trhu objevovat až se zpožděním několika měsíců oproti dnešnímu odhalení. Nicméně vzorky již funkční jsou, Nvidia na nich údajně na GTC pouštěla dema.
Volta pro hráče?
Ačkoliv highendový výpočetní hardware je také zajímavý, nás přeci jen zajímá, jak by Volta mohla promluvit do herních grafických karet GeForce. Přímo u GV100 na to asi moc vysoká šance není – asi ještě nižší, než jaká byla u čipu GP100. Je to jednak velkou specializací tohoto GPU na výpočetní nasazení, pro kterou má navíc mnoho tranzistorů, které GeForce nevyužije. Zejména je tu ale problém s velikostí čipu vyráběného na velmi novém procesu. Tato GPU budou mít vysoké výrobní náklady a trh s kartami GeForce pro Nvidii asi proti kartám Tesla dostatečně lukrativní (pokud tedy za grafiku nechceme platit sumy převyšující sto tisíc korun). I se zajištěním potřebného vysokého objemu výroby by mohl být problém.
Nicméně, časem by se snad měl objevit derivát Volty, který bude pro herní grafiku už patřičně očesán, podobně jako má Nvidia k výpočetnímu Pascalu GP100 také herní GP102. A takový hypotetický čip GV102 už by pak pro nás měl i přímý význam. Dost možná by mohlo jít o údajnou katu s GDDR6 a 768GB/s propustností, kterou „avizoval“ Hynix.
Crha šetří na Voltu, už prodal ledvinu… 😀
A svoji GTX 1080 😀
Je to mozne? Ty musis s hruzou otevirat i konzervu, aby na tebe nevyskocil Crha.
Hlavne je legracni, jak se AMD fans Volty boji. Dival ses uz na ty dva cerveny fanweby? Ani jeden neuvedl, ze vykon se zapojenymi Tensor Cores ma byt az 120 TFLOPS 🙂 Ten silenec z blogysku na tom dokonce postavil teorii, ze narust vykonu u Volty neni moc velky, doslova „NVIDIA je tak o 48% větší, mnohonásobně výrobně náročnější a dražší a jen o 20% výkonnější“ 😀 Uvedomuje si vubec, jak brutalne se ztrapnil? 😀 Vykon Tesly V100 muze byt az o 545% vyssi, nez u Vegy od AMD 😀 Vegu v HPC proste nikdo kupovat nebude. To je uz ted docela jasne. A jestli prijdou brzy i consumer Volta GPU, nebude nikdo Vegu kupovat ani jinak.
Tak v HPC a deep learning ma nvidia takove uspechy, ze zdvojnasobila zisk a prijmy se zvedly o 50%. Nvidia ma knowhow, profi support, tradici a duveru provozovatelu cloudu jako MS, Amazon nebo Google.
Tomu amd nemuze konkurovat, i kdyby ji Lisa nabizela nahore bez.
teda vegu, aby nevznikly nemistne asociace.
Chlapci vy jste hodně mimo. Jeden skočí Nvidii na marketing o 120 tflops. (při přesnosti FP4 lol) a druhej blekota o úspěších v deep learningu, přitom zisk táhne gaming a hlavně switch. Jste horší než ten ruddý demagog.
Přesnost by měa být standardní, FP16 nebo FP32 (teď úpně jistě nevím, ale výsledek se může uložit do FP16 i do FP32). To omezení je tam v tom, že je to jen jedna operace součinu nad 16 dvojicema vstupů a k tomu ten součet zase s 16 čísly. Čili to není srovnatelné s nromální shader ALU, je to spíš jako kdyby to byl specializovaný blok DSP nebo ASIC akcelerátoru.
Užitečné to má být pro určitý algoritmus trénující neuronovou síť přesně těmahle operacema, nic víc, nic míň.
Tensor Cores maji presnost FP16/32 – viz. AT – „These cores are essentially a mass collection of ALUs for performing 4×4 Matrix operations; specifically a fused multiply add (A*B+C), multiplying two 4×4 FP16 matrices together, and then adding that result to an FP16 or FP32 4×4 matrix to generate a final 4×4 FP32 matrix.“
Cela V100 ma ve skutecnosti 5376 (Cuda) + 672 (Tensor) = 6048 jader, protoze Tensor Cores jsou samostatna. Operace, ktere Tensor Cores delaji, jsou presne ty, co se pouzivaji ve strojovem uceni (konkretne deep learning). Na to ma byt nova Vega primo urcena, ale uprimne, s vykonem jen 22 TFLOPS proti 120 TFLOPS nema zadnou sanci. A to jeste pred tim, nez vubec stihla vyjit. Pro AMD naprosta katastrofa.
@JanOslan
„Užitečné to má být pro určitý algoritmus trénující neuronovou síť přesně těmahle operacema, nic víc, nic míň.“
To se pletete matrix-multiply FMA se da pouzit pro spoustu dalsich veci, i v simulacich. Ale ano, primarne to je urcene pro deep learning.
@Maudit
Mělo by to být 25 TFLOPS. Jinak teda osobně nemám vůbec představu, k jak velkému subsetu všech různejch AI/NN algoritmů tahle oparace stačí. Pokud by to všechno bylo takhle jednoduchý, tak samozřejmě nepotřebujeme GPU, ale všechno by to jelo na jednodušších ASIC, které by neuměly nic jiného (takže super spotřeba a výkon…), něco jako se stalo s Bitcoin minery. Nebo teda aspoň z toho mám takovej pocit.
U složitějších algoritmů by se to ale asi pořád dalo uplatnit vždycky na část toho procesu…
@JanOslan
Chapete to presne opacne. Tensor Cores nejsou „pro určitý algoritmus trénující neuronovou síť“, ale naopak pro spolecnou cast vetsiny algoritmu, trenujicich neuronovou sit.
Naopak, Honza Olsan to chape spravne , to jen ty v tom mas hokej. Ta uvaha s ASIC je velmi trefna a presne vystihuje danou problematiku.
Údajně se prý ta architektura Tensor Cores dost podobá TPU od Googlu, ta je prý dělaná přesně na to samé, jen má jenom INT8 přesnost.
Čili se to asi dá chápat jako specializovaný akcelerátor pro určitou operaci. Ale proti TPU tohle bude mít výhodu, že Volta mezi tím dokáže dělat i obecné operace.
@del42sa
Kdyz se vyhodnocuje signal pro node (neuron), tak se nasobi prichozi hodnota vahou pro dane spojeni (typicky byva spojena kazda node v jedne vrstve site s kazdou v dalsi vrstve). To se udela pro vsechny nody v dane vrstve a ten vysledek se pak secte pro kazdou node. Proto matice. A tahle jedna iterace, to je presne to, co bude akcelerovane. A protoze deep learning site muzou byt sestavene mnoha ruznymi zpusoby, ale prakticky vsude funguje stejny princip, je vyhodne tuhle jejich zakladni stavebni jednotku specialne akcelerovat.
BTW jsem se poradne podival na ty Tensor Cores:
These cores are essentially a mass collection of ALUs for performing 4×4 Matrix operations; specifically a fused multiply add (A*B+C), multiplying two 4×4 FP16 matrices together, and then adding that result to an FP16 or FP32 4×4 matrix to generate a final 4×4 FP32 matrix.
… tudiz nejenze to umi jenom matice, ono to umi nasobit jenom FP16 matice. Tudiz vsichni co delaji neco jineho nez deep learning, na tech 120TFlops muzou rovnou zapomenout (protoze 99% HPC ktere neni deep learning, pouziva FP32 nebo FP64). Tohle mi uz prijde jako dost extremni sazka na AI…
Ono na porovnání stačí trojčlenka:
P100 V100
Peak FP32 TFLOP/s* 10.6 tflops 15 tflops
GPU Die Size 610 mm² 815 mm²
Ok, nevím kolik plochy zabírají tensor cores atd.. ale nárůst IPC bude marginální. Pokud někdo čeká od Volty revoluci… bude zklamaný.
120 TFLOPS s TC. Tomu uz se da rikat revoluce. Tohle AMD v HPC proste nema.
99% HPC ktere neni deep learning, pouziva FP32 nebo FP64…
ty už máš našetřeno na tři Vegy a než se k ní dostaneš, budeš mít i na pět … Skělé čtvrtletí pro nVidii, akcie vylétly nahoru … snad to nějakou dou vydrží …
Vítám partu ubrečenců a trolů z diit! Krásné ráno všem! Tak moje křišťálová koule nelhala když předpověděla, že AMD počká na Voltu aby zase hrála druhé housle.
Uvědomil jsem si ale i jinou věc, vem si jakou to dalo práci navrhnout, odladit, dostat na výrobní linku, vyladit výrobní linku, snížit zmetkovost, a pak ti nějaká AMD socka napíše: „Ta nVidia má přepálený ceny! FŮJ! Počkám si na Vegu a nVidie bude muset zlevnit!“ Ale přitom vůbec nevidí jak to všechno bylo drahé a cena je opodstatněná. Pak výjde vega a bude mít srovnatelnou cenu s Voltou a najednou to bude super produkt za skvělé peníze?! Všichni AMD fanoušci jsou na chocholouška.
Jinak k té Voltě, je jasné a viditelné z těch schémat, že u herního čipu vynechají ty výpočtové bloky, protože zabírají polovinu prostoru tak se nabízí že energie klesne na polovinu tedy těch zmíněných 150W a velikost čipu bude někde mezi 400-500mm2. Ani bych se nedivil kdyby vyráběli uprostřed wafru tyhle náročné čipy a na okrajích pro herní ty druhé zmetkovité.
jo a ještě koukám, předobjednávky už příjmají, a začnou dodávat celé systémy v Q3 a v Q4 už samotné karty. Takže Q2 pomalu končí, takže už je musí mít vyladěné, vyzkoušené a připravené a trh je vrhnout. Nejpozději v listopadu tady budou herní Volty, ne-li dřív. Ta platforma je hotová a už teď musí z linek sjíždět první čipy. nVidie na AMD čekat nebude a ty dva roky nadvlády pilovala Voltu k dokonalosti! Bay bAy vlhké sny o Vece…
tynyt 11.5.2017 at 7:22 „Crha šetří na Voltu“ Asi takhle, jestli udelaji Titana na bazi 16GB HBM Volty, jdu do nej.
Takze nova generace karet s Voltou zatim v nedohlednu.. 🙂
ani ne tak v nedohlednu, jako zatím v nepotřebnu … počítám, že něco představí před koncem roku, v prodeji ale snad až ve 2018 …
Myslim si to obdobne 🙂
Myslis? Minuly rok Nvidia uplne stejne uvedla Pascal grafiky. Taky nejdriv odhalila Teslu P100 (5. dubna 2016) a behem dvou mesicu odhalila prakticky kompletni Pascal radu. Volta je za rohem a zrejme vyjde zaroven s Vegou. Takze „papa AMD“ 🙂
vidím to úplně stejně, AMD nemá nic a jen plnou hubu keců a i kdyby Vegu odhalila dneska, tak než na pultech obchodů bude Vega k dostání tak Volty se už budou prodávat jak rohlíky…
Hele, mne osobne je to celkem sumak, jelikoz je pro mne stejne vsechno cenove nad 1060/580 nezajimave.
Ja jsem spise zvedavy, jaka Volta bude, a jaky pokrok udelala NV v implementaci low level api.
Treba NV neco za 2 mesice predstavi..neprijde mi to ale uplne pravdepodobne, protoze moc nema duvod.
Nvidia byla v low-level API lepsi nez AMD uz pred Voltou. To akorat vy AMD fans si to spatne vykladate. Ja to chapu, pri stavu, v jakem AMD je, se chytate cehokoliv, ok. A ano, AMD ma v low-level API vetsi narusty, nez Nvidia. Ale ve vysledku je i tak Nvidia stale rychlejsi (pouze naskok se zmensi). Jenze duvod pro vetsi narusty u AMD neni to, ze by mela lepsi implementaci low level API. Duvod je to, ze puvodni implementace AMD pro DX11 byla vyrazne horsi, nez u Nvidie, takze meli mnohem vetsi prostor pro zlepseni.
GTX1060 of Nvidie je totiz v 30% mensi cip, presto dosahuje stejneho vykonu v DX12, jako RX480. To je to zasadni meritko efektivity architektury.
No jo, a zeme je plocha a neotaci se kolem slunce, vid 🙂
Nejak zapominas na vyssi frkevence, n jo, oni by se nehodili do kramu, co.. jasne, nvidia je zelena a proto je nejlepsi 🙂
Klesas na stejnou uroven jako tady Mr. Hnizdo..
Schopnost architektury dosahovat vyssich frekvenci je ale taky znamkou jeji vyssi pokrocilosti. V cem je problem? AMD zi zvolila architekturu, ktera ma velke problem dostat se na vyssi frekvence. To je ale chyba AMD a vada GCN, rozhodne ne chyba Nvidie 😉
Ale no tak maudite, neklesej na uroven faktu, takova podpasovka 😉
http://www.in.techspot.com/reviews/graphics-cards/radeon-rx-580-vs-geforce-gtx-1060-27-game-battle/articleshow/58528882.cms?page=8
tak, s tou vyhodnostou gtx1060 narozdiel od rx480(580)
by som si na tvojom mieste kusol do jazyka 🙂
pri 27.hrach je 16x rychlejsia,0xrovnaka 2x -1% a 9x pomalsia
btw, tvojich 30%menej pravdepodobne robi presne to, ze ju nekupuju ludia na cryptomining, ale asi by ti odpadli prsty, keby si to napisal, co
Az na to, ze RX580 je vypustena az rok po GTX1060. A RX580 neni RX480 😉 To jste vazne tak zoufali?
az tak, ze mas tam aj novu 9GB gtx1060, za ktoru pytaju 350€
🙂
..kua ze sa neda editovat …a v zozname je aj rx480, takze zufalstvo nehrozi …iba potreba dioptrii? 😉
Jen k těm procentům. GP106 by mělo být velké 200 mm2, Polaris 10 tuším 232 mm2.
Z toho my kalkulačka říká, že P10 je o 16% větší, nebo obráceně GP106 je o 13,8 % menší.
Maudite, vyšší frekvence nejsou známkou pokročilejší architektury. Kdyby to tak bylo jak tvrdis, tak tady dnes máme deriváty Pentia 4 od Intelu.. zkus něco jiného 😉
Problem P4 (pozdejsi generace, prvni byly naprosto v poradku) neni vyssi frekvence jako takova, ale cena, kterou za to ten cip zaplatil – brutalni a neefektivni pipeline.
U Pascalu mas jak vysokou frekvenci, tak efektivni architekturu.
Tak jo Maudite, Intel se s návrhem vysokofrekvenční architektury vůbec nesekl..tudíž ani nemohl přejít zpatky na PentiumM (alias vylepšené P3), které dosahovalo daleko vetsiho výkonu v přepočtu na 1 MHz než li P4.
Shrnuto, tráva je o pět zelenější, v tomto případe modrejsi a vlastně proc tu diskutujeme.. 😉
tombomino 11.5.2017 at 11:51 Jako obvykle jsi kompletne mimo. Intel mel vysokofrekvencni architekturu northwood / prescott zcela v poradku, byla na vrzena na 4-5GHz. Jenze vyrobni proces tech frekvenci ani pres extremni spotrebu nedosahl. V procesu byl problem, ne v arch.
Dnes ma tedy nvidia jak vhodnou arch tak proces, a jeste k tomu nizkou spotrebu.
Hnizdo, chapes ty pismenka co jsou napsane? Chapes vyznam slovniho spojeni „Schopnost architektury dosahovat vyssich frekvenci je ale taky znamkou jeji vyssi pokrocilosti.“ Coz je nesmyslna veta, protoze neni pravdiva.
Pokud nechapes tuhle vetu, tak vubec nevim, proc tady na neco odpovidas. Protoze odpovidas uplne neco jineho.
Architektura P4 měla určité problémy (replay stormy, měla hodně slabých míst, které vyžadovaly, aby programátor speciálně pro P4 ladil a testoval výkon – pokud by to byla minoritní architektura od AMD, tak to úplně vybouchne).
Ale není pravda, že by ji zradil proces. Problém byl v tom, že ten plán na vysoké takty narazil na fenomén, že spotřeba nad těma 3,5-4 GHz (tehdy) šla strašn nahoru a škálovat to prakticky už dál nemohlo, i když čistě ta archtiektura na ještě větší takty dělaná byla. Objevila se tzv. Frequency Wall, kteorou v době koncipování Netburstu nikdo nečekal. Lepší proces by moc nepomohl.
A ještě se tam objevilo, že první generace P4 byla dobrá – nebyla. První 180nm generace byla nejhorší (Willamete, bez HT, jen 256KB L2 a tak dál). Nejlepší komparativně proti konkurenci byl Northwood, tj. druhá generace na 130 nm. Cedar Mill na 65nm už byl příliš pozadu za K8, ale taky byl lepší než Prescott.
tombomino 11.5.2017 at 12:34 „Schopnost architektury dosahovat vyssich frekvenci je ale taky znamkou jeji vyssi pokrocilosti.“ Coz je nesmyslna veta, protoze neni pravdiva.“
Samozrejme je pravdiva 🙂 Jakykoliv pokrok je – znamkou pokrocilosti 🙂
To je zase debata, ja se bavim.
@Maudit: o 30 % menší čip ? Možná ve zvláštní škole, kterou jsi nejspiš navštěvoval 🙂 nemluvě o tom , že i výpočetně jsou ty čipy od sebe zcela v jiných dimenzích.
RX 480: 5.8 TFLOPs vs GTX 1060: 3.8 TFLOPs
Fury X: 8.6 TFLOPs vs GTX 980 Ti: 5.6 TFLOPs
A nezapomen na kryptomeny. Neflakej to.
„RX 480: 5.8 TFLOPs vs GTX 1060: 3.8 TFLOPs
Fury X: 8.6 TFLOPs vs GTX 980 Ti: 5.6 TFLOPs“
Krasna ukazka „efektivity“ a „pokrocilosti“ architektury. 😀
ne to je jen praktická ukázka toho, kolik reálných výpočtů dokáže který čip spočítat při daných taktech. Že vám se to nehodí do krámu, je úplně jiná věc 🙂
Jan Olšan 11.5.2017 at 12:45 V tom bordelu jsem to prehlid.
„Ale není pravda, že by ji zradil proces. Problém byl v tom, že ten plán na vysoké takty narazil na fenomén, že spotřeba nad těma 3,5-4 GHz (tehdy) šla strašn nahoru a škálovat to prakticky už dál nemohlo, i když čistě ta archtiektura na ještě větší takty dělaná byla. Objevila se tzv. Frequency Wall, kteorou v době koncipování Netburstu nikdo nečekal. Lepší proces by moc nepomohl.“
Hmm, architektura byla delana na vysoke frekvence. Procesem to nebylo. Cim to tedy bylo?
https://en.wikipedia.org/wiki/Pentium_4
At the launch of the Pentium 4, Intel stated that NetBurst-based processors were expected to scale to 10 GHz after several fabrication process generations. However, the clock speed of processors using the NetBurst microarchitecture reached a maximum of 3.8 GHz. Intel had not anticipated a rapid upward scaling of transistor power leakage that began to occur as the die reached the 90 nm lithography and smaller.
Na wiki se pise, ze to bylo procesem.
to del42sa: Ty jsi dobrej traged, pry nehodi do kramu. Chtel bych vedet do ktereho? Ale jo, jen to ukazuje na ze to je super, druper architektura. Potrebuje daleko vetsi teoreticky vykon na stejny realny. Bez za Stachem onanovat nat teoretickym vykonem jako meritkem vyspelosti architektury.
jasně vy se tu oháníte teoretickýma Tensor Flops, ale já jsem tragéd . LoL
že by double standart ?
@Hnizdo
Procesem to nebylo, protože ani slušný 65nm proces po horším 90n to nezachránil. Ta frequency wall a zvýšená leakage by nastala na jakémkoli procesu. Architektura prostě byla dělaná v době, kdy byla leakage málo významná a zřejmě se nevědělo, jak moc na 90nm a později poroste. A když najednou ta leakage přišla a začla růst jako blázen, tak moc nebylo jak ji vyřešit – leda zůstávat na nižších frekvencích a výkon zvedat hlavně přes IPC (což ale bylo opačené rozhodnutí, než za koncepcí Netburstu).
Toto by nastalo n akaždém procesu, erge myslím můžu zodpovědně říct, že proces to nazabil. Prostě to bylo koncipována za odlišného stavu vědění. Dneska je ten frequency wall známej a všichni si myslí, jak to bylo zřejmé, ale to je situace „po bitvě je každý generálem“. Před Pentiem 4 se to nevědělo a Intel měl prstoě smůlu, že ta čest ukázat všem na slepou uličku padla na něj.
I když tedy jak bylo řečeno ty jádra měla i další slabiny, ale co tu koncepci znemožnilo byla ta frequency wall.
Hele Honzo ja mel struktury na kremiku jen dva semestry, ale leakage je zalezitost technologie, tedy procesu (vlastnosti substratu a fyzikalnich vlastnosti pouzitych hradel, bulk leakage – do substratu, inter-leakage meziprvkove), ne architektury (logicke struktury). Coz je presne to co se pise na wiki. Hadat se dal nebudu, protoze tohle nejde rozsoudit s nasimi znalostmi. Pokud tedy nemas doktorat z planarcnich technologii a mas pristup k vnitrofiremni dokumentaci intelu. Ja vychazim pouze z verejne dostupnych informaci a znalosti z VS.
Já myslím že to není až tak technické, ta leakage obecně dost rostla od 130nm do 65nm, zatímco dřív (předtím) dělala mnohem nižší část spotřeby čipu. Při návrhu Netburstu v devadesátých letech (tj na scéně byl 250-180nm proces) nejspíš ještě byla dost podružná, a tak s ní návrh málo počítal.
Prescott a poslední Pentia 4 se trefila zrovna do doby, kdy ten problém s leakage byl největší. Protože potom při 45nm procesu se na ni Intel IIRC hodně zaměřil a povedlo se jí dost zredukovat použitím technologie HKMG. Později pak FinFETy/TriGate byly taky efektivní proti únikovým proudům. Ale to všechno přišlo pro Pentium 4 pozdě, v té době, kdy bylo nejvíc pod tlakem od K8ky, se zrovna ta jeho koncepce nejmíň vyplácela. 90nm proces Intelu byl asi taky horší než 130nm nebo 65nm, ale úplně zas tak drastický propad to asi nebyl.
(Edit: onoo teda mi přijde, že se v tom zas tak nerozcházíme, ono to je z jedné strany pravda, že Intel byl nechán ve štychu křemíkem. Já s tím nesouhlasil proto, že to IMHO nebyla vina toho, že by jejich proces byl tak špatný, ale s jiným procesem by to nefungovalo. O co mi šlo, že IMHO by to v té době nefungovalo s žádným procesem, ani s tím od AMD (90nm byl u nich IIRC překvapivě povedený). Tehdy ta technologie prostě tu leakage měla a na těch vysokých frekvencí u Pentia4 se projevovala. Možná by to bylo úspěšnější dnes na FinFETech, ale stejně by to podle mě trpělo na tu frequency wall, teda že by se to pořád frekvencí nedostalo o moc výš než jádra s vyšším IPC, protože spotřeba by nad určitou hranicí rostla příliš rychle. Asi by to dopadlo podobně jako Bulldozer – dostalo by se to třeba až na 5-5,5 GHz, ale zase s horším IPC, takže pokud by proti tomu stálo jádro typu Nehalem/Sandy/Haswell, tak by to dostalo stejnou nebo asi i horší čočku, protože pro konkurenceschopnost by to potřebovalo 7-8 GHz).
Je teda pravda, že by bylo zajímavé se podívat na extrémní OC 90nm a 65nm Pentií 4. Ty 65nm se daly pod udsíkem vytočit strašně vysoko, což ukazovalo, že archtiektura na frekvenci měla, problém byl ve spotřebě. 90nm snad pokud se nepletu taky šly na hodně vysoké frekvence (taky s tou hloubkou pipeline by bylo divné, kdyby nešla).
Vycházím hlavně z toho, co jsem vyslechl tak porůznu, samozřejmě se můžu mýlit. Ale zapadalo by to.
skaven321 11.5.2017 at 10:55 Abychom to trosky srovnali, ctu to spravne, ze 580ka vydana rok po 1060 6GB je prumerne o 6% rychlejsi, a o 2% rychlejsi nez 1060 9GB?
Notyvole to je ZAAAZRAK.
a? odkedy sa hrame na zazraky? da sa to otocit, gtx1060 9GB je o 2% pomalsia ako rx580 a len o 3-4% rychlejsia ako 10mesiacov stara rx480 🙂
jenze ta 1060ka byla vydana s 480kou, a ne rok po ni 😉
Neni pochyb o tom, ze 580 i nova 1060 jsou pochybne marketingove produkty, ale pak bych je prilis nevytahoval k libovolnym ucelum 🙂
takze cely Mauditov koment, ktory vytvoril toto vlakno je kopa trusu. aspon ze sme sa na tom zhodli 🙂
„GTX1060 of Nvidie je totiz v 30% mensi cip, presto dosahuje stejneho vykonu v DX12, jako RX480. To je to zasadni meritko efektivity architektury.“
Kopa trusu, vaazne? U tebe v hlave tedy urcite.
v prvom rade je to ako J.Olsan napisal, nejde o 30% cca 16%, v DX12 je radeon efektivnejsi o cca 5% priemerne,. a ked napisem ze (po druhykrat, ale vy dvaja to radostne ignorujete) tie radeon cipy obsahuju obvody, ktore a pouzivaju na kryptotazbu, a tento nvidia cip take nema. este raz si zrataj efektivitu. ty efektivito
jo, 2 kopy trusu 🙂
Zoufalstvi fanatiku dosahuje maxima. Takze ze vzorku vezmeme jen par her co se nam hodi do kramu, a casti cipu taky nebudeme pocitat, a jeste zapocitejme jak je AMD mensi a podfinancovana, a hned jsme v jinem, lepsim paralelnim vesmiru. Kroutime realitu dokud nepraskne.
Hnizdo kup si zelenou a modorou vlajecku. Dej si ji do okna a taky do trenyrek, protoze mi AMD fanatici jsme opravdu uz zoufali 😀
zufalstvo? 😀 ved tvoje alterego Maudit zacal vyberat vzorku hier, nie ja. co to tocis
http://www.techspot.com/articles-info/1393/bench/Average.png
tu mas zoznam 27hier, jo cisto vybrana vzorka(asi ti tam chyba dosbox v starej verzii co)
to je neaka tvoja mantra vsak, napises 5 komentov, a ked ti niekto dava linky a fakty, tak nahodis kecy o fanatikoch, a tym doj.bes debatu 🙂
fajn podme sa bavit o kryptotazeni. aka je gtx1060 efektivna vs rx480+ pripocitame tam ten 5%rozdiel v hrach. tak budeme mat zratany cely cip a potom uvidime kto je tu fanatik
Zoufali, a ne moc chytri. Konecne ses verejne priznal, ze jsi fanAtik 🙂 Nepsals jak nejsi fanouskem ani jedne znacky? Lhari 🙂
hnizdo 11.5.2017 at 12:45 samozrejme patri Tromboze.
skaven321 11.5.2017 at 12:42 Nezapomen jako ve Svejkovi pripocist trojici svatou a podelit cislem lokomotivy, aby ti tvoje fantasmagorie vychazely.
ako stale, hniezdo same fakty dava, radost diskutovat 😀
Hnizdo, ty jsi fakt tupy idiot, podobne jako Crha, vis to?
Kdyz nechapes cteny text, podobne jako crha, nechapes saarkasmus, proc chodis do diskusich? Kdyz by jsi aspon prinasel nejaky intelektualni bonus do tech debat, ale zelena a modra je dobra, je fakt tak dobra jedine na …
Ja vim ty moje stara Trombozo, kdyz to rikas ty, je to definitivni. Rikas to porad, zejmena kdyz te usvedcim ze lzi nebo ti dojdou argumenty 😉
Hnizdo, ty jsi nekdy nekoho usvedcil? 😀 Ty delas jen blba ze sebe dokolecka dokola a nazyvas to ‚usvedcenim‘ druheho. Jenom neustale ukazujes, ze jsi jeste hloupejsi.
Ale jinak jsi samozrejme genialni, diky tobe spousta lidi urcite prozre. Tvuj nadhled nad vecmi je ohromujici a v nemem udivu uz opravdu nemam co rict 😀
Nonono pánové, bez těch urážek, věcně 🙂
Vyborne Honzo. Trochu pozde, ale prece. Budu tuto tvoji direktivu linkovat.
Myslis ve stejnem nedohlednu jako Vega? 😉
jak v nedohlednu když za měsíc začnou dodávat první karty zákazníkům? Ohlásila něco takového AMD? ne…
Neohlasila. AMD si lame hlavu, co ted ma s vegou vlastne delat. Prodat a byt za blbce, nebo to zahodit?
Crha, zkus si taky precist ten clanek. Predstavena Vega je pro profesionalni nasazeni a to jeste do oblasti umele inteligence. Tudiz tezko si tuto kartu koupis i s tvymi prijmy 😉
Mne je Vega sumak, jelikoz to neni stejne moje cenovka. Mne spis na takovych kartach zajima technika. Doby, kdy jsem ‚musel‘ mit high-end kartu, mam uspesne za sebou 😉
Tak za AMD PR pod clanky nemuzes cekat buhvijakej plat, zejo.
Chlape, ty jsi jeste blbejsi, nez jsem si kdy myslel.. v ty tvy hlave, to musi byt obcas fakt peklo 😉
😀
Tak v line-upu měli Voltu označenou jako nástupce Pascalu, takže herní hrafika z ní dříve či později bude. Každopádně je teď ani konkurence ani nedostatečný výkon u hráčů v současnosti nenutí ji vydávat.
Ano, Nvidia by pravděpodovbně byla schopná vydat herní verze podobně rychle jako loni s Pascalem, ale aktuálně asi nemá důvod. 1080Ti se prodávají nově, 1070/80 pořád bez konkurence, obecně má teď většina lidí upgradováno… A Vegy se nejspíš nebojí, no a i kdyby překvapila, můžou reagovat jak cenově, tak nejspíš i dřívějším vydáním herní Volty. Jsou holt až v nezdravě dobré sitauci. 😀
Naopak v oblasti těch „enterprise výpočtů“ tak se na Voltu už čekalo a zájem by měl být množná i větší, než v případě Pascalu. A v oblastech, kde se využíjí Tensor cores, tak to může být opravdu revoluce, jinde standartní nová generace.
Stále ale platí můj tip, že před Vánocemi se nějaká GTX s Voltou do prodeje dostane a nejlogičtěji by to měly být 2080/70, příp. 60.
Jak to tak vypadá, tak Tensor Cores bude nová mantra fanoušků Nvidie :-)) Co na tom, že pro hráče tohle žádný přínos nemá…..
No – kdo říká, že vůbec budou v herních kartách? Tam by být neměly, jde čistě o výpočetní sektor, jak je tu řečeno. A tam to skutečně, pro některé typy operací, je obrovský pokrok, toť ale vše.
Jak nehodí? Když o tom tak přemýšlím, nebyla to právě AMD, která přispěchala s DX12 a Vulkánem pro asynchronní řazení grafických a výpočtových úloh? Co když nVidie přišla s tím že nebude provádět hyperthearding úloh, ale obě cesty zpracování od sebe oddělí, tak že budou obě fronty zpracovávány souběžně? aha že. (netrvdím že to tak bude, ale jen mě dojímají předčasné závěry, s tím že neexistující Vega je už teď lepší než už existující Volta)
Existující Volta. 😀 Ten je dobrej… možná ta u Huanga na papíře. Q4 teprve začnou dodávky HPC karet, takže herní Q1 2018.
Q3 už budou dodávat, neumíš číst?
lžeš
I když teď čtu co jsi tu sám psal „jo a ještě koukám, předobjednávky už příjmají, a začnou dodávat celé systémy v Q3 a v Q4 už samotné karty. Takže Q2 pomalu končí…“
Tak spíš nelžeš záměrně, ale jsi jen hloupej. Q2 není ještě ani v půli, natož aby končil. To můžeš rovnou napsat, že nám 2017 už pomalu končí. Crhova logika. 😀
Aznohh: Snažíš se z toho vylhat? Q2 – duben, květen, červen, Q3 – červenec, srpen, zaří.
Do konce Q2 nám zbývá měsíc a půl a jestli si myslíš že to je dostatečně dlouhá doba na vývoj a testování čipu, tak jsi na omylu. Aby mohli v Q3 začít dodávat tak už nyní musí sjíždět z linky první čipy a dolaďovat poslední detaily. Tys to vzal časově, že končí jako že končí, ale mě šlo o to že nemají čas na to aby teprve teď začli ladit a testovat čip, to je blbost.
Crho ty se v tom plácáš jak žába na pánvi. Pokud to chceš doslova, tak Vega byla narozdíl od Volty k vidění už před půl rokem v akci. Takže mlč o čipech co jdou z výrobní linky. Celá tvoje věta „neexistující Vega je už teď lepší než už existující Volta“ je jen výplodek zedníka fanobye.
Jojo, ty debaty o grafikách. Vždycky jen co se hodí – tu kryptoměny, tu deep learning…
Zase nazarize v ramci rage proti Nvidii na limit znalosti. Tensor Cores se daji vyuzit nejek k trenovani, ale i k inference (tzn. pouziti vytrenovaneho modelu). Nvidia k tomu ma dokonce I knihovnu – TensorRT ( https://developer.nvidia.com/tensorrt ).
Vyznam pro hrace je jasny – staci aby v GPU bylo par Tensor Cores (protoze inference je mnohonasobne rychlejsi nez trenovani) a hry muzou vyuzivat pokrocile AI – a to nejen pro nepratele, ale take pro porozumeni textu, hlasu atd. (pozor, nemluvim o rozpoznani reci, ale o pochopeni obsahu).
Tensor Cores by mali vedieť urýchliť maticové operácie. Je konštrukčne možné ich využiť aj pri renderingu? Tam sa maticových operácií vykonáva dosť. Alebo tu to nemá zmysel?
To uz delaji normalni cuda cores/sp. Tensor Cores delaji jednu konkretni operaci, ale mnohem rychleji.
Jo ja viem, že to robia CUDA cores. Len že či by Tensor Cores v tomto vedeli pomôcť a celý proces urýchliť. Ale chápem to tak, že sa jedná o niečo úplne iné.
To je ciste na Nvidii. Funkce Tensor Cores je dost specificka a stejne ani vyvojari nemaji moznost rozhodovat se co kde se bude pocitat. To by muselo byt primo v ovladacich. Mozna ray tracing? Vazne nevim.
tak pozor, nevravim ze tazba je priorita, ale ze je tam ta moznost, z toho pohladu mi pride, ze je preto radeon CELKOVO vyhodnejsi. …a to neratam +freesync ..tj celkove riesenie vyjde v rovnakej cenovej hladine o 200€ lepsie
Ty vole, toto amdčko už nerozdýcha. Fakt neuveritelne čo sa dnes dá spraviť …
tombomino, 11.5.2017 at 9:27: „Hele, mne osobne je to celkem sumak, jelikoz je pro mne stejne vsechno cenove nad 1060/580 nezajimave.“
tombomino, 11.5.2017 at 12:37: „mi AMD fanatici jsme opravdu uz zoufali“
tombomino, 11.5.2017 at 9:29: „Mne je Vega sumak, jelikoz to neni stejne moje cenovka.“
VÁŽENÝ tombmimino, pokud VÁS high-end, NEZAJÍMÁ, tak bych vám velice rád doporučil aby jste se diskuzí u high-endu NEZÚČASTŇOVAL. Děkuji
Mě opravdu slabodušší jedinci kteří na to nemají, nezajímají, a nezajímá mě ani jejich názor, že to není karta pro ně a další keci. Ať si koupí svou rx460 a nebo 1050Ti a dají pokoj. Nevím proč tady takoví lidé mají pořád potřebu psát do diskuzí co si nekoupí? Nejvíc mě vytáčí lidé: „mě to neoslovililo, protože mám xyz kartu a zatím větší výkon nepotřebuju.“ Tak proč to do diskuze píše? Co to je za jedince co si myslí si, že někoho zajímá jeho názor co si nekoupí? Já tady taky nepíšu co si nekoupím, nekoupím si růžové auto, nekoupím si zelenej hrnek, nekoupím si žlutej deštník, KOHO TO ZAJÍMÁ? Nikoho!!!
Crha, kups si prasky na spani a huuuuuuus 😀
To je asi tak vsechno co se da k tvemu intelignentnimu prispevku napsat.
Haha, od zedníka Crhy co rok čekal na zaplacení faktur a žral jen chleba s vodou, aby si konečně mohl koupit mainstramovou grafiku, to sedí! 😀
Aznohh: Ty máš nějakej problém chlape.
Omlouvám se všem, že jsem nemístnou poznámkou probudil všechny zelené trolly.
Tynyte, to neni tvoje chyba 😉 Podivej se na ten matros…z toho by se daly delat prazce na koleje.. 😉
Nezapomente lubrikant, vy dva.
hnizdo: pěkně, No.1 palec hore !
No myslim, ze by jsi si jej mel sam poridit tady s Jardou Crhousem 😀
Takovy parecek se hned tak nevidi..
Hele vymysli si neco vlastniho. Jo ty nemas cim 🙂
Jj, absolutne souhlas. Akorat ze z vas pada tak akorat leco.
Pro mě zatím zklamání, čekal jsem víc. Přes 15 Tflops tlačí Titan Xp na vodě, takže pouze lehká evoluce. Čip jako kráva (herní předpokládám kolem 600mm2), takže cena bude vysoká, výtěžnost mizerná. Ty marketingový kecy od kožené b(k)undy na mě neplatí. 2080Ti tu bude za cca rok, stejně jako 1080Ti od představení P100. To už by mělo AMD vydávat Navi, tak snad se dočkáme nějakých výkonnových posunů, protože tohle je nuda.
Což o to, čip je to moc hezký, jen asi bude po čertech drahý a obtížně vyrobitelný. Nicméně tam, kam míří, si tuhle cenu budou moci dovolit a za rok, rok a půl to bude možná i na uvolnění do běžného prodeje jako derivát této karty v podobě hiendu. Nvidia má teď opravdu našlápnuto.