Test GeForce GTX 480 (Fermi) I. – DirectX 11 od nVidie

0

O Fermi vážně i nevážně

Sice stejně jako vždycky nejvášnivější spekulanti a vyzvědači po střípcích přinejmenším hrubé obrysy obou nových GeForce poskládali celé týdny před uvedením, Nvidii se ale stejně dařilo tajit vše podstatné navzdory průtahům velmi dlouho. Možná i proto, že čip GF100 a jeho inkarnace GTX 480 a GTX 470 za běhu několikrát změnil svou podobu. Jednou ze změn byl i Polymorph engine, tedy jednotky v čipu GF100, jež se starají o teselaci.

Jelikož už stejně máte všichni recenze GeForce GTX 480/470 přečtené jinde a pokud ne, viděli jste už aktuality a preview přímo na EHW, nebudu vás zdržovat tím, co mají takříkajíc všude. Namísto toho pro vás mám zajímavosti, které jsme získal v dotazech na pařížském rychlobriefingu anebo v následující e-mailové konverzaci. Jako Nvidia odpovídal Tom Petersen, možná Lars Weinand a další.

ExtraHardware: Tom Petersen nám prozradil, že neexistuje způsob, jak softwarově aktivovat zablokované jednotky v GF100. Můžete nám prozradit nějaké detaily o konkrétní realizaci deaktivace (řez laserem, přepínač,…)?

Nvidia: Jednotky jsou opravdu vypnuty v hardwaru. Nehodláme zveřejnit detaily, jakým způsobem je deaktivujeme.

ExtraHardware: Proč prosazujete teselaci až nyní? ATI zkoušela teselaci protlačit už několik let zpátky (TruForm v Radeonu 8500, TruForm 2.0 s adaptivní teselací v Radeonu 9700, Xenos v Xbox 360, hardwarový teselátor v R600, dema Froblins s Radeony HD 4800,…) a nyní najednou obě společnosti už svorně tvrdí, že teselace je způsob, jak opravdu významně zlepšit vizuální stránku her.

Nvidia: Podívejte se prosím do historie. My jsme byli prvními, kdo přidal hardwarovou teselaci do GPU (už s GeForce 3, viz otázka 19 a dále v tomto GF3 FAQ). Tato technologie se také dostala do Xboxu, čtyři roky předtím, než s tím přišla ATI v Xenosu pro Xbox 360. A musíte si všimnout, že žádná snaha nebyla úspěšná vinou chybějící podpory v API.  DirectX 11 je opravdu klíčem a je také důvodem, proč nyní vkládáme do prosazení teselace tolik sil. (poznámka MJ: Otázka nebyla možná šťastně položena, možná nepřesně pochopena, každopádně o RT-patches Nvidie víme (viz pár týdnů starý článek o teselaci), každopádně jsem chtěl od Nvidie slyšet, proč v posledních letech bylo o teselaci slyšet jen ze strany ATI a zda třeba obě firmy nenarážely u Microsoftu apod.)

ExtraHardware: GeForce GTX 480 a ani 470 už nepoužívá čip Volterra. Můžeme očekávat podporu pro zvyšování napětí jádra v utilitách jako MSI Afterburner a monitoring teplot/proudů na VRM (třeba v GPU-Z)?

Nvidia: Tato otázka není přímo na nás, ale odpověď zní: myslíme, že je rozumné to očekávat.

ExtraHardware: Proč jste nenavrhli raději jeden čip pro 3D (trochu levnější, trochu menší a ne tak energeticky náročný) a jiný (s nějakými sdílenými prvky architektury) pro GPGPU?

Nvidia: Hlavním důvodem, proč většina dedikovaných DSP/paralelním procesorů (jiných než GPU) neuspěla tkví v objemu: bylo by (co se nákladů týče) extrémně neefektivní tvořit komplexní čip pro rozvojový trh. GF100 nám umožnil vstoupit na oba trhy s rozumnou cenou. Udržujeme cenu karty vysoce konkurenceschopnou pro hráče vypnutím ECC a rychlých výpočtů s dvojnásobnou přesností (výkon GeForce v DP je proti Tesle 1/4), jelikož je nechtějí nebo nepotřebují. Výpočetní hodnota se tak snoubí s řešeními Tesla/Quadro, u nichž se zákazníci už opravdu o tyto vlastnosti zajímají. Tento přístup je vítězstvím pro obě strany. (poznámka MJ: Vítězstvím by to bylo zcela jistě, kdyby Tesla/Quadro nebyly zpravidla násobně dražšími řešeními. Na druhou stranu, konkurence (AMD) nemá na mnoha trzích vůbec vyřešenou podporu či jen distribuci profesionálních řešení, tudíž si Nvidia i vzhledem k náskoku v ekosystému GPGPU takovou strategii asi může dovolit)

Parametry GeForce GTX 480 dávají tušit, jak Nvidia při analýze a návrhu asi uvažovala. Papírové parametry tentokrát existující Radeony nezahanbují, dokonce naopak GeForce GTX 480 hodně zaostává v teoretickém výkonu v texturingu. To potvrzuje třeba i test v 3DMark Vantage (jedna ze závěrečných kapitol) a uvidíme, zda Nvidia neudělala špatný odhad a nebude to někde bolet. Je zajímavé, že chystaná GF104 by ač jinak levnější a menší to čip měla mít snad texel rate vyšší.

GeForce GeForce GeForce GeForce GeForce GeForce
8800 GTX GTX 280 GTX 285 GTX 295 GTX 470 GTX 480
Jádro G80 G200 G200 2× G200 GF100 GF100
Výrobní proces 90 nm 65 nm 55 nm 55 nm 40 nm 40 nm
Velikost jádra 484 mm² 576 mm² 470 mm² 470 mm² ~500 mm² ~500 mm²
Tranzistorů 681 mil. 1,4 mld. 1,4 mld. 2,8 mld. 3,2 mld. 3,2 mld.
Stream procesorů 128 240 240 2× 240 448 480
Takt jádra 576 MHz 602 MHz 648 MHz 576 MHz 607 MHz 700 MHz
Takt SP 1350 MHz 1296 MHz 1476 MHz 1242 MHz 1215 MHz 1401 MHz
ROP/RBE 24 32 32 2× 28 40 48
Texturovacích jedn. 32 80 80 2× 80 56 60
Paměť 768 MB GDDR3 1 GB GDDR3 1 GB GDDR3 2× 896 MB GDDR3 1280 MB GDDR5 1536 MB GDDR5
Takt pamětí 1800 MHz 2214 MHz 2484 MHz 999 MHz 3348 MHz 3696 MHz
Šířka sběrnice 384-bit 512-bit 512-bit 448-bit 320-bit 384-bit
Propustnost pamětí 86,4 GB/s 141,7 GB/s 159,0 GB/s 111,9 GB/s 133,9 GB/s 177,4 GB/s
Fillrate (pixely) 13,8 Gpx/s 19,3 Gpx/s 20,8 Gpx/s 2× 16,1 Gpx/s 24,3 Gpx/s 33,6 Gpx/s
Fillrate (textury) 18,4 Gtx/s 48,2 Gtx/s 51,8 Gtx/s 2× 46,1 Gtx/s 34 Gtx/s 42 Gtx/s
FLOPS 346 GFLOPS 933 GFLOPS 1063 GFLOPS 1789 GFLOPS  1089 GFLOPS 1345 GFLOPS
Max. spotřeba 176 W 236 W 183 W 289 W 215 W 250 W
Délka karty 27 cm 27 cm 27 cm 27 cm 24 cm 27 cm
Shader model 4.0 4.0 4.0 4.0 5.0 5.0
Radeon Radeon Radeon Radeon Radeon Radeon
HD 2900 XT HD 4870 HD 4870 X2 HD 5850 HD 5870 HD 5970
Jádro R600 RV770 2× RV770 Cypress Cypress Cypress
Výrobní proces 80 nm 55 nm 55 nm 40 nm 40 nm 40 nm
Velikost jádra 420 mm² 263 mm² 263 mm² 330 mm² 330 mm² 330 mm²
Tranzistorů 700 mil. 956 mil. 2,15 mld. 2,15 mld. 2,15 mld. 2,15 mld.
Stream procesorů 64 (320) 160 (800) 2× 160 (800) 288 (1440) 320 (1600) 2× 1600
Takt jádra 743 MHz 750 MHz 750 MHz 725 MHz 850 MHz 725 MHz
Takt SP 743 MHz 750 MHz 750 MHz 725 MHz 850 MHz 725 MHz
ROP/RBE 16 16 2× 16 32 32 2× 32
Texturovacích jedn. 16 40 2× 40 72 80 2× 80
Paměť 512 MB GDDR3 512 MB GDDR5 2× 1 GB GDDR5 1 GB GDDR5 1 GB GDDR5 2× 1GB GDDR5
Takt pamětí 1656 MHz 3600 MHz 3600 MHz 4000 MHz 4800 MHz 4000 MHz
Šířka sběrnice 512-bit 256-bit 256-bit 256-bit 256-bit 256-bit
Propustnost pamětí 106 GB/s 115,2 GB/s 115,2 GB/s 128 GB/s 153,6 GB/s 128 GB/s
Fillrate (pixely) 11,9 Gpx/s 12 Gpx/s 2× 12 Gpx/s 23,2 Gpx/s 27,2 Gpx/s 2× 23,2 Gpx/s
Fillrate (textury) 11,9 Gtx/s 30 Gtx/s 2× 30 Gtx/s 52,2 Gtx/s 68 Gtx/s 2× 58 Gtx/s
FLOPS 475 GFLOPS 1,2 TFLOPS 2,4 TFLOPS 2,09 TFLOPS 2,4 TFLOPS 4,64 TFLOPS
Max. spotřeba 215 W 160 W 286 W 170 W 188 W 294 W
Délka karty 24 cm 24 cm 27 cm 24 cm 28 cm 31 cm
Shader model 4.0 4.1 4.1 5.0 5.0 5.0

 

Tom Petersen je mužem, který stojí za uvedením GeForce GTX 480/470 a prezentuje je po celém světě. Toma možná znáte z představení čipových sad s integrovanou grafikou (GeForce 7050, 7150 a další), nebo alespoň ze slavného videa s teselačním výkonem GF100 v Unigine Heaven.

Přestože v bublinách najdete citaci, neberte to jako bláznivý projev milovníka svého zaměstnavatele. Tom je tak trochu vtipálek a vede prezentace hodně odlehčenou formou a prokládá typickými amerikanismy.

Jestli vás zaujala spíše GeForce GTX 470, tak na její recenzi si budete muset na EHW ještě chvíli počkat. Začal jsem ji testovat v sobotu a hrubou představu o výkonu a provozních vlastnostech už mám, nicméně novou metodikou musím prohnat přinejmenším ještě Radeon HD 5850 pro ucelený obraz.


Zatím se můžete podívat na stručnou ale přesto asi dostačující recenzi slovenského kolegy Matúše Paculíka,
který si také pro kartu odskočil do Paříže: recenze GeForce GTX 470 na pcspace.sk.

Představení v Paříži bylo asi nejzvláštnější akcí, jakou jsem kdy zažil a předčilo to akci AMD R600 v Tunisu. To si takhle zhýralý novinář ve 3:30am vstane, dojede si na letiště do Vídně, v 7:10 odletí ekonomickou třídou na letište Charles De Gaulle, kde ho má čekat taxi, ale nečeká. Nakonec se nějaké najde a po bloudění najde kanceláře Nvidie. Ty v Paříži jsou sice hezky zařízené a poté, co vrátná zahlásí, že „mesié žaoda a mesié pakulik už jdou nahoru“, se zlepší i nálada, jenže lidé z Nvidie jsou z Fermi natolik „excited“, že nechají vyhladovělé novináře nejdříve hodinu sedět v zasedačce a pak rovnou hurá s prezentacemi.

Jelikož jsem patřil k často se vyptávajícím, nezískal jsem asi popularitu kolegů z dalších evropských zemí, jídlo jsme nakonec v pauze ale přece jen obdrželi. Druhá část prezentace, hop na taxík a úprkem na letiště. Na podzim mi na stejné trase letadlo uletělo při výjezdu s větším náskokem, tentokrát taxikář předvedl heroický výkon a kličkováním zácpou, jaké jsme ještě neviděl, nás dopravil ještě s rezervou. Večerní přílet do Vídně, koupě velkého kafe ve StarBucks a rozptýlení tamním prodavačem („This is a new graphics card… actually, the newest one!“) a řízení zpět do ČR. Co by podplacený novinář pro Nvidii neudělal.

Svatá Fermi a svatý Václav. Zajímalo by mě, jestli i další novináři použili na stránkách fotku s českou dvacetikorunou jakožto měřítkem u čipu GF100.

Předprodukční vzorek GeForce GTX 480 měl chladič dost podobný tomu u GTX 470 a ještě podsvícené logo. To se pak dle slov Igora Staňka spíše nedopatřením nedostalo i do finální GeForce GTX 480.

Screenshot z DXVA checkeru jsem vám ukázal už v sobotní řekněme preview aktualitě (byť obsahovala kompletní výsledky) a už tam prozradil že, co se týče akcelerace HD videa a vůbec multimediálních schopností, jsou na tom obě GF100 stejně jako třeba GeForce GT 240. Mají tedy VP4, videoprocesor, který akceleruje HD video až do 1080p včetně formátů H.264 (i L5.1 a 16 ref. frames pod Windows Vista/XP), VC-1, MPEG-2 HD a DivX HD. Integrovaný zvukový kodek pak o něco zaostává za Radeony HD 5000, neumí bitstream processing Dolby TrueHD and DTS-HD MA. Minimálně na GeForce GTX 480 ale asi nikdo HTPC stavět nebude, takže by to mohlo být zajímavé spíše s ohledem na chystané deriváty GF100.

GeForce GTX 480 chladiče zbavená a na fotografiích zvěčněná

Nebojte, Nvidia se na retail ještě nedala, zelená krabice je čistě pro novinářské karty. Karta uvnitř byla chráněna dobře, kráčet s ní v podpaží po letištích bylo ale trochu komické.

Část s nápisem GeForce a zeleným lemem je opravdu z kovu a při hraní her velmi horká. Je otázkou času, kdy se objeví první videa se smažením vajíček.

Pět masivních heatpipe (čtyři viditelné hned) a dva SLI konektory pro zapojení do až 3-way SLI.

O tom, že karta bude mít dva DVI-I a jeden miniHDMi víte už minimálně od CeBITu. Nvidia říká, že HDMI je dnes ještě rozumnější volbou než DisplayPort a na otázku proč miniHDMI, tak jednoduše proto, že se „velké HDMI“ vedle dvou DVI-I už nevešlo. Čip Chil nahradil Volterru známou z takřka všech vyšších řad ref. GeForce i Radeonů.

Necelých 27 cm, to je dobrý standard, do něhož se GeForce GTX 480 na rozdíl od ref. Radeonů HD 5870 a 5970 vešla. Hmotnost přes 930 g také není malá, proti skoro jeden a čtvrt kila vážícímu Hemlocku je to pro PCI Express slot asi ještě v pohodě.

Je to zhruba stejně (spíše o chlup méně) než GeForce GTX 285 (perspektiva trochu mate):

A o nezřídka důležitý více jak centimetr méně než Radeon HD 5870:

Délka 28+ cm je ale výsadou jen plastové okrasy ref. chladiče HD 5870, PCB je zhruba stejně dlouhé jako u GeForce, takže třeba Radeon HD 5870 Vapor-X (i v „Build by ATI“ verzi) nemá také více jak 27 cm.

Rozborka GeForce GTX 480 odhalí přímý dotyk heatpipe s rozvaděčem tepla čipu, velké jádro (odhady kolem 500 mm čtverečních či ještě o krapet více) a zakryté paměti. Poslední chladič (na pamětech) se mi nepodařilo oddělat, jeden šroub měl strhaný závit a musel bych mít více klidu a času.

GPU-Z monitoring GTX 480 v zátěži:

Takty v desktopu Windows 7 (zcela v klidu):

Takty v desktopu při lehké zátěži (více oken v Aero,…):

EVGA Precision už do jisté míry GTX 480 a 470 podporuje a má pro ně připravené i nové vzhledy:

Přednosti a architektura GF100 očima Nvidie

V této a následující kapitole si můžete přečíst pouze o některá později upřesněná fakta doplněné texty prezentované na EHW v době, kdy Nvidia nejdříve poodhalila GPGPU pohled na Fermi (listopad 2009) a architekturu z pohledu API pro 3D grafiku (leden 2010). Obě kapitoly čerpají z dokumentů, jež Nvidia ve formátu PDF společně s dalšími informaci nabízí na stránce věnované GF100.

Jádro Fermi při výrobě 40nm procesem o něco málo větší než 55nm GT200 a menší než 65nm varianta tohoto čipu. Fotografie 3,2 miliard tranzistorů vypadá nějak takto:

Když se jádro převleče do schématu podle funkcionality, zřetelně vidíte uspořádání do čtyř clusterů (GPC):

Každý cluster je dělen na další části, z nichž nejvíce prostoru požaduje také vždy čtyři SM (streaming multiprocesory). Na každý SM připadá 32 stream procesorů a jedna z hlavních novinek GF100: polymorph engine.

Zatímco o rasterizačních jednotkách nebylo asi mnoho nového co říci (změnilo se spíše jen dělení)…

… a stream procesory byly v podstatě známy už z GPGPU odhalení architektury Fermi,…

.. tak polymorfní jednotka se dá považovat za skutečnou inovaci. Podobně jako Nvidia už dříve oddělila doménů shaderů od zbytku jádra a přidělila jí vyšší taktovací frekvence, vyčleněním určitých vhodných částí/funkcí do tzv. PolyMorph engine mohli Kaliforňané zavést out-of-order provádění instrukcí.

Určitě jste si nemohli nevšimnout, že součástí každé polymorfní jednotky je i teselátor, tedy jednotka specializující se na změnu (zjemnění) trojúhelníkové sítě modelů.

Teselace je součástí specifikace DirectX 11 a konkurenční ATI si s ní pohrává už hodně dlouho. V Radeonech HD 5000 se pak teselátor dostal právě díky souznění s novým API Microsoftu konečně více ke slovu a nyní tedy i Nvidia začíná propagovat teselaci jako velkou výhodu pro vizuální vjem.

Teselaci bude Nvidia demonstrovat i na nových demech: Hair (vlasy) a hlavně Water (voda, v tomto případě moře). Pokud sledujete diskuzi o Fermi v našem fóru, asi jste viděli i videa.

Alespoň abstraktně se Nvidia pustila i do konkurenčního srovnání s Radeonem HD 5870 (Cypress XT). Co je myšleno přesně „DirectX 11 Application“, to už se z PDF nedozvídáme.

Froblins GPU tess

Hardwarová teselace je cestou k lepší 3D grafice

Teselací jakožto nejdůležitější inovací v Direct3D 11 jsme se na ExtraHardware zabývali zatím jenom stručně. Mezitím se tento pojem stal rukojmím marketingu a mnohé zůstalo nevysvětleno. Co teselace je, co to není, co to dělá, co to nedělá a jaký vliv to bude mít na vývoj her, to si povíme v dnešním článku.

Číst celý článek

Jednou ze změn, která s rasterizačními jednotkami přece jen souvisí, je nový režim anti-aliasingu. 32× AA ale znamená 32× CSAA, tedy 8 vzorků (multi-sample, Color/Z/stencil) a 24 tzv. coverage vzorků. Přínos Nvidia demonstruje na následujícím výřezu, výkonnostní dopad by měl být jen o 7 % vyšší než u 8× MSAA.

U anti-aliasingu se Nvidia pustila do srovnání s předchozí (nikoli DX10.1 ale DX10) generací- Detailů opět není zřejmě úmyslně sděleno mnoho:

K anti-aliasingu patří i jittered sampling, metoda, již bude možno využívat (snad v některých případech) pro boj s aliasem na okrajích stínů. Jako obrazový přípak Nvidia vybírá Canyon Flight z 3DMark06 (můžete tedy snadno srovnat s aktuálním stavem po spuštění na vašem PC). Metoda jitter (roztřesení, v tomto případě pozic subpixelů v mřížce) je známá i ze starších metod celoobrazovkového anti-aliasingu (FSAA). Jestli accelerated před slovem jittered v materiálech Nvidie znamená nějakou adaptivitu nebo jen lepší výkonnost, za tím jsem se zatím nepídil.

Poslední takovou věcí úzce spjatou se schématem čipu jsou cache a práce s pamětí. Právě úlohu cache Nvidia hodně vyzdvihuje a připomíná, že benefity mohou být dosaženy v celé grafické pipeline:

Společně s GF100 bude zřejmě uvedena i technologie 3D Vision surround kombinující to, už znáte díky ATI Eyefinity (hraní na zatím třech monitorech chovajících se jako jediná velká plocha) s 3D Vision (stereoskopické zobrazení díky renderingu dvou bufferů a různého zobrazení pro každé oko buď díky shutter glasses (zatmívacím brýlím) nebo brýlím polarizačním).

Pro plnobarevné 3D stereo je třeba kombinace shutter glasses a 120Hz monitoru, proto Nvidia ukazuje 3D Vision Surround na třech LCD od Aceru, prvních běžných panelech se 120 Hz a rozlišením 1920 × 1080 px (1080p, full HD, chcete-li).

No a poté, co Nvidia hrdě předvedla třímonitorové hraní a teselaci, zbývá ještě přijít s poslední disciplínou, která jí dříve určitě nebyla po chuti: raytracingem. Fotorealistické vykreslování metodou sledování paprsku je vhodné zejména pro lesklé materiály a Nvidia uvádí, že díky navýšení výkonu GPGPU bude GF100 v tomto násobně výkonnější než GT200. Jeden relativní graf Nvidia uvádí pro pathtracing, tedy metodu založenou na global illumination, a v něm je nějaká instance GF100 rychlejší přesně 4× než nějaká instance GT200.

Weby, jež se věnovali odhalení grafické architektury GF100 podrobněji (odkazy vedou přímo na články):

Z grafik se stávají procesory: GPGPU část architektury GF100

Architektura nazvaná podle italského fyzika nemá své „vědecké“ jméno náhodou. A zřejmě nemá náhodou ani kódové označení GF100 (GeForce Fermi 100). Byla tu už sice G200 nebo GT200 (GeForce Tesla), ale naopak toto označení bylo matoucí. Zatímco GT200 byla pouhým faceliftem (a spíše násobením a zvětšováním) G80 a G92, vývoj GF100 zřejmě započal po G80. Jenže jakožto vývoj opravdu nové architektury trval podstatně déle a Nvidia mezitím samozřejmě nemohl ustrnout na G80 a G92. Bude kódové označení Fermi kromě vhodnosti GF100 pro náročné vědecké účely mít spojitost i s faktem, že Enrico Fermi sestrojil první jaderný reaktor?

Od triangle setup až k GPGPU

Nvidia při stručné historii GPU v úvodu prezentace nové architektury nezapomněla připomenout, že zkratka GPU (Graphics Processing Unit) se zavedla společně s první GeForce (GeForce-256), která nesla novinku ukotvenou v sedmé generaci DirectX: T&L jednotku. Transform&lighting (transformace a výpočty osvětlení) dosud dělal procesor a ukousnutí jeho práce předznamenalo další vývoj. Nechme teď stranou, že GeForce-256 nebyla první grafickou kartou s T&L a že první ulevení práce procesoru bylo i v konzumních (či herních) 3D čipech pozorovatelné ještě dříve (mluvím o triangle setup) a u jiné značky. Později se fixní T&L jednotka vyšvihla v programovatelný vertex shader a byť byla kontrola vrcholů trojúhelníka možná stále jen pomocí jazyků nižšího řádu, byl to další krok.

Současně s ním grafická karta GeForce 3 pod rozhraním DirectX 8 nabízela programovatelné operace s pixely (pixel shader, pod OpenGL fragment shader) a s další skutečně celou generací přišly i jazyky (shaderů) vyššího řádu. Skutečným předchůdcem GF100 je však G80, srdce GeForce 8800 (GTX, GTS-320/640 a Ultra). Ačkoli uvedena v listopadu 2006, pracovalo se na ní už od roku 2002. G80 byla prvním GPU, u něhož se dalo mluvit o GPGPU – General Purpose GPU znamená opravdu grafickou vypočetní jednotku použitelnou k obecnějším účelům (výpočtům). Unifikované stream procesory G80 podporovaly jazyk C (první verze CUDA) a programátoři dostali k dispozici i SIMT model (jedna instrukce více vláken) a sdílenou paměť odbourávající bariéru komunikace procesových vláken.

V roce 2008 došlo k vylepšení G80 v podobě čipu GT200. Herní GeForce GTX 280 a GPGPU karta Tesla T10 měla k dispozici především namísto 128 rovnou 240 stream procesorů (později Nvidií nazývaných jako CUDA procesory) a kromě přidání podpory double precision (s nevalným výkonem) bylo v podstatě vše týkající se GPGPU zdvojnásobeno.

Přichází Fermi

Architektura Fermi není žádným faceliftem a přidáváním jednotek: jedná se o velký skok ve vývoji a z velké části nový směr. Jestli správný, to ukáží až následující měsíce a spíše roky. Návrháři Fermi se zaměřili především na tato dosavadní omezení:

  • slabý výkon v double precision (FP operace, v single precision už výkon GPU byl ve velkých násobcích výkonu CPU)
  • podpora pamětí ECC (aby GPU mohla sloužit v datacentrech)
  • některé paralelní algoritmy nemohly používat sdílenou paměť GPU (je třeba opravdové sdílené cache a také programátoři chtěli více než 16 kB sdílené paměti)
  • vývojáři chtěli rychlejší přepínání kontextu
  • stejně tak byly požadovány rychlejší atomické operace v paralelních algoritmech

Nvidia na tato přání reaguje Fermi s těmito klíčovými vlastnostmi:

  • 32 CUDA procesorů na streaming multiprocessor (SM), čtyřnásobek GT200
  • 8× vyšší výkon v double precision než GT200
  • 64 kB RAM s L1 cache
  • unifikovaný adresní prostor s plnou podporou C++
  • optimalizace pro OpenCL a DirectCompute
  • podpora přesnosti IEEE 754-2008 32- a 64-bit
  • Parallel DataCache hierarchie s konfigurovatelnou L1 a unifikovanou L2
  • podpora ECC pamětí
  • podstatně vyšší výkon atomických operací
  • 10× rychlejší přepínání kontextu
  • out-of-order

První GPU architektury Fermi, GF100, obsahuje 3,2 miliardy tranzistorů a až 512 CUDA (stream) procesorů. 512 SP je organizováno do šestnácti SM (každý s 32 jádry). GPU má 384bitový paměťový řadič (6× 64-bit) a podporuje maximálně 6 GB GDDR5.

Že vám tohle schématické znázornění hlavních části GF100 něco připomíná? Ano, vypadá to trochu jako Larrabee (doporučuji pročíst článek o architektuře tohoto „x86 GPU“ Intelu). Při rozhovorech se zástupci Nvidie také nezřídka slyšíte, že cílem „útoku“ nebyly ani tak Radeony společnosti AMD, ale právě Larrabee mocného Intelu. Jestli má Fermi nějakou spojitost s odchodem Pata Gelsingera dosud prezentujícího Larrabee z Intelu, to si ale opravdu netroufám ani spekulovat.

Dvakrát do jedné řeky nevstoupíš?

Jisté je, že Nvidia opět nezvolila strategii AMD: trefit „sweet spot“ s čipem vyššího mainstreamu o rozumné velikosti (i když AMD s RV870 už také trochu vybočila) a od tohoto čipu odvodit odsekáním jednotek levnější řešení a pomocí Multi-GPU dosáhnout na příčky nejvyšší. GF100 bude opět veliký čip, z něhož se budou odvozovat další, levnější a pomalejší. Nvidia (zřejmě správně) uvádí, že škálovatelnost Fermi bude daleko větší (snadnější).

Nebudu vás unavovat detaily výpočetních jednotek, jež bych stejně musel přeložit prakticky 1:1 z materiálu Nvidie (zájemci o tento text nechť využijí odkazu vedoucího na TechReport na konci článku), namísto toho se podívejme na jeden z několika výkonnostních grafů z prezentace:

Bohužel není ani z kontextu v PDF jasné, zda se jedná o srovnání architektur takt na takt a třeba i při stejném počtu jednotek. To by byl pro Fermi optimistický scénář, pesimistický spočívá ve srovnání GTX 280 a první karty na GF100 (tedy s rozdílnými takty jádra a především SP/CUDA procesorů a hlavně s 512 SP proti 240 SP).

Další graf patří rychlosti třídění algoritmem Radix, u něhož je dosaženo podobného nárůstu jako u DP:

Simulace kapalin (resp. kolizí kapalin s konvexními tvary) zaznamená na Fermi až 2,7násobku rychlosti oproti GT200:

Slibované urychlení atomický operací je díky kombinaci více jednotek v hardwaru a přidání L2 cache dramatické:

Nexus – sen vývojářů?

Skoro nakonec jsem si nechal něco, co Nvidia nazývá tím vůbec nejvíce „sexy“ na Fermi. Je to možnost vyvíjet pro GPGPU v kompletním integrovaném prostředí pomocí C++. Vývojářský nástroj se jmenuje Nvidia Nexus pod odstavcem vidíte jeho ukázku.

Nexus umožňuje návrh a odladění kódu pro GPU přímo v nástroji, na který jsou vývojáři zvyklí z programování pro CPU – Microsoft Visual Studiu. Nexus Visual Studio obohacuje o nástroje pro masivní paralelismus (v němž GPU samozřejmě dále a ještě výrazněji exceluje).

Po ukázání si všech vylepšení architektury Nvidie pro GPGPU je důležité si připomenout, že všechny budou k dispozici jen s kartami Tesla. Karty GeForce mají drasticky omezen výkon v double precision (konkrétně na 1/4, max. 64 FMA/takt)

Testovací sestava

Testovací konfigurace

Hardware

  • monitor: HP LP3065 (30″, 2560 × 1600 px, S-IPS)
  • procesor: Intel Core i7-920 (20× 200 MHz = 4,00 GHz, Turbo Boost a HyperThreading vypnuty)
  • základní deska: Gigabyte GA-X58A-UD5 (Intel X58, ICH10R, BIOS F3)
  • paměti: 6 GB Kingston DDR3-1866 (1200 MHz, 7-7-7-20-2T, 1,66 V)
  • pevný disk: Western Digital VelociRaptor VR150 (WD3000GLFS)
  • optická mechanika: Lite-On DH-4O1S (Blu-ray, DVD-ROM)
  • zdroj: Gigabyte Odin GT 800W (GE-S800A-D1)
  • skříň: Cooler Master Centurion 534
  • chladič CPU: Scythe Mugen 2 (1300 rpm) + Noctua NT-H1
  • systémové větráky: Arctic Fan12 PWM + Cooler Master 12 cm @ 1000 rpm

Pouze pro testy hlučnosti je použit jiný počítač (a noční klid):

  • hlučnost okolí: 36,5 až 37,5 dBA (měřeno cca 20 cm od grafické karty, odejmutá bočnice skříně)
  • pevné disky: WD7500AAKS a WD20EADS v boxech Acutake Dark Disc 2
  • zdroj: Enermax Modu82+, 625 W
  • skříň: Cooler Master Centurion 5
  • chladič CPU: Noctua NH-U12P
  • systémový větrák: Noctua NF-S12

Operační systém, nastavení a ovladače

  • Microsoft Windows 7 Ultimate (64bitová verze)
  • vypnuta automatické defragmentace, aktualizace i swap file na všech jednotkách
  • DirectX redist February 2010
  • Intel INF 9.1.1.1
  • ATI Catalyst 10.3 pro Radeon HD 5870/5970
  • Nvidia GeForce 197.25 pro GeForce GTX 285/295
  • Nvidia GeForce 197.17 pro GeForce GTX 480

Grafické karty testujeme na 30″ LCD panelu HP LP3065

Za poskytnutí procesoru Intel Core i7-920 děkujeme společnosti Intel

Za poskytnutí testovacích pamětí DDR3 děkuji společnosti Kingston

Kingston

Za poskytnutí základní desky GA-X58A-UD5 a zdroje Odin GT děkujeme společnosti Gigabyte

Mugen 2 v bedně

Za zaslání Blu-ray mechaniky děkuji společnosti Lite-On IT

Za poskytnutí desítek balení teplovodivé pasty Noctua NT-H1 děkujeme společnosti RASCOM Computerdistribution

 

Za poskytnutí her Battlefield Bad Company 2 a Dragon Age: Origins děkujeme
společnosti Electronic Arts Czech Republic.

Za poskytnutí hry Aliens vs. Predator děkujeme společnosti CD Projekt.

CD Projekt

Za poskytnutí hry Anno 1404 děkujeme společnosti Playman.

Konkurence a předchůdci GTX 480 (další karty v testu)

Sapphire Radeon HD 5870, 1024 MB

ATI Radeon HD 5970, 2× 1024 MB

Nvidia GeForce GTX 285, 1024 MB

Gigabyte GeForce GTX 295, 2× 896 MB

Aliens vs. Predator (DX11)

Aliens vs. Predator

Kdybyste potřebovali odemknutou první misi za predátora, můžete si uloženou pozici stáhnout na tomto místě. AvP lze spouštět v DX9 a DX11 režimu (přímo ze Steamu). DX11 režim běží i na DX10 kartách, jen nejsou k dispozici funkce jako teselace nebo multi-sampling. DX11 režim je při stejných detailech jak na Radeonech, tak na GeForce o několik procent (až cca deset) rychlejší než DX9. Všechny karty proto byly srovnány v nastavení DX11/bez teselace – šílený překlad mozaika) a 4x MSAA, DX11 akcelerátory potom ještě se zapnutou teselací, vylepšenými stíny a právě multi-samplingem o čtyřech vzorcích.

Testovanou sekvencí je předskriptované intro příletu a přistání predátora do džungle (mise Džungle). FRAPS nastavuji na 45 sekund.

DX11 rendering path lze tedy použít i pro DirectX 10 karty, na GeForce GTX 260 a GTS 250 jsem si ověřil, že z toho profitují výkonnostně (samozřejmě lze testovat jen bez teselace, MSAA a vylepšených stínů). Na problémy jsem narazil pouze u SLI, zde mise s predátorem po načtení padá a je nutné použít DX9 rendering path.

Za poskytnutí hry Aliens vs. Predator děkujeme společnosti CD Projekt.

CD Projekt

Anno 1404 (DX10)

U této překrásně vypadající strategie (schválně zkuste kliknout na náhledový obrázek nad tímto odstavcem anebo tento přímo z testovací sekvence) jsem se nechal podobně jako u Call of Duty World at War inspirovat metodikou PC Games Hardware a tu tedy máme plně srovnatelnou. Postup je takovýto: Stáhněte si uloženou pozici PCGH, uložte ji do C:\Users\xyz\Documents\Anno 1404\Savegames. Nastavte všechny grafické detaily ve hře na maximum, vypněte vertikální synchronizaci a MSAA i anizotropní filtrování aktivujte také skrze hru.

Po načtení uložené pozice pomocí kurzorových kláves několikrát přelétněte přes ostrov a pak pozici znovu nahrajte. Zafunguje to jako cache proti vlivu pevného disku. FRAPS nastavte na 20 sekund a měřte vždy od doby, kdy začne v pravém horním roph mluvit Zahir.

S CrossFireX je Anno 1404 na válečné stezce. Výsledky s implicitním HD 5970 nastavením jsou mnohem horší než třeba výsledky jediného HD 5850. Kdybych ponechal Catalyst AI na Standard (nebo nutil CrossFireX skrze Advanced), byly by výsledky u HD 5970 20,8, resp. 12,2 fps. Efektivita SLI také není vysoká, přesto je GTX 295 výkonnější než GTX 285.

Za poskytnutí hry Anno 1404 děkujeme společnosti Playman.

ArmA II (DX9)

ArmA II

Při testování v velmi náročné hře českého původu jsem využil integrovaného benchmarku. Všechny detaily kromě anti-aliasingu jsem zvolil nanejvyšší hodnotu, dohled vytáhl na 10 000. U ATI bylo vyhlazování nastaveno na normální, u Nvidie na vysoké. Steam verze hry byla ručně aktualizována na sestavení 1.05. Používám Benchmark 01, který je i v demu hry.

Nastavení vyhlazování (ve hře) se totiž liší u ATI (nízké = 2× MSAA, normální = 4× MSAA, vysoké = 8× MSAA) a Nvidie, kde je to vše složitější. Nízké a normální je 2× MSAA, vysoké a velmi vysoké potom 4× MSAA a 8× MSAA odpovídá nastavení 6. Další čísla jsou pak některé z režimů CSAA.

Pokud by vás zajímal výsledek GeForce GTX 480 z ještě brutálnějšího nočního Benchmark 02, vězte, že karta předvede 17 fps (průměr) ve 2560 × 1600 px s 4× MSAA. CrossFire ve hře škáluje minimálně, SLI pár desítek procent k výkonu jedné karty přidá.

SLI ve hře funguje, CrossFireX zřejmě nikoli. GeForce GTX 480 je na tom v ArmA II celkově špatně, v demu je výkon ještě tristnější a chybí většina textur, ani ve plné hře s posledné záplatou 1.05 neexceluje výkonnostně a ani obrazově. V náročnějším Benchmark 02 jsou viditelné chyby animace kouře a hra na GTX 480 při jakékoli změně rozlišení hned padá.

Battlefield Bad Company 2 (DX11)

 

Hned v úvodní misi se po probití zákopy dostanete po louku. Zde se po střetu s Japonci hra uloží. Nastavím FRAPS na 45 sekund a z tohoto checkpointu běžím kolem hořícího zera a dále pralesem až k můstku u vodopádu. Nové karty jsou otestovány v DirectX 11 režimy, všechny včetně starších pak společně v DirectX 10. Ten u DX11 GPU vynutíte v souboru C:\Users\xyz\Documents\BFBC2\settings.ini. Nastavení společně s uloženou pozicí si můžete stáhnout zde.

 

Ve 2560 × 1600 px zřejmě GTX 295 přestává stačit 896 MB grafické paměti a výkon padá pod úroveň GTX 285.

Za poskytnutí hry Battlefield Bad Company 2 děkujeme společnosti Electronic Arts Czech Republic.

Call of Duty 5: World at War (DX9)

Call of Duty 5: World at War

Benchmark probíhá pomocí FRAPSu. Ten nastavte na 35 sekund. V možnostech hry aktivujte konzoli a do ní vepište devmap pel1b. Tím se dostanete na začátek mise Houževnatý (Relentless). Jakmile se tak stane, spusťte FRAPS. Nově už nemusíte pro srovnatelnost výsledků s EHW držet klávesu pro pohyb vpřed, nechte jen doběhnout oněch 35 sekund a nic nedělejte.

Colin McRae: DiRT 2 (DX11, DX9)

Colin McRae: DiRT 2

Pro testování DiRT 2 jsem vytvořil veliký dávkový soubor, který mi umožňuje otestovat bez nějakého zasahování čtyři různé tratě ve čtyřech nastaveních. Pro srovnatelnost výsledků s DirectX 10 a 10.1 kartami mám sadu konfiguračních XML s vynuceným DirectX 9, další sada XML zapíná DirectX 11 (na GPU, jež ho umí), teselaci i nejvyšší úroveň detailů postprocessingu.

Měřím na čtyřech tratích: Maroko (méně náročná, ale výsledky srovnatelné s volně stažitelným demem), L.A. (noční, stadión dělá některým kartám problémy), Malajsie (na některých GPU nejnáročnější) a Londýn (ten je v plné hře jako základní benchmark). Veškeré použité XML a dávky pro testování najdete v tomto ZIPu.

Vliv náročnosti nastavení na hru ukazuje tento modelový graf naměřený na Radeonu HD 5770:

Crysis Warhead (DX10)

Crysis Warhead

K otestování výkon v Crysis: Warhead používám utilitu Framebuffer Crysis Warhead Benchmarking Tool 0.31. Abych měl měření kompatibilní s ověřovaným (ranked) benchmarkem, nechávám volbu na mapě ambush a implicitním čase (v tomto případě noc). Používám rozhraní DirectX 10 a zkouším jak nastavení Gamer (hráč, odpovídá detailům high v původním Crysis), tak Enthusiast (very high). Beru výsledek druhého měření, kdy už je hra načtena v paměti. V tomtom druhém průběhu rovněž zaznamenám podrobný FRAPSLOG. Měření jsou opakovatelná s minimální odchylkou.

Dragon Age: Origins (DX9)

Dragon Age: Origins

V Dragon Age Origins používám uloženou pozici od uživatele Kharkowa. Průsmyk ve Zmrzlých horách (cestou do trpasličího města Orzammar) patří zřejmě k nejnáročnějším lokacím (na GPU) z celé hry a uložená pozice je tak šikovně udělána, že stačí držet klávesu W a přitom logovat FRAPSem (až do přerušení při přechodu do další lokace).

První načtení používám jako cache, teprve těmi dalšími testuji. Používám maximální grafické detaily, jež hra nabízí, měním jen rozlišení a anti-aliasing ponechávám na 4×.

Za poskytnutí hry Dragon Age: Origins děkujeme společnosti Electronic Arts Czech Republic.

Empire: Total War (DX9)

Empire: Total War

V Empire: Total War používám takřka maximální nastavení (Ultra), vypnuto zůstává jen SSAO. To totiž koliduje na kartách ATI s multi-samplingem, který potom nepracuje. SSAO je tedy při testech vypnuté i na GeForce, jež kombinaci obého ve hře umožňují.

FRAPS nastavuji na 50 s, ve hře používám Bitvu u Brandywine Creek (Hrát bitvu, Scénář, …). Asi dvě sekundy po načtení začnu logovat, následuje předskriptovaný průlet bojištěm, po jeho zastavení seskroluji myší okamžitě na úroveň trávy a nechám doběhnout do oněch padesáti vteřin.

Empire Total War je společně s Oblivionem jednou ze dvou her v metodice, v níž AMD dle zjištění Nvidie dělá optimalizace výkonu (s detekcí exe) na úkor kvality obrazu. Podle Nvidie AMD chybu uznává, když jsem ale kontaktoval místní zastoupení AMD, popřelo něco takového a doporučilo testovat s Catalyst AI Standard. Toto tedy ještě budu muset ve volné chvíli sám ověřit/vyvrátit a případně dle toho přetestovat hry s Catalyst AI Disabled (což by ale znamenalo zřejmě i vypnutý CrossFireX).

Enemy Territory: Quake Wars (OpenGL)

Enemy Territory: Quake Wars

Nové Enemy Territory představuje jedinou současnou moderní OpenGL hru pod Windows a zároveň jediný OpenGL test v testovací sadě. Quake Wars používají značně upravený Doom 3 engine, obohacený především o technologii MegaTexture (více o technologii v článku na Beyond3D). Pro testy používám maximální detaily, přes konzoli vypínám limit 30 (com_unlockFPS 1) i 60 fps (com_unlock_maxFPS 0, je vhodné nastavit do autoexec.cfg), AA i AF zapínám ve hře. První spuštění timedema používám opět jako cacheovací, odečítám výsledek až z druhého.

Pro účely testování jsem si nahrál vlastní timedemo (recordtimenetdemo), které měří výkon v rozsáhlé lokaci se stromy (Valley). Timedemo (pro verzi 2.0) ke stažení: zde.

Far Cry 2 (DX10.1)

Far Cry 2

Pro testy jsem používal zabudovaný benchmark, test Ranch Medium. Výsledky v grafech jsou z plynulejšího ze dvou opakování. Používám režim DirectX 10 a maximální detaily. Anti-aliasing zapínám přes nabídku hry.

Více v článku Far Cry 2: výkon grafických karet a vliv nastavení.

Just Cause 2 (DX10)

Just Cause 2 je jedním z příjemných překvapení první čtvrtiny roku 2010 (alespoň po grafické stránce) a autoři mysleli i na integrovaný benchmark. Ty jsou ve hře hned tři, všechny vypadají velmi dobře, konec Desert Sunrise a hlavně nejnáročnější Concrete Jungle pak přímo parádně.

Je trochu škoda, že Bokeh filtr a GPU simulace vody (která pak vypadá opravdu fantasticky) je realizována pouze přes Nvidia CUDA a nikoli třeba DirectCompute. V tomto max. nastavení by se tedy mohly srovnávat jen GeForce.

ATI zřejmě ještě nemá pro tuto hru vyladěné ovladače, první ze tří benchmarků, Dark Tower, na obou Radeonech s Catalysty 10.3a i 10.3 WHQL končil černou obrazovkou a zatuhnutím PC. U GeForce GTX 480 se zase v náročnějším Concrete Jungle v rozlišení 2560 × 1600 px prudce propadl výkon (oproti rozlišení 1920 × 1200 px).

Metro 2033 (DX11)

Společně s Armou 2 největší zabiják grafických karet, který na trůnu vystřídal Crysis a Stalkery: CS a CoP. V Game Options je položka Advanced PhysX vypnuta, na kartě Video je vybrána kvalita Very High, DX10 pro všechny karty a znovu navíc potom DX11 pro nejnovější GPU s jeho podporou, dále 4× MSAA a 16× AF. Používám uloženou hru takřka ze začátku hry (Chase), vozíkem jedete tunelem a než se vám ve snové vizi objeví příšera, logování FRAPSem ukončím (180 s). Benchmarkovací sekvence asi není nejtěžší možná, i tak ale současným kartám stačí a asi pár let ještě bude, výhodou je dobrá opakovatelnost.

 

Uloženou pozici před jízdou tunelem si můžete opět stáhnout, pro otestování používám následující čtyři nastavení (dost možná dojde ke změně, jelikož kombinace MSAA, vysokého rozlišení a profilu very high u mnoha karet znemožňuje prakticky už pohyb v menu a přitom slevení z maximálních detailů hru vizuálně zřejmě až tolik nepokazí).

2560 × 1600 px ve spojení s 4× MSAA karty doslova ničí, zejména GeForce GTX 295 s 896 MB paměti končí na 0,x fps a to se ještě nejedná o náročnější DX11. 2560 × 1600 px s 4× MSAA nedělá dobře ani Multi-GPU kartě Radeon HD 5970 a přestože má každý čip k dispozici 1 GB paměti, zřejmě kvůli nedoladěnosti ovladačů se nehýbe prakticky už nabídka hry (v onom 4mpx rozlišení).

S.T.A.L.K.E.R.: Call of Pripyat (DX11)

S.T.A.L.K.E.R.: Call of Pripyat

Pro testování této moderními technologiemi nabité hry používám samostatný benchmark. V něm pak celkové nastavení Ultra, Enhan. full dynamic lighting (DX10 nebo DX11 podle toho, co GPU podporuje). Je-li DirectX10.1 podporován, je zatržen i v Advanced Options. DirectX 10 karty testuji pouze s 4× MSAA, DirectX 11 akcelerátory potom ještě navíc s MSAA for A-teste objects (anti-aliasing transparentních textur), SSAO Mode nastaveným na HDAO, kvalitou na Ultra (verze Compute Shader), zaplou teselací i CHS (Contact hardening shadows).

Vliv jednotlivých nastavení na výkon mám změřen u mainstreamového Radeonu HD 5770:

The Elder Scrolls IV: Oblivion (DX9)

The Elder Scrolls IV: Oblivion

Čtvrtý díl série Elder Scrolls patří i přes svůj věk stále mezi nejnáročnější hry vůbec. Zvlášť, když stejně jako já v testu, vyberete lokace s množstvím vlnící se trávy, pohupujících se stromů a přesto rozhledem do vzdálené krajiny (The West Weald). Testuji s maximálními detaily a HDR. Soubor s nastavením (vše na maximum) a uložená testovací pozice ke stažení: zde.

Anti-aliasing i anizotropní filtrování vynuťte v ovladačích, v souboru Oblivion.ini se přesvědčte, že máte vypnutou vertikální synchronizaci (iPresentInterval=0). Po spuštění hry si nahrajte mou uloženou pozici číslo 260 a po načtení ihned začnětě logování FRAPSem a pohyb vpřed. Držte stále klávesu pro pohyb vpřed, dokud se neobjeví nápis upozorňující na to, že dále už nemůžete. Když nastavíte automatické vypnutí FRAPSu po 35 vteřinách, nic taky nezkazíte.

Tom Clancy’s H.A.W.X. (DX10.1)

Tom Clancy’s H.A.W.X.

V arkádovém simulátoru bojových letadel lze využít nejen DirectX 10 pro efekty jako SSAO či volumetrické paprsky, ale také DirectX 10.1. Tuto revizi lze použít jak pro zrychlení hry na kartách, které ji podporují (což činím), nebo pro zlepšení obrazu nastavením SSAO na very high (což kvůli porovnatelnosti výsledků s kartami bez podpory DirectX 10.1 nečiním).

V nabídce s grafikými nastaveními je i tlačítko spouštějící zabudovaný benchmark, což v praxi znamená oblet města. Průběh loguji samozřejmě i FRAPSem, výstupem benchmarku jsou totiž jen dvě celočíselné hodnoty (průměrné a trošku nepochopitelně rovněž maximální fps).

World in Conflict (DX10)

World in Conflict

Testuji s upraveným profilem very high details (zapnul jsem i water reflects clouds (voda odráží oblaka), anizotropní filtrování navýšil na 16×). Používám vestavěný benchmark.

Unigine Heaven 2.0 a Stone Giant (DX11)

Unigine Heaven 2.0

 

Stone Giant

 

Na webu benchmarku jsou dva kvalitnější screenshoty v PNG:

3DMark Vantage (DX10)

3DMark Vantage

Vantage

Zájemci o v 3DMarku Vantage použité technologie jejich popis najdou v tomto whitepaperu (PDF). V grafech najdete pouze výsledky z GPU testu.

GeForce GTX 480, Extreme:

GeForce GTX 285, Extreme:

Radeon HD 5870, Extreme:

Radeon HD 5970, Extreme:

GeForce GTX 295, Extreme:

Zájemci o v 3DMarku Vantage použité technologie jejich popis najdou v tomto whitepaperu (PDF). V grafech najdete pouze výsledky z GPU testu.

Nastavení shrnuje tato tabulka přímo od Futuremarku:

Hlučnost

Hlučnost

Hlukoměr

Měření hlukoměrem jsou prováděna ze vzdálenosti 20 cm od větráčku karty a současně tak, aby na hlukoměr nesměřoval proud vzduchu z nějakého ventilátoru. Bočnice počítačové skříně je při testech hlučnosti odejmuta. Hlučnost okolí (ambient), resp. spíše sestavy používané pro testy hlučnost (jediným zdrojem hluku je disk WD7500AAKS v antivibračním kitu a zdroj Enermax Modu82+, oba od hlukoměru vzdáleny dále než karta), činí asi 36,5–37,5 dB(A).

Za upozornění stojí měření v sonech a s kartou „na stole“ na PC Games Hardware (odkaz vede přímo na kapitolu s hlučností). Zde i ve hře Race Driver Grid vychází GTX 480 výrazně hlučnější než GTX 285 nebo HD 5870 a podobně hlučný je jen zatížený Radeon HD 4890.

Naměřené decibely nejsou úplně vše, takže se pusťme ještě do subjektivního hodnocení:

  • Nvidia GeForce GTX 480 – v idle (lépe řečeno v desktopu Windows) běží karta s asi 1600 otáčkami za minutu a zřejmě kvalitní ventilátor není nijak zvlášť hlučný. Potěší neroztočení na vysoké otáčky po startu PC, nepotěší zatím nemožností softwarové regulace směrem dolů. Pár set otáček dolů by karty při sledování filmu asi ještě snesla. Při hraní se postupně zvyšují otáčky a delší vysoká zátěž znamená naprosté rozzuření větráku. Ač to možná dBA úplně neodrážejí, proud vzduchu tlačený skrze pasiv karty a zadní mřížku dělá pořádnou aerodynamickou paseku. Jestli hrajete se sluchátky a nikdo další s vámi v jedné místnosti nebývá, budete v klidu, pro kohokoli jiného připadá v úvahu asi jen hledání, jak kartu zchladit tišeji. Možná by stačilo pořádně ofukovat do plastové kapoty karty vyhřezlý kovový pasiv, ale spíše stojí za to pořídit vodní chlazení.
  • ATI Radeon HD 5970 – jako u mnoha karet s referenčním chladičem, jež jsem testoval, i tento HD 5970 měl špatná (silně vrčící) ložiska větráku. Mám pocit, že na čtyři až pět karet s ref. chladičem (od HD 4870 a možná už HD 2900 XT se červená turbínka pořád opakuje) připadá vždy jedna s hlučným motůrkem. Každopádně počítejte s tím, že v případě dobrého kusu by byl hluk HD 5970 nižší než mnou naměřený.
  • Sapphire Radeon HD 5870 – v desktopu je na tom lépe než GTX 285, ale zase už si tolik nepomůžete softwarovou regulací. Nižší spotřeba v 3D znamená také nižší otáčky než vrcholná GT200 a zpravidla také nižší hluk. Referenční chladič se drží na 21 % otáček v idle (což znamená asi 1200 rpm) a dá se s klidem nazvat tichým (po manuální regulace je ref. chladič GTX 260/275/280/285 o něco tišším, bez ní však nikoli). V zátěži je regulace plynulá a karta začne postupně mírně a hluboce funět, 33 % otáček potřebných pro uchlazení ve FurMarku ale stále není žádným velkým hlukem
  • Sapphire Radeon HD 5850 – přestože hlukoměr zaznamenal mírně nižší hlučnost než u Radeonu HD 5870, mé dojmy byly spíše opačné: motorek větráčku mírně vrčel a vrčení jsem vnímal silněji se zvyšujícími se otáčkami (dobře tak bylo možno pozorovat, jak každé dva stupně nárůstu teploty na GPU odmění regulace vyšším rychlostním stupněm) než už byl hluk vzduchu tlačeného přes mřížku silnější než vrkot. V dobře odhlučněné skříni však tento zvuk pravděpodobně zanikne, navíc se nejspíš jednalo o nedokonalost kusu. Větrák je totiž jinak stejný jako u ref. HD 5870.
  • MSI GeForce GTX 295 – v idle jsou otáčky nastaveny na 40 % a zatímco je jádrům skoro zima, vy větrák trochu uslyšíte. Po regulaci (RivaTuner, Precision, …) se dostanete na hodnoty, jež by se daly nazvat tichým chodem. Regulace v zátěži je plynulá a zvuk stále kultivovaný, dlouhé trápení ve FurMarku samozřejmě zaviní silné foukání. Při normálním hraní se však karta (a také teploty) drží při zemi.
  • Nvidia GeForce GTX 285 – referenční chladič běží v desktopu na 40 % a není úplně tichý. Regulace na 25 % otáček mu hodně pomůže a teploty jsou stále v pořádku. V delší zátěži je aerodynamický hluk velkého proudu vzduchu dost citelné
  • Asus Radeon HD 5770 CuCore – asi se divíte, proč je po regulaci otáček ještě hlučnější. Důvodem byla zřejmě špatná ložiska či jinak vadný motorek, který při pomalých otáček vydával ještě děsivější periodický zvuk. Určitě to není karta do tichých počítačů.
  • MSI Radeon HD 5770 Hawk – jedna z nejtišších karet vůbec, chladič trošku připomíná taktéž velmi tichý Coolink GFXchilla (anebo starší Titan TwinTurbo, který ale tichý nebyl). Ani v zátěži nebude většina z vás o kartě vůbec vědět.
  • Sapphire Radeon HD 5770 Vapor-X – až v delší zátěži se větrák projevuje hlubším tónem většího průtoku vzuduchu, kluzné ložisko je zcela tiché (a snad mu to chvíli vydrží).
  • MSI GeForce GT 240 – karta bohužel nepodporuje nastavení pod 35 % otáček a i když termoregulace pracuje, je průběh otáček v normálních podmínkách plochý: jednoduše teprve při zahřátí, které kartě nehrozí, se otáčky zvyšují. Problém je, že oněch 35 % otáček je docela hlučných a v tichých PC budete hledat možnosti ztišení.
  • Sapphire Radeon HD 5770 – zvukový projev HD 5770 s referenčním chladičem se velice podobná tomu u Radeonu HD 5850. Vrčení rychle sílí se zátěží a přestože hlukoměr mluví spíše o nižší hlučnost, ve skříni, která nezachytí tóny vrčení, bude karta svým zvukovým projevem přinejlepším průměrná.
  • Sapphire Radeon HD 5750 – nízkoprofilový větrák má příjemný projev a nepotrápí vás nijak zvlášť ani po startu, kdy většina ventilátorů grafik zkouší, co umí. V idle budete díky nízkým teplotám schopni otáčky (třeba pomocí AfterBurneru, posuvník v CCC mi asi vinou absence PWM na kartě nefungoval) ještě snížit a HD 5750 se zařadí mezi nejtišší aktivně chlazené karty (byť zregulovaný HD 4850 Vapor-X anebo XFX GTX 260 Black Edition jsou ještě o něco tišší).
  • PowerColor Radeon HD 4730 – Accelero L2 bohužel nemá úplně tichý ventilátor, ani při vcelku nízkých otáčkách nebudou ozdobou silentPC. V základním nastavení je karta opravdu dost hlučná, pomocí manuální regulace (třeba v RivaTuneru) lze otáčky shodit ze 47 na 21 % a dostat ji alespoň na uspokojivou úroveň hluku. Teploty se pak v testovací skříni držely do 78 stupňů Celsia v idle. Naopak v zátěži už s otáčkami hlučnost tak dramaticky nestoupá a HD 4730 s Accelerem L2 z řady referenčních chladičů na dalších Radeonech HD 4700 a 4800 nijak zvlášť nevybočuje.
  • Asus GeForce GTS 250 Dark Knight – vysoké otáčky při implicitních hodnotách pro idle (30 %) dělají z Dark Knighta velmi hlučnou kartu, alespoň že zrychlování větráku v zátěžu už nepřináší velké nárůsty hlučnosti. Bohužel ani po uživatelsky nepřátelské softwarové regulaci větráku na 21 % to s hlukem není o tolik lepší, navíc začíná být dobře slyšet motůrek (předtím přehlušen prouděním rychle hnaného vzduchu) i jeho jakési ošklivé periodické zvuky.
  • Sapphire Radeon HD 4770 – při základním nastavení (32 %) je větrák pro většinu uživatelů zřejmě dost tichý, u hodně perforovaných skříní uslyšíte trochu vrčení motůrku. Po regulaci na 20 % se sice teplota GPU rychle vyšplhá až někam na 80 stupňům Celsia, odměnou vám je ale opravdové ticho (na hranici měřitelnosti v mých podmínkách, ale i zcela zblízka při poslechu). V zátěži už větrák uslyšíte dobře, nejedná se však o nijak hrozný hluk. Ve Furmarku se ventilátor roztočil na 41 %, v Bioshocku pak na 39 % (viz graf hlučnosti karet v Bioshocku). Nepříjemné je jen občasné roztočení (asi na vteřinu) na vyšší otáčky, děje se tak naštěstí jen v 3D zátěži, nikoli v idle jako to dělaly první Radeony HD 4870 a lekaly vás tak při sledování filmů či surfování. Po startu PC o sobě dá na pár vteřin větrák dost vědět, ale není to taková síla jako třeba u GeForce 8800 GT.
  • Nvidia GeForce 8800 GT – až na děsivý start povětšinou tichá karta, resp. tichá pro všechny, kdo nemají opradu silentPC pro noční práci či sledování filmů. Nevysoké otáčky malého větráku jsou vykoupeny vyššími teplotami, takže nižšího hluku už dosáhnete jen výměnou. Pozdější GeForce 8800 GT nebo 9600 GT měly podobný chladič, ale s větrákem většího průměru. S ním klesly jak teploty, tak hluk (hlavně ten při startu).
  • Gigabyte Radeon HD 4870 – v idle pro většinu hráčů určitě dostatečně tichá karta, ani v zátěži není hluk nesnesititelné. Spíše se jedná o hluboké šumění a bručení ventilátoru, který se typicky pohybuje na 1900–2100 rpm. Manuální regulací nedosáhnete tak nízkých otáček, jaké nastaví automatika, proto je hlučnost naopak o něco vyšší.
  • Gigabyte GeForce GTX 260 OC – v idle do tichého počítače zdánlivě nevhodná, ale díky nízkému zahřívání stačí v RivaTuneru či Precision nastavit 25 namísto 40 % otáček a rázem máte velice tichou kartu. V zátěži se umí větrák roztočit a foukat pořádně, jedná se ale o snesitelný hukot podobný projevu Radeonu HD 4870 v zátěži. Ve hrách se větrák točí většinou kolem 1700 rpm, ve FurMarku jde až na 2100 rpm.
  • Gigabyte Radeon HD 4850 Silent-Pipe IV – pasivní chladič opravdu žádný zvuk nevydává
  • eVGA GeForce GTS 250 SuperClocked – referenční chladič nepříjemně překvapil. Zatímco stejně vypadající Cooler Master na 8800 GTS-512 se dal považovat za slušně tichý, ten na GTS 250 se projevoval hlubším vrčivým zvukem. Možná nebyl úplně v pořádku a jiný vzorek karty by byl lepší. Nefungovala bohužel ani manuální regulace, 35 % otáček v idle se drželo, ať jsem zkoušel hýbat s čímkoli. Teplotní regulace ale funguje a v zátěži už je chladič celkem hlučný.
  • Gigabyte Radeon HD 4850 – referenční chladič vypadající ten na Radeonu HD 3850 (jen s jinými lopatkami větráku) bohužel není tichý ani u druhého zkoušeného kusu. V idle to ještě jde, kvalitnější skříň zřetelné vrčení motůrku snad ještě odhluční. V zátěži už je vrčení dost zřetelné.

Spotřeba a teplotní testy

Spotřeba

ExtraHardware: AMD se skrze AnandTech nechala slyšet, že nástroje jako OCCT či FurMark není pro srovnání spotřeby nebo zahřívání grafických karet správné používat (možná si pamatujete problémy s přehříváním VRM na HD 4870 ve FurMarku) a nazvala tyto aplikace jako „power viruses“. AnandTech dále popisuje, že ovladače HD 4000 před nařčením z cheatování detekovaly EXE FurMarku a zpomalovaly, Radeony HD 5000 už mají hardwarovou ochranu (zpomalení při zatížení/přehřátí VRM) a Nvidia zase detekuje přímo kód FurMarku, což vysvětluje také nižší fps jejích čipů v této aplikaci (oproti jinak srovnatelným Radeonům). Co doporučuje Nvidia? Konkrétní scénu ve hře s náročným shader kódem, smyčky v Crysis, uložené pozice s trávou…?

Nvidia: Nejlepším přístupem je soubor aplikací. Jedna totiž nemusí dát objektivní rozuzlení. Zkuste třeba tyto: Far Cry 2, Metro 2033 a Unigine Heaven 2.0. Brzy se k tomuto tématu ještě vyjádříme.

Na spotřebu GeForce GTX 480 si „postěžoval“ i monitoringem vybavený zdroj Gigabyte Odin GT (v dolní části je sekce Powers):

Teplota

Vlevo MSI Kombustor na GeForce GTX 480, vpravo potom na Radeonu HD 5970 (ten má HW ochranu proti přehrátí a při dosažení teplot kolem 90 stupňů můžete zaznamenat kupodivu velmi mírný pokles výkonu – Multi-GPU verze Kombustoru zatíží kartu nikoli na 100 %, ale zhruba na 95 a při zatržení post processsing dochází k pádu už při startu aplikace).

 

Vliv anti-aliasingu na výkon

Tuto kapolu jsem možná mohl nazvat jen vliv multi-samplingu na výkon, jelikož jsem karty otestoval zatím jen na vliv vzájemně srovnatelných režimů 2× až 4× MSAA.

Crysis Warhead GeForce GTX 480 GeForce GTX 285 Radeon HD 5870 Radeon HD 5970 GeForce GTX 295
1920 × 1200 59,9 41,3 53,7 73,6 60,8
2× MSAA 51,7 35,0 47,3 62,5 50,5
4× MSAA 49,7 32,7 44,9 60,2 46,8
8× MSAA 48,8 31,8 37,3 45,0 45,6

 

Crysis Warhead GeForce GTX 480 GeForce GTX 285 Radeon HD 5870 Radeon HD 5970 GeForce GTX 295
2560 × 1600 37,2 24,7 35,0 40,2 38,4
2× MSAA 32,1 21,7 29,9 32,4 29,9
4× MSAA 30,9 19,7 24,6 8,4 24,5
8× MSAA 30,4 15,7 5,5 0,0 0,0

 

Far Cry 2 GeForce GTX 480 GeForce GTX 285 Radeon HD 5870 Radeon HD 5970 GeForce GTX 295
1920 × 1200 112,7 63,3 88,2 134,1 60,8
2× MSAA 102,2 58,6 77,8 118,1 50,5
4× MSAA 95,1 53,7 68,5 104 46,8
8× MSAA 79,2 44,9 53,0 78,1 45,6

 

Far Cry 2 GeForce GTX 480 GeForce GTX 285 Radeon HD 5870 Radeon HD 5970 GeForce GTX 295
2560 × 1600 77,4 48,9 66,7 134,1 102,2
2× MSAA 69,8 44,3 56,9 118,1 86,5
4× MSAA 64,7 40,0 48,6 104 73,3
8× MSAA 52,4 30,4 35,5 78,1 51,3

 

 

GeForce GTX 480

Crysis Warhead (DX10) Far Cry 2 (DX10.1)
GeForce GTX 480 1920 × 1200 59,9 112,7
701/1401/3686 MHz 1920 × 1200, 2× AA 51,7 102,2
384-bit, 1536 MB 1920 × 1200, 4× AA 49,7 95,1
1920 × 1200, 8× AA 48,8 79,2
2560 × 1600 37,2 77,4
2560 × 1600, 2× AA 32,1 69,8
2560 × 1600, 4× AA 30,9 64,7
2560 × 1600, 8× AA 30,4 52,4

 

GeForce GTX 285

Crysis Warhead (DX10) Far Cry 2 (DX10.1)
GeForce GTX 285 1920 × 1200 41,3 63,3
648/1476/2484 MHz 1920 × 1200, 2× AA 35,0 58,6
512-bit, 1024 MB 1920 × 1200, 4× AA 32,7 53,7
1920 × 1200, 8× AA 31,8 44,9
2560 × 1600 24,7 48,9
2560 × 1600, 2× AA 21,7 44,3
2560 × 1600, 4× AA 19,7 40,0
2560 × 1600, 8× AA 15,7 30,4

Radeon HD 5870

Crysis Warhead (DX10) Far Cry 2 (DX10.1)
Radeon HD 5870 1920 × 1200 53,7 88,2
850/4800 MHz 1920 × 1200, 2× AA 47,3 77,8
256-bit, 1024 MB 1920 × 1200, 4× AA 44,9 68,5
1920 × 1200, 8× AA 37,3 53,0
2560 × 1600 35,0 66,7
2560 × 1600, 2× AA 29,9 56,9
2560 × 1600, 4× AA 24,6 48,6
2560 × 1600, 8× AA 5,5 35,5

Radeon HD 5970

Crysis Warhead (DX10) Far Cry 2 (DX10.1)
Radeon HD 5970 1920 × 1200 73,6 134,1
700/4000 MHz 1920 × 1200, 2× AA 62,5 118,1
256-bit, 2× 1024 MB 1920 × 1200, 4× AA 60,2 104
1920 × 1200, 8× AA 45,0 78,1
2560 × 1600 40,2 102,2
2560 × 1600, 2× AA 32,4 86,5
2560 × 1600, 4× AA 8,4 73,3
2560 × 1600, 8× AA 0,0 51,3

GeForce GTX 295

Crysis Warhead (DX10) Far Cry 2 (DX10.1)
GeForce GTX 295 1920 × 1200 60,8 93,6
576/1242/1998 MHz 1920 × 1200, 2× AA 50,5 86,8
448-bit, 2× 896 MB 1920 × 1200, 4× AA 46,8 79,2
1920 × 1200, 8× AA 45,6 65,3
2560 × 1600 38,4 75,0
2560 × 1600, 2× AA 29,9 66,8
2560 × 1600, 4× AA 24,5 59,1
2560 × 1600, 8× AA 39,1

Shrnující grafy, verdikt

Shrnutí výkonu

Na průměrném výkonu se podílelo celkem sedmnáct her, každá stejnou vahou. Díky přepočtu na procenta nejsou zvýhodňovány hry s vysokým průměrným počtem snímků za sekundu, u her s vícero dílčími měřeními (Aliens vs. Predator, Stalker: Call of Pripyat či třeba Colin McRae: DiRT 2) jsem bral do celkového výsledku v potaz právě jen průměr z dílčích subtestů. Základem je Radeon HD 5870, relativní výkon dalších karet je odvozen od jeho výsledku.

Ceny v ČR byly zjištěny (v pátek) od nejlevnějších modelů skladem v trojici obchodů ALFA Computer, Alza.cz a Czech Computer a jsou včetně DPH. Cena GeForce GTX 480 je doporučená (a v Alze také zatím takto bez skladové dostupnosti, což by se mělo změnit až 12. 4., nastavená):

Vzal jsem i doporučenou cenu GTX 480 v eurech (vč. daně/VAT) a srovnal s cenami skladových karet na Alternate.de:

Je zajímavé, že přepočet odhaluje vyšší ceny GeForce u nás (oproti Německu) a naopak výhodný „kurz“ u Radeonů, ale to jen tak pro zajímavost.

Verdikt

Na GeForce GTX 480 se dá najít dost pozitiv i negativ. Určitě to není „nejlepší GPU Nvidie všech dob“, alespoň pokud nechce Nvidia srovnávat absolutně, ale jaksi v kontextu té které doby. Dokonce si dovolím tvrdit, že GeForce GTX 280 byla celkově lepším kartou: jednočipovou konkurenci, jež byla uvedena navíc až po ní, porážela v tehdejších hrách spíše větším rozdílem a provozní vlasnosti byly navzdory mamutímu čipu o něco rozumnější.

Právě spotřeba, zahřívání a hlučnost v zátěži jsou ne jednou, ale hned několika Achillovými patami GeForce GTX 480. GTX 480 je tak zralá na vodní chlazení nebo alespoň přímé chlazení karty 12cm ventilátorem v celkově dobře větrané skříni (a nejlépe současně odhlučněné – složitá kombinace, že?). Pochválit můžeme jen dobrou správu napájení a chytrou regulaci větráku, takže v idle a při startu je hlučnost i spotřeba bez problémů. Pokud se objeví možnost regulovat otáčky i směrem dolů, bude karta alespoň v idle s ref. chladičem použitelná i do tišších sestav podobně jako předchozí GeForce GTX 2xx.

Výkonnostně si GTX 480 vede dle očekávání: zapadá mezi Radeon HD 5870 a dvoučipový Radeon HD 5970 a stává se nejrychlejší jednočipovou kartou. V nejdrastičtějších nastaveních potom nezřídka Radeon HD 5970 i předčí, tomu by zřejmě slušely 2 GB na jádro (a pak i vyšší cena). Zlepšený výkon s anti-aliasingem byl anoncován, na druhou stranu občas karta překvapila i většími ztrátami výkonu ve vysokém rozlišení než Cypress XT (HD 5870). Jestli za to může návrh sázející na nepotřebu vysokého výkonu texturovacích jednotek, či něco jiného, to by bylo jasnější z nástrojů jako PerfHud.

Paralely s GeForce FX se určitě najdou, jistě je to odkládání a pak také vyšší hlučnost i spotřeba než konkurence, na druhou stranu jsou tu také opačná hlediska: výkon je lepší než u nejlepší (non-Multi-GPU) karty AMD a hlavně na rozdíl od GeForce FX, jejíž VLIW architektury navržená pro 16 či 32 bit se ve standardizovaných 24 bitech (FP) pixel shader 2.0 kódu potácela k zemi, u GF100 naopak Nvidia vzpomněla na to, jaké čipy ji dostaly nahoru.

Ano byla to Riva 128, podporující (tehdy snad všechny) nejnovější zavedené standardy a byla to třeba GeForce 8800 GTX, první GPU s DirectX 10. GeForce GTX 480 si libuje v DirectX 11, přesněji řečeno hlavně v teselaci a zapnutí této nejvýznamnější funkce DX11 ji dostává často i před HD 5970. Bude tedy opravdu hodně záležet na tom, zda se teselace do her dostane rychle a hlavně v míře podobně viditelné, jako třeba v demech Unigine Heaven či alespoň Stone Giant.

Dokud budou rozdíly v grafice velmi malé, nebude možná moc důvodů proč neupřednostnit v teselaci třebas pomalejší, ale levnější konkurenci s lepšími provozními vlastnostmi. I když o nějaké přidané hodnotě může být u GTX 480 ještě řeč, to si nechám ale na druhou, doplňující část. Hráči by už měli jasno po přečtení této.

GeForce GTX 480, 1536 MB GDDR5

+ nejvýkonnější GPU současnosti, hlavně s teselací
+ rozumný zvukový projev při startu a v desktopu
+ rychlý anti-aliasing (včetně 8× MSAA), nové režimy
+
délka pod 27 cm
+ 1536 MB grafické paměti
+ výkon pro CUDA a PhysX, realtime raytracing na dosah
– velmi hlučná v zátěži
– vysoká spotřeba v zátěži, nároky na zdroj
– nárůst ceny a spotřeby proti HD 5870 neodpovídá nárůstu výkonu
– po dlouhých odkladech nepřichází jasně vládnout ve hrách
– GeForce má výkon v DP omezen na 1/4 (Tesly)
– často citelný propad výkonu ve 2560 × 1600 px
– paper launch (tento mínus můžeme smazat dle reálné dostupnosti před polovinou dubna)