Reklama

Nová metodika testování procesorů na EHW (diskuze)

Opět je na čase rozloučit se s rozsáhlou databází naměřených procesorů a přejít na modernizovanou metodiku. A stejně jako minule budete mít možnost přispět poradním hlasem.

Nebudu vám slibovat, že každý váš nápad automaticky do nové metodiky zapracuji. Jelikož nechci zcela změnit filozofii pravidelného testování procesorů na ExtraHardware, výběr testů bude kompromisem mezi výpovídací hodnotou, opakovatelností testování, časovou náročností a možnostmi, jaké v rámci redakce a testlabu mám.

Při pohledu na stávající skladbu testů v typické recenzi procesorů (např. Intel Core i5-3570K proti dalším 35 procesorům) je vidět snaha o změření výkonu v několika základních oblastech. Pokusím se je projít jednu po druhé a navrhnout testy, jež bych rád zařadil:

Video

  • x264 HD Benchmark (místo verze 3.x ale aktuální 5.x)
  • x264 FHD Benchmark
  • Windows Media Encoder 9 – používá jej ještě někdo?
  • VirtualDubMod + DivX – přemýšlím o nahrazení za něco jiného (XMedia Recode nebo co domácí uživatelé dnes k různým převodům pro přehrávače používají)
  • VirtualDubMod + XviD – podobný otazník jako výše

Hudba

  • Lame MP3 Encoder – používá se ještě v dnešní době?
  • Nero AAC Encoder – není asi problém používat nadále
  • FLAC (via Foobar) – potřeboval bych asi nějaké náročnější nastavení a nejlépe také frontend bezproblémově měřící čas úlohy
  • iTunes – nerad bych instaloval do testovacího systému, bojím se také přesnosti/opakovatelnosti

Bitmapová grafika, fotografie

  • Paint.NET bych zachoval, pro novější verzi už ale bohužel nemám možnost benchmarku
  • Zoner Photo Studio 13 x64 bych rovněž zachoval, ačkoli je tu už verze 14, vzhledem k tomu, že na podzim bude asi zase 15, přeskočil bych případně pak až na tuto (pro 14 bych musel shánět licenci)
  • RawTherapee 3.0 nahradím verzí 4.0.x s novým engine, případně navrhněte používanější alternativu (Lightroom kvůli testům CPU ale kupovat nebudu)
  • Autopano Giga 64-bit lze testovat i v demo verzi, povýšil bych z 2.0.6 na aktuální 2.6
  • Autostitch bych mohl nahradit něčím nadále vyvíjeným, třeba Huginem (případně navrhněte)

Rendering

  • Frybench bych zachoval
  • Cinebench 11.5 také
  • Cinebench R10 bych už vynechal
  • POV-Ray 3.7 není problém asi ponechat
  • Blender upgraduji na verzi 2.63
  • hodil by se nějaký benchmark mental ray či V-Ray, produkty Autodesk vinou licenční politiky (aktivace při jakékoli změně HW atd.) pro tento účel nepřipadají bohužel v úvahu
  • SPECviewperf je zřejmě spíše testem grafické karty, resp. ovladačů (kdyžtak mě opravte, pak není problém zařadit)

PCMark

  • Velký otazník visí nad PCMarkem. Líbí se mi, že obsahuje jakžtakž opakovatelné testování současně spouštěných aplikací, u Vantage však hlavně při rychlejších procesorech dělalo velké rozdíly to, „jak se pevný disk zrovna vyspí“. PCMark 7 jsem zkoušel jen v době vydání a nevypadalo to zrovna na spolehlivý a bezproblémový benchmark (resp. sadu benchmarků).

Komprese souborů a šifrování

  • WinRAR povýším na aktuální 4.11
  • 7-zip potom na 9.20
  • WinZIP + AES není špatný test, nicméně při rychlosti CPU s HW AES bude třeba vytvořit větší archiv
  • SiSoft Sandra AES apod. bych opět mohl zařadit, jen v aktuální verzi
  • Everest Zlib a další testy nahradí AIDA64 a modernější verze testů (plus třeba Hash atd.)
  • TrueCrypt aktualizuji na 7.1a

Prvočísla, šachové úlohy, teoretické testy apod.

  • Fritz Chess benchmark je sice omezen osmi vlánky, přesto bych jej zachoval
  • CPU Queen, fraktály apod. bych mohl opět zachovat, jen použít nové verze z poslední AIDA64
  • podobně u klasických testů jako Dhrystone, Whetstone apod. v SiSoft Sandra (povýšit na aktuální verzi)
  • paměťovou propustnost by asi stačilo zkoušet v poslední verzi AIDA64
  • Super PI a wPrime mě nezabije, nejspíše změřím i Prime95 (pro kontext s testem příkonu (spotřeby)), vyhodil bych asi MaxxPI

Webové prohlížeče, HTML, Java, Flash

  • Zde asi váhám ze všeho nejvíc, ať jsem se snažil jak jen to šlo, nepovedlo se mi zachovat konzistenci dat s těmi dříve provedenými. V podstatě jsem nakonec nechal jen pár testů v GUImark a subtesty týkající se webu z PCMarku. Víte-li o nějakém testu, který by nejlépe fungoval i offline (z disku), bylo by to ideální.

Herní výkon

  • 3DMark06 a Vantage CPU test by nahradila stejná část 3DMark 11
  • Call of Duty 4 je pořád asi nejhranější díl a není problém ho testovat
  • Crysis bych asi vyhodil
  • ET:QW vyhodím, i při opakovaném měření vrací dost podivné výsledky
  • Far Cry 2 vyhodím, je v dnešní době limitován grafikou
  • Left 4 Dead vyhodím, je dost pracné pořád zabraňovat Steamu v aktualizacích a případně obnovovat stejnou verzi ze zálohy
  • Trackmania Nations Forever již také příliš neslouží
  • Unreal Tournament 3 už v snad kromě rozlišení 800 × 600 px a nízkých detailech moc rozdílů také nenaměří
  • World in Conflict ponechám, je to dobrý test CPU
  • X3: Terran Conflict je zástupcem jednovláknové a na CPU hodně závislé hry. Rozhoduji se, zda ponechat či vyměnit.
  • X-Plane má demo benchmark, nemám s ním ale delší zkušenosti. Přemýšlím o zařazení
  • World of Tanks je dalším případem jednovláknové a v případě silnější grafiky a většiny map na CPU dost závislé hry. Přestože se chystají někdy za čtvrt až půl roku změny v renderingu hry, nebál bych se, že by engine najednou byl vícevláknový.
  • Dalším nápadům u her jsem otevřen, vyvarujte se prosím obvyklého a cokoli dalšího zazdívajícího flame na téma nízké/vysoké rozlišení v testech CPU.

Stávající měření příkonu procesoru (celá sestava na zásuvkovém wattmetru + izolované měření na EPS12V) asi není třeba příliš měnit, raději bych z vás vytáhnul nějaké nápady na možnosti otestování výkonu CPU při virtualizaci.

Reklama

 

Před přechodem na novou metodiku dojde zřejmě k výměně zdroje v testovací sestavě, Corsair TX650w nahradí novější a pro zkoušení přetaktování náročnějších procesorů zřejmě ještě o něco vhodnější Enermax Modu87+ 850W. GeForce GTX 280, jež přežila už dvě metodiky, se pokusím nahradit za GeForce GTX 680. Karta od Gigabyte by již měla být na cestě.

S Kingstonem jsem se domluvil na dodání dostatečně rychlých paměťových modulů, abych mohl testovat i schopnost procesorů při přetaktování pracovat s vysokými frekvencemi RAM. S tím je také spjata ta změna, že zatímco v současnosti jsem víceméně sjednoceně procesory měřil s DDR3 nastavenými na 1333 MHz efektivně při časování 8-8-8-24-1T. Vyšla sice RC verze Windows 8, jelikož ale tuším, že se bude jednat (alespoň na desktopu) o ještě méně populární systém než Windows Vista, zůstal bych u 7 Ultimate x64. Core parking bych neřešil, myslím, že pro většinu uživatelů bude asi užitečnější informace o výkonu procesoru bez nějakých nastavení (jež udělá naprostá minorita).

O nové metodice můžete diskutovat jak pod tímto článkem, tak už v minule započatém tématu v diskuzním fóru.

Další články na téma: 
Oblíbené Tisk E-mail
Reklama

Komentáře

Moc se přimlouvám za V-RAY!

Jenže k tomu bych potřeboval plugin V-Ray a něco jako 3ds Max, Maya, Cinema 4D apod. Vzhledem k tomu, že posledně do ztroskotalo už na nulové odpovědi při psaní na kontakty kolem V-Ray, tak to asi nedopadne. Pro představu o výkonu CPU v renderingu bude muset zřejmě stačit množina testů bez V-Ray či mental ray. Jestli tedy nepřehlížím někde nějaký benchmark či použitelné demo.

Aj test spotrebi, kolko sa da procesor pretaktovat na povodnom napati, alebo na povodnej frekvencii pri akom napati je este stabilni. A ktomu peknu tabulku pri akom napati kolko ma CPU spotrebu :)

S tou virtualizací ste to trefil. Přimluvil bych se za VMware workstation, ale pochopím i zvolení free VirtualBoxu. Opravdu zajímavé by byly testy běhu několika VM paralelně, to prověří schopnosti multitaskingu dokonale + nějaké informativní a rychlé testy CPU uvnitř VM (třeba Cinebench).

"Lame MP3 Encoder – používá se ještě v dnešní době?"
Ty znáš nějaký lepší mp3 encoder, který je zadarmo?

Btw jestli chceš jednovláknovou hru, tak Cities in Motion. Tam na rozdíl od WoT na nějaký další vývoj kašlou a raději vydávají předražené DLC. V závislosti na velikosti města a vybudované sítě se při nejvyšší akceleraci času lze dostat klidně na jednotky fps. Problém je, že výkon budou taky ovlvňovat náhodné události, nejde tam udělat přesné timedemo.

Já u MP3 zůstal. Pár přehrávačů, co je vyžadují v rodině je, i když se to většinou pouští na PC.

Jinak k těm iTunes. Existuje frontend pro příkazovou řádku, který dokáže použít AAC enkodér z iTunes bez instalace.

https://sites.google.com/site/qaacpage/

Návod, jak obejít instalaci quicktime a vyextrahovat jenom potřebné knihovny, jsem tuším našel zde: http://www.hydrogenaudio.org/forums/index.php?s=&showtopic=78072&view=fi...

 Zajímavý by mohl být nějaký HPC test, např. Euler 3D. Je sice pravda že z pohledu normálního uživatele to může být trochu nesmyslný test, ale na druhé straně má poměrně dobrou vypovádací hodnotu o výkonech procesorů v FPU výpočtech.

Pokud mám brát testování CPU jako nápověda či vodítko výběru pro čtenáře,pak bych z balíku vyřadil nicneříkající teoretické testy.
Herní výkon ala CB.Bude-li někoho zajímat výsledek v 640x480 budiž máš to tu.Pro ostatní tu je HD.

Teoretické testy nikdy nebudou počítány do takového toho zjednudošujícího průměrování, vzhledem k jejich typické nenáročnosti otestování, dobré opakovatelnosti a někdy i jakési "low-level" charakteristice však někde v jedné z mnoha kapitol asi nevadí ani zarytému pragmatikovi, ne?

Ke ComputerBase.de, můžeme se bavit na konkrétním příkladu. Našel jsem tam recenzi Ivy Bridge a od strany 44 jsou pak herní testy (jinak než souhrnným průměrem): http://www.computerbase.de/artikel/prozessoren/2012/test-intel-ivy-bridg... Mají tam hry v 640 × 480 či 800 × 600 px, kde to i tak často je limitováno grafikou (řekněmě od Core i5 nahoru) a pak ty samé testy paralelně v 1920 × 1080 px. A tam je to teda v nejzajímavějších titulech jako BF3 srovnané do latě úplně. Určitě se ale neinspiruji ve hrách měřených FRAPSem. Na rozdíl od CB.de nemáme na to mít na každou komoditu cvičenou opičku, která celé dny může věnovat čistě a jen testování CPU (jiná zase GPU atd.). Tam, kde mi test bude vracet nějaké rozumně vypadající hodnoty min. fps, to můžu uvést (u World in Conflict tomu tak např. je).

Řekl bych,že BF3 tam mají proto,že se jedná o hru oblíbenou.Její problém(stejně jako BFBC2) je v tom,že  je testována v SP(malý vliv cpu), ačkoli její hráče by mnohem více zajímal MP(velký vliv cpu).

Jenže v MP nelze simulovat vždy stejné podmínky, při každém testování. Stačí jeden dva výbuchy navíc a celý test je ovlivněn.
Stejně tak nějak nechápu jak chcete testovat World of Tanks. Jakým způsobem dosáhnete stejných podmínek při testu?

To je jednoduché, replay.
http://extrahardware.cnews.cz/world-of-tanks-hardware-guide-tweakguide-wot (jen bych vybral naopak nějaký s vyšším limitem ze strany CPU)

Ja tú hru nepoznám, takže možno som mimo, ale nemyslíš že je replay ochudobnený o nejaké tie podstatné výpočty CPU, ktorých výsledok je už len prehratý? Skúsil si niekedy porovnať priebehy fps aj počas nahrávania a počas replay? Replaye môžu byť dobré na testovanie grafík, ale u CPU mám osobne veľké pochybnosti.

Já tu hru poznám dost ;-) a replay je na benchmarky procesoru naprosto vyhovující.

No keď to podáš takto, tak potom jasná vec. :D

Myslim, ze ten test v BF3 znamena, ze staci akekolvek stvorjadro a netreba minat peniaze na nejaky novy drahy procesor. Testy v hrach v nizkom rozliseni maju asi taku vypovedaciu hodnotu ako akykolvek synteticky test. Prakticky je to zbytocne testovat v malom rozliseni.

Do herných testov by si mohol zaradiť napr. pomerne populárny Skyrim v lokáciách Whiterun a Riverwood (nízke rozlíšenie, bez AA, ale detaily na ultra). Ale to je zas nie veľmi mnohovláknový test.

Zkuste zauvažovat o zařazení nějakého kompilování. Třeba ve VisualStudiu si vzít větší projekt a testovat dobu, za kterou se zkompiluje. Nebo třeba v Xilinx ISE nějaký ipcore (výhoda že i jednoduchý návrh trvá, trvá a trvá). To by hádám mohlo reálně zajímat poměrně hodně místních návštěvníků (VS bude asi nejpoužívanější).

Delphi 7 Personal už ne? ;-) (v tom se tak krásně dělalo)
Ani GCC už nefrčí?
A bude verze VS 2012 RC časově omezená?

Taky se přimlouvám za kompilaci. Pro mě je spíš zajímavější GCC, ale to je asi jedno.
Další, co bych přivítal, je nějakej výpočetní software (asi je těžko vybrat, ale většina výpočtů končí někde u vlastních čísel, takže možná čistě prostě řešení nějaký velký matice. Případně jsem schopen i něco vymyslet a dodat.
Vyřadil bych sandru, je to nic neříkající test.

Hodně by mi pomohla nějaká už připravená testovací dávka, která po spuštění provede potřebné akce a do textového souboru vypíše potřebný čas. Dodání takové dávky např. k GCC (plus nějakého projektu, který budu kompilovat) zvyšuje pravděpodobnost zařazení takřka na 100 % ;-).

Co se týče balíčku na kompilaci gcc, tak podle mne nejjednodušší je v linuxu stáhnout linuxový kernel
http://www.fuzzy.cz/cs/clanky/git-kapitola-1-repositare-a-vetve/
a pak ho jednoduše zkompilovat a změřit čas
time make -j <pocetjader>
a před další kompilací vyčistit
make clean
===
Pokud jde o nějaké numerické výpočty, tak mohu dodat to co mám - freeware řešič rank-n-update vlastních čísel plus nějaké matice reálných případů, ale zatím na rozklad používáme kód s pouze akademickou licencí. Rozklad matic pomocí kódu, kterej by šel použít bude v rámci měsíce či dvou. Pokud by byl o todle zájem, tak sem napište, nějak bych to dal dohromady tak, by se Vám to snadno používalo. Todle by ale chtělo překládat na každym procesoru znovu a k tomu mít i optimalizovanej BLAS, nicméně vše se dá dodat v rozumně znovuzkompilovatelném baličku.

Je možné, aby to v případě jádra 3.6.3 a procesoru Core i5-3570K trvalo 14 minut a 34 sekund?

A co takhle zkusit do testování zapojit Linux? Takový phoronix test suite je super, mě osobně by výsledky určitě také velmi zajímaly. A testy kompilace v GCC?

Linuxu bych se nebránil. V dual bootu to asi není problém a jestli tam jen něco spustím a za hodinu si přepíšu výsledku, bude to určitě snesitelné rozšíření testovací metodiky. Btw, Phoronix test suite už běží zcela bez problémů?

Taky bych se přimluvil za pár testů v Linuxech. Neměl by být problém sehnat někoho, kdo by Vám poradil jak na to, eventuálně někoho kdo by Vám do nějaké distribuce přímo zakompiloval všechny testovací programy, které by automaticky proběhli po spuštění systému.

A která distribuce by byla ideální jako platformou? Poslední Ubuntu, jelikož ho má asi nejvíc lidí (na desktopu)?

Ono řekl bych, že na tom zase až tolik nesejde. Hlavní je aby šlo o aktuální verzi s co nejnovějším jádrem. Takže klidně Ubuntu.
Klidně stačí použít jenom http://www.phoronix-test-suite.com/. Výsledky testů jsou potom alespoň srovnatelné s databází a může se testovat v klasikách jako je komprese v 7Zip, SuperPi, je možné i provést herní benchmark v demu UnrealTournament2004.

Hlavní je aby šlo o aktuální verzi s co nejnovějším jádrem.

Tak to je problém. S jednou metodikou míním zase aspoň rok vydržet. Jen díky kumulování výsledků je možné sestavit pro mnohé čtenáře určitě zajímavé srovnání 20 a více procesorů.

Tak- nejnovější jádro nemá Ubuntu (resp. má v alfa verzi 12.10 :D). Aktuálně má nejnovější jádro Fedora(3.3) a Archlinux(3.4). Přimlouval bych se určitě za Ubuntu(nejpoužívanější opravdu je). Co se týká problému se stálostí - Ubuntu ve verzi 12.04 je LTS(tzn. bude mít stejné jádro další 2roky(jen bezpečnostní aktualizace), pak jej nahradí 14.04). Každé LTS je takto podporováno 5 let. Kd eby se problém obejvit mohl je ve stálosti ostatních balíčků - CPU sice moc neovlivní, ale s FPS v herních testech mohou docela zahýbat(poslední aktualizace prostředí Unity 5.10 > 5.12 přinesla mimo jiné o 25% větší FPS). Tady bych doporučoval počkat na vydání aktualizovaného instalačního média (=12.04.01) někdy začátkem srpna. Bude tam opravena většina chyb. Poté pak používat třeba další 2 roky jen verzi 12.04.01 a nic neaktualizovat. Určitě pak kdyžtak můžete napsat na forum.ubuntu.cz, kde Vám s přípravou testotvání poradí ;)

Tak do srpna určitě nepočkám :-). Metodikou musím začít testovat příští týden.

Ja by som bol najradšej keby sa do metodiky dostalo kompilovanie nejakého open source projektu pomocou GCC pretože ak robíte multiplatformový projekt tak GCC je ideálne a tomto prípade by ma zaujímalo zaujímalo porovnaie medzi Windows a Linuxom

a co takhle k herním testům přidat IL2 Cliffs of Dover? Myslím že tahle hra je hodně náročná a dokáže s kdejakým počítačem zatočit:)

A je náročná spíše na GPU, nebo CPU? A bude lepším testem než X-Plane, jehož demo je zdarma, existují benchmark skripty (a dokonce si to pak mohou lidi snadno porovnat)?

Čo tak zaradiť RTS Wargame European Escalation

Neznám. Abych začal zjišťovat vhodnost, je potřeba připojit pádné argumenty (např.: hraje to spousta lidí a trápí je právě výkon CPU, existuje volně stažitelný benchmark atd.).

V podstate je to RTS niečo ako World in Conlfict čiže náročnosť na CPU...

A proč to tedy zařazovat?

W:EE
- Novšia hra od WiC
- DX11 grafika
- Množstvo jednotiek na rozsiahlych mapách

Dívám se teď na x264 benchmark a zdá se mi, že stále používá avisynth na dekódování zdroje... to je potenciální bottleneck pro stroje s vysokým počtem vláken/jader. U verze 5.0 je naopak pozitivní aktuální revize x264 (2200). To je důležité, prtože právě v revizi 2200 je důležitá změna, která by měla podpořit škálování na systémech s vysokým počtem jader, kde dříve docházelo k zpomalování kvůli jednovláknovému lookaheadu.

(Ačkoliv, lookahead pokud vím běží jen v prvním průchodu. Mimochodem, x264 HD Benchmark pořád používá dva průchody, což mi nepřijde moc užitečné, reprezentativnější je podle mě jednoprůchodové kódování přes crf, což pokud vím používá FHD Benchmark.)

Ještě se podívám, jakou revizi používá stávající FHD Benchmark, vzhledem k tomu, že je 64bitový, to budu muset vyzkoušet někde jinde :)

OK, takže x264 FHD Benchmark zatím nebyl updatován. Revize x264 je 2106. Je škoda, že nemá multithreadovaný lookahead, což zase poškodí stroje s velkým počtem jader nebo s HT (změna se začne projevovat teprve u 8 logických jader, ale poroste s počtem threadů).

Jak už jsem řekl, jednoprůchodové enkódování bych jako test osobně upřednostňoval, ale bylo by ideální, kdyby se dala použít x264 s revizí 2200+ (ta binárka se v tom benchmarku dá nahradit, ale pro reprodukovatelnost bychom museli odkazovat na její zdroj a uvést to v popisce atd). Třeba se ještě nová verze vynoří, než bude nová metodika nasazená...

Jinak pokud by byl v metodice x264 HD Benchmark 5.0, tak by podle mě bylo dobré uvádět oba výsledky, jak z prvního průchodu, tak z druhého. On totiž druhý průchod není kompletním kódováním, některá rozhodnutí (typy snímků, analýza lookaheadu) se přebírají ze statistiky prvního průchodu. Druhý průchod sice asi lépe škáluje, ale pokud by se uváděl pouze jeho výsledek, tak už ho klidně můžeme vypustit, protože máme srovnatelný FHD Benchmark.

V tom případě bych doporučil testovat na Ubuntu 12.04 tak jak je na instalačním disku v prostředí Unity 2D 5.10 ,které sníženým výkonem netrpí. Pokud budete testovací metodiku aktualizovat 1*ročně, doporučil bych při první aktualizaci za rok použít 12.04.01 a nebo 13.04. Pokud chcete jen LTS(velmi stabilní verze) tak ty vycházejí co 2 roky. Za ten rok bych však již Unity 2D nedoporučoval jehož jeho vývoj byl zastaven a verze 5.12 popř 5.14 jsou poslední. Unity 3D se však s každou aktualizací výkonnostně zlepšuje - čili je důležité testoat ždy na stejné verzi - na instalčním disku je práve 5.10 a v 12.04.01 bude 5.12 a nebo 5.14. Je to obecně problé Linuxu ale pevně věřím ,že pokud se testovací metodiku podaří vychytat bude mnoho uživatelů(včetěn mě) velmi spokojeno, protože snad jediný server který dělá testy na Linuxu ve velkém je Phoronix. Určitě bych také uvítal srovnávání Linuxu a Windowsu.

Aby nedošlo k nějakému omylu: Linux a testování v něm jsem ochoten přidat jako něco navíc, něco zajímavého dle statistik pro nanejvýš pro 5 % čtenářů (dle detekce GA má Linux asi 2,5 %). Určitě se nemíním s Linuxem pouštět do nějakých velkých akcí.

Jo stačí pár testů a nejlépe takových co jsou srovnatelné s windows testy, tedy jak sem zmiňovval například testy komprese v 7Zip či výpočet SuperPi. Hlavním účelem by mělo být podle mě porovnání, jak si CPU se stejným úkolem poradí na jiném OS.

V 7zipu nebude rozdíl, max v tom, jakej se na který platformě použil kompilátor. Takovejch testů bych tam moc nedával. Zajímavější je to u testů her a grafik, nebo u nějakýho masivně paralelního testu, kde může bejt jiná režije u zvládání tisíců vláken, ale u klasickýho (byť multithreadovýho) testu je režie OS minimální.

Reklama
Reklama
-->