GPU, čínština, Windows 7. V statistikách Steamu nastaly velké pohyby, měřily špatně

Loni Steam hlásil podivný nárůst podílu Windows 7, uživatelů v Číně nebo pokles procesorů AMD a Radeonů. Teď se ukázalo, že tato čísla byla hodně vedle...

62

Loni jsme tu párkrát probírali zprávy o tržních podílech procesorů, jelikož rok 2017 byl nebo mohl být do jisté míry přelomový: AMD uvádělo po letech úplně novou architekturu jader, která měla znamenat „comeback“ do ostrého konkurenčního boje s dominantním Intelem. Asi si ale vzpomenete, že do informací zapadajících do očekávaného nárůstu podílu AMD na úkor Intelu nezapadaly vůbec statistiky ze Steamu. Ty ve stejné době naopak ukazovaly razantní poklesy. Výsledky ale byly zvláštní nejen v procesorech, najednou například strmě stoupaly Windows 7 na úkor nových Windows 10 (a nešlo o žádné malé změny, jak můžete vidět na grafech níže). Jak se dalo tušit, ne všechno bylo s touto statistikou v pořádku. Pokud se vám nezdála, asi vás potěší, že vám nyní Valve dává za pravdu. V aktuálním průzkumu za duben došlo k opravě metodiky a výsledky jsou hned o dost jiné.

Za zvláštními trendy v měření Steam HW/SW Survey byla již loni spatřována Čína. Výrazně totiž stoupal počet systémů s jazykem nastaveným na zjednodušenou čínštinu. To bylo vysvětlováno buď reálnou velkou expanzí Steamu (což se pokud si dobře vzpomínám přičítalo například hře PUBG) nebo tím, že se předtím statistiky z Číny nezapočítávaly. To by implikovalo, že nové divné výsledky byly v pořádku, ale naopak ty předchozí byly vlastně špatně. Nakonec je ale vysvětlení trochu jiné.

„Podváděly“ kavárny

V nyní zveřejněném přehledu dubnových výsledků Valve uvádí, že za anomálními čísly za zhruba posledních sedm měsíců byla skutečně metodická chyba a firma implementovala do měření změny, které by ji měly odstranit. O co šlo? Zvláštnosti ve statistice začaly být pozorovány počínaje srpnem a korelují s nárůstem používání Steamu v čínských internetových kavárnách. Problém nastal v tom, že tyto kavárny měly OS a software zřejmě nakonfigurovány tak, že se do Steamu nehlásily vždy jako jeden uživatel, ale došlo k tomu, že služba registrovala uživatele střídající se na jednotlivých počítačích zvlášť. Ačkoliv je tedy záměrem statistiky Steamu dávat každému PC „jeden hlas“, tyto počítače v kavárnách místo toho měly hlasů vícero tím, jak se na nich točili do Steamu přihlášení uživatelé.

nvidia-geforce-gtx-1060-ilustraceTím došlo ke zkreslení výsledků ve prospěch konfigurací strojů rozšířených v těchto kavárnách, které neodpovídaly „zbytku světa“. Ve statistice se to projevilo oním zmíněným nárůstem Windows 7, počtu čtyřjádrových CPU proti dvoujádrům, u grafických karet zejména velmi stoupla používanost modelů Nvidia GeForce GTX 950/960, GTX 750 Ti, GTX 1050 Ti a GTX 1060. A kromě toho také výrazně stouply procesory značky Intel a instalace se zjednodušenou čínštinou jako jazykem.

STEAM HARDWARE SURVEY FIX – 5/2/2018

Historically, the survey used a client-side method to ensure that systems were counted only once per year, in order to provide an accurate picture of the entire Steam user population. It turns out, however, that many cyber cafes manage their hardware in a way that was causing their customers to be over counted.

Around August 2017, we started seeing larger-than-usual movement in certain stats, notably an increase in Windows 7 usage, an increase in quad-core CPU usage, as well as changes in CPU and GPU market share. This period also saw a large increase in the use of Simplified Chinese. All of these coincided with an increase in Steam usage in cyber cafes in Asia, whose customers were being over counted in the survey.

Úprk uživatelů z desítek na sedmičky i další pohyby byly jen zdánlivé

Míru chyby ilustrují některé obří korekce, které teď nastaly v dubnových výsledcích, které už mají metodiku údajně opravenou a podle Valve by v nich již kavárenská PC měla být počítána standardně jen jednou. Windows 10 64bit hlásí nárůst podílu o 17,4 procentních bodů (a to jen proti březnu, maximální amplituda úletu je dokonce 30 %). Podíl čtyřjádrových CPU se snížil o 8,16 procentních bodů a zmíněné grafiky GeForce GTX 960 a GTX 750 Ti ztratily 4,44 % a 4,72 %, čímž ztratily polovina z celosvětových podílů, které vykazovaly na vrcholu „kavárnové etapy“. Podíl angličtiny jako jazyka šel nahoru o 11,23 %, zjednodušené čínštiny o 21,89 % dolů. Poznámka: všechny změny podílů, které tu byly vypočítány, mluví o procentních bodech.

Výkyv a následná korekce v podílu výrobců GPU...
Výkyv a následná korekce mezi srpnem a dubnem v podílu výrobců GPU…

steam-hardware-software-statistiky-duben-2018-operacni-systemy
…verzí Windows…

...a v podílu výrobců procesorů
…a v podílu výrobců procesorů

Procesory AMD stouply z podílu 11,15 % v březnu (a dokonce jen 8,03 % v lednu) na 15,96 %. V grafický kartách se poměr sil během měsíce změnil z rozdělení 10,8 % pro AMD a 82,3 % pro Nvidii na 14,89 % proti 75,26 %. Jinak v lednu měly s čínským faktorem Radeony dokonce jenom 8,2 %. Návrat k normálu v dubnových číslech ale potvrzuje, že tyto prudké výkyvy nebyly reálné.

Statistika Steamu je dost zvláštní věc – například v tom, že výběr počítače pro započítání se zdá poněkud nevyzpytatelný (takže někteří uživatelé mají pocit, že na ně skoro nikdy nedojde, zatímco jiní jsou počítáni pořád), byť je údajně záměrem počítat každé PC zhruba jednou ročně. Systém sběru dat není nějak veřejně zdokumentovaný a nemůžeme tedy vědět, zda se v něm neskrývají ještě další boty nebo potenciální problémy. Je to také asi poučení, že nad statistickými daty je třeba kriticky přemýšlet a počítat s určitou mírou nejistoty. Zvlášť tehdy, když moc neznáte systém sběru dat.

Po nynější dubnové korekci by ale statistiky měly být určitě přesnější. Pokud se ale budete na tyto čísla dívat někdy v budoucnu, pamatujte si, že výsledky zhruba mezi srpnem 2017 a březnem 2018 jsou chybně – ony anomální „hrby“ v grafech totiž zdá se nebudou zpětně opraveny.

GPU, čínština, Windows 7. V statistikách Steamu nastaly velké pohyby, měřily špatně
Ohodnoťte tento článek!
4.5 (90%) 24 hlas/ů

62 KOMENTÁŘE

  1. No jo no, Steam survey…. je hezky ze se seknou mezi mesici jen o „50%“ :))
    Ale jinak vazne, nikdo soudny tuhle statistiku nemuze brat vazne. Dneska nasli tuhle diru, zitra najdou nebo udelaji zase jinou. Model, na jakem delaji sber dat, a model, na jakem je pak vyhodnocuji, taky neni znamy,
    Z pohledu seriozni statistiky nepouzitelne.

    • Keď si zoberieš aktuálne čísla za GPU časť, tak zhruba zodpovedajú dodávkam hlasených v kvartálnych výsledkoch, ktoré sú ešte okrem toho ošetrené o to, čo išlo minerom. Podľa mňa to nie je úplne od veci.

      • Je mozne, ze se to nekdy trefi 😉 Ale v zajmu transparentnosti a moznosti kontroly tech vysledku, by meli minimalne zverejnit metodiku, jak k tem cislum dojdou. Bez toho jsou to opravdu pro nejake serioznejsi vyzkumy nepouzitelna cisla…

      • Nesouhlasím, podle mě je to celý pičovina na n tou. Když se dokazují náhodně tak je to k ničemu. Prostě pokud si někdo zapne hru a hraje víc jak jednu hodinu tak by si to mělo přečist MAC adresu síťovky a poté teprve k tomu přiřadit ten správný hardware a zanést ho do statistiky. Jinak je to celý k prdu. Co mám novej PC se mě to na konfiguraci nezeptalo, a to jsem pár hodin pařil CSko. Takže moje gtx1080 tam není, k čemu pak taková statistika slouží, nevím.

        • Nie, to je prave ta statistika. 😉 Na tvoju 1080 nikto nie je zvedavy. I vo volbach staci scitat okolo 5% hlasov, a uz sa to od konecneho vysledku prilis nepohne (rozumej, obvykle len v desatinach percenta).

  2. Tak domnievam sa, že v 2019~2020 treba byť pripravení na ďalšiu zmenu čísiel podielov CPU/iGPU pretože už sa to naozaj naučili robiť.

    V lete konečne nabehne seriová výroba 28nm HLMC KX-5000 / KH-20000 pre čínsky domáci trh a zároveň paralelne sa v 2019 pridá TSMC s násobne vyššou 16nm KX-6000 / KH-30000 a 2020 7nm KX-7000 / KH-40000.

    https://steamcommunity.com/discussions/forum/11/1696046342860183820/?ctp=1
    https://www.youtube.com/watch?v=zBDMRTA04MM

  3. Nějak se mi to nezdá. Steam se v rámci klienta dostane až na úroveň HW a jednoduše si udělá jeho snímek, včetně s.n. jeho částí i OS (product key), tak že by nedokázal odlišit PC, ale bral to podle loginu hráčů? Navíc Steam může počítat své aktivní klienty, úplně bez ohledu na hráče. Nechce se mi věřit, že by to byli takovíto lameři.

    • Steam ta statistika nezivi, proste to tam ma na starosti jeden clovek a jeste jako vedlejsak. Ty statistiky vydava Steam pro lidi i vyvojare her jako takovou rychlou informaci, jak si kdo stoji. Ono to muze byt zajimave predevsim pro male vyvojarske tymy, protoze jsou kolikrat hry, ktere se delaji v par lidech. U takovych je potom dobry, kdyz si vyvojar koupi NVidii a programuje to na ni, protoze pak ma jistotu, ze to 75% potencionalnich zakazniku bude fungovat stejne jako jemu. 🙂

      • Někde jsem slyšel věrohodnější vysvětlení, proč to Čína tak rozhodila. Niko proto, že hráči střídají PC, ale proto, že tam hrají nejvíce v kavárnách, kde pravidelně, např. 1x týdně, preventivně kompletně reinstalují OS a tím i Steam klienta, který se při instalaci a aktivaci znovu započítá jako další. Ale co je na tom pravdy …

        • V tom vysvětlení na webu není přesně popsáno, jak přesně je to multihlasování způsobené, jen že ty kavárny „spravují svůj hardware způsobem, který vedl k nadměrnému počítání jejich uživatelů“. Mohlo by to asi být i tohle.

  4. Je zajimave uvazovat nakolik se v podilu cpu projevila korekce ciny a nakolik prodeje ryzenu. Pokud je mezi posunem cpu a gpu v grafech korelace a pricinna souvislost (uvedena korekce), prodeje ryzenu se na podilu vubec neprojevily nebo jen v radu jednotek procent.
    To je ovsem cira spekulace.

    • Hlavně Tobě padl jeden z opěrných pilířů…

      Ukázalo se to sme všichni tvrdili… A to je, že tyto grafy nebyly nikdy průkazné. Ostatně nejsou dodnes… Mě se třeba STEAM ptá nejčastěji na sestavě Intel+nVidia… Na dalších sestavách, kde je AMD sem to od přechodu na Ryzen zažil jednou (čili častěji se mě to ptá na ne AMD sestavách). Dále STEAM nezohlední to, že třeba mám více PC… A takových lidí jako já co maj 1 steam účet a přesto mají více PC taky bude víc…

      Takže jsou tyto průzkumy průkazné? absolutně vůbec… a nelze se tak o ně opírat…

      • Píšeš nesmysly. Ale od začátku – že se ptá častěji na intel a nvidia je nesmysl od základu – pokud by to tak bylo, museli by nejdříve detekovat a potom teprve odesílat (tedy si vybírat). To by byl jasný podvod, ale navíc hodně hloupě provedený. Šel by snadno detekovat analýzou binárek a to se neděje. Pokud by chtěli z nějakého důvodu preferovat některé výrobce, tak úpravou výsledků na serveru je to prakticky nezjistitelné.
        Samozřejě na základě „confirmation bias“ se ozvou ti, co se jim to náhodou stalo (jako tvrdíš ty) a co se jim to nelíbí.
        Problém s více PC na jeden účet opět není – při náhodném výběru jednoho (nebo N) sestav pro tento účet se nemění statisticky poměr v ničí prospěch.

        Takže je to průkazné celkem pěkně – jen lidé od toho často očekávají, že to bude reflektovat aktuální prodeje a to se nikdy moc dít nebude, protože je to vzorek používaných a nikoli aktuálně koupených sestav.

        • Ono na to je nejlepsi, ze je to uplne fuk 🙂 Protoze rec tech cisel rika jen jedno…ze nemaji zadnou vyznamnejsi hodnotu. Je jedno, jestli ma nekdo ocit, ze se to pta blbe nebo dobre. Z hlediska statistiky a to jak se ty cisla meni, jsou k nicemu. Dobre, tak akorat do diskuse treba tady. Kdyby delali stejne predvolebni pruzkumy, tak by jeden mesic melo treba ODS jednou 20% a druhy mesic 10%…tak by kazdy uznal, ze je to nesmysl. Jen proto, ze kazdy ma nejakou oblibenou znacku, tak v tech cislech hleda svoji AMD nebo NV. Ve skutecnosti jsou ta cisla o nicem, dokud nebude minimlane znam model, podle ktereho jej sestavuji. A ten neuverejni, protoze pak by bylo jasne, co je na nem blbe :))

        • 1. nepíši nesmysly mluvím z vlastní zkušenosti a to již dlouhodobé. A nemám je jen já sám co se týče dotazů na HW. A hlavně tvrdím to už dlouhodobě…

          2. více sestav – tudíž když berou na 1 účet 1 sestavu tak to opravdu potom není ty výsledky průkazné. Což je to co tvrdím tudíž zas žádný nesmysl ale fakta
          (nemaj tam funkci, že bys zadal, že máš více PC a provedla by se detekce)

          3. Díky domu, že nevíš a nevíme to nikdo jak jejich statistika vzniká + výše popsanému je to maximálně neprůkazné. A to že to nyní opravují je taky důkazem. Takže si říkám kde máš ty nesmysly…

          PS: používané jsou všechny… Jinde si lidi stěžovali, že jim do detekovalo jen integrovanou grafiku a pod… A hlavně jediné co jsem tím chtěl říct je to, že je nesmysl se těmito statistikami ohánět, tak jako to tu dělal třeba právě Hnízdo…
          nic víc nic míň 🙂

      • Nijak jejich nesmyslná tvrzení a lhaní se postupně rozpadají jako domečky z karet… Nicméně věř tomu, že chybu nepřiznají a budou dál demagogicky něco tvrdit… Jen už možná vynechají tu STEAM statistiku… Nic víc se nestane.

        Jeden z vrcholů lží a demagogie předvedl v předchozím článku… A všimni si, že když jim nejde autor na ruku, tak se tu hned objevují hlášky že je rudý a že se EHW spolčilo s DD a pod… Pravda lidem co z duše nenávídí AMD už zůstal jen Obermaier, který je na tom stejně… Který se však neštítí ničeho, aby dosáhl svého…

        • Mne by spis zajimalo, to proc to delaji. Jestli jsou jeste opravdu tak omezeni ve svem chapani, ze jim ty „jednosmerky“ zatim staci a nebo jestli s tim kompenzuji nejake osobni problemy..a nebo jestli jsou to jednoduse magori..

  5. „Statistika Steamu je dost zvláštní věc – například v tom, že výběr počítače pro započítání se zdá poněkud náhodný (takže někteří uživatelé mají pocit, že na ně skoro nikdy nedojde, zatímco jiní jsou počítáni pořád)“

    Autor asi nedostudoval. Statistika mu zrejme nic nerika. Nahodny vyber je zakladem statistiky. Jak casto se treba stanete soucasti volebniho pruzkumu? 😉 Vzdycky je to o odchylce a velikosti vzorku podle toho, jak velkou ji chceme mit. Dostudovat je mozno treba zde:
    https://en.wikipedia.org/wiki/Errors_and_residuals

    Preju vesele cteni. Je to potreba.

    • Částečně máš pravdu, jenže ze steamu se nedozvíš z kolika PC se vzorek skládal, ani třeba kolik lidí odmítlo data odeslat. Podle steamu (to nevím přesně, kde jsem to zahlédl a možná se mýlím) by se měl v průměru 1x za rok dotaz objevit. Když vezmu jen sám sebe, tak na starém stroji (cca 9 let) jsem odesílal data o PC 3x, v září jsem ho měnil za nový, tam jsem byl dotázán po cca 3 týdnech, na druhém PC, který dostal „mladej“ a má ho cca měsíc zatím nic. Na notebooku 2 roky starém 1x. Drobný paradox je, že poslední odeslání dat na tom vyřazeném PC jsem odesílal týden před zrušením 😀

      • Ne, Maudit ma pravdu.

        To ze to u tebe nejak probehlo, neznamena, ze to probehlo i u jinych podobne a ze vsichni odesilali data z pocitace pred vyrazenim.
        Naopak, cim je vzorek vetsi, tim vic absorbuje mozne chyby a pokud temer kazdy, kdo se tu ozval, daval vzorek, jasne to ukazuje, ze vzorek dat Steamu je masivni, aby taky ne.

        Tady se v clanku i v diskuzi zcela zamenuji dva faktory steamacke statistiky:

        1. Je statistika na Steamu vedecka a je vhodna jako podklad vedeckeho zpracovani dat?
        -Rozhodne NE, protoze Steam nezverejnuje metodiku.

        2. Je statistika na Steamu informacni a muze slouzit jako informacni jednoduche srovnani, jak jsou na tom uzivatele Steamu s hardwarem pro zakazniky a vyvojare?
        -Rozhodne ANO, ikdyz nezname metodiku, bude vzhledem k rozsahlemu sberu dat, statistika Steamu pomerne presna pro informacni ucel a nelze predpokladat, ze by odchylka mela byt vyssi nez +-5%, coz pro ucely informovani staci.

        • @Redmarx
          v pořádku ale ať se tím pak do nekonečna neoháněj jako bernou mincí… Pravdou je to co se tu už dlouhodobě říkalo… Prostě je to neprůkazné a nedá se podle toho ani orientovat… Max z toho můžeš vyvodit, že grafiky nVidia mají většinu trhu… no k tomu ale nepotřebuje nikdo STEAM to je všeobecně známé… Jenže neteří se tu oháněli přesnými procenty a opírali o ně svá nesmyslná tvrzení…

          • Proc by se tim nedalo ohanet?

            Vzdyt ty vysledky Steamu jsou pravdive.
            Podivej se treba na graf grafik.
            Pred chybou mela AMD cca. 20%, v dobe chybneho mereni 10% a ted ma 15%.
            Porad je to ale +-5%, coz jako informace pro vyvojare uplne staci, ze optimalizaci pro NVidii oslovi cca. 60-80% zakazniku. Z toho je snad kazdymu vyvojari jasne, ze resit Intel a AMD grafiky bude maximalne v druhe vlne, protoze jsou na trhu jasna mensina.

            Ja jsem naopak rad, ze Steam vydava aspon takovouhle statistiku, byt je treba dost nedokonala. Ale muze slouzit i vyrobcum grafik, aby treba premysleli nad tim, jestli chteji v hernim byznysu vubec dal pokracovat, protoze bud jak bud to AMD ma kazdopadne sestupnou tendenci, coz docela koresponduje i treba s tim, ze dlouhou dobu AMD grafiky vubec nebyly na trhu, protoze je vsechny sezrali kryptotezari.

          • protoze je to neprukazne…
            – Ty ani ja ani nikdo nevime jak to pocitaji.
            – ty dotazy na HW nejsou vyrovanane
            – stava se ze detekuji spatne
            – neresi to, ze ma nekdo vic poacitacu

            nebyly na trhu:
            1. ano tezilo se hlavne na AMD grafikach a z pri nedostatku se zacaly pouzivat i nVidie. A ne ze ne kamarad na nich tezi rad. No a pak byl problem s dostupnosti i u nVidia grafik…
            2. druha vec je nyni to ze nove AMD grafiky jsou v nedohlednu… Cili ano posiluje to pozici Nvidie a teprve posili po prichodu novych grafik. Momentalne nejvykonnejsi pouzitelna grafika od AMD je Vega56. Bohuzel stale neni za cenu jakou ma byt… (dobre vis ze cena za kterou se ma prodavat a za jakou se prodava je fakt mimo…)

            Nicmene
            „Ale muze slouzit i vyrobcum grafik, aby treba premysleli nad tim, jestli chteji v hernim byznysu vubec dal pokracovat“
            Tak bych rek ze vyrobci grafiku vyrobi a daj ji na prodej… Pro koho by to mozna melo byt urceno jsou herni vyvojari…

            Bohuzel vyojari maji delat hry tak, aby se daly hrat. Coz uz davno neni co byvalo… I vydane hry jsou horsi jak kdysi bety…

            Podle tebe se maj vsichni na AMD vykaslat? Jen pro to, ze ma nekdo cca 20% trhu tak podle Tebe jsou lidi co maj tyto grafiky neco min (pod lidi) oproti tem co maj Nvidie? Takhle jsi to urcite nemyslel… A rikam z toho ze tu je AMD maji dnes v CPU duvod k radosti i zaprisalhli odpurci AMD… Ty nejsi rad ze tu je Intel s vice jak 4 jadry za rozumnejsi ceny? Kluci zamyslete se nez neco napisete…

          • To mi ale vkladas do ust neco co jsem nerekl.

            Situace je proste takova, ze je tu jeden vyrobce grafik, kterej ma mozna 60% trhu, mozna 70% a mozna 80%, proste ma vetsinu. Pak jsou tu dva mensi vyrobci, kteri maji neco mezi 10 az 20% trhu. Pritom jeden z tech vyrobcu se na hry vubec nespecializuje, optimalizace pro hry nevydava a jeho grafiky jsou spis pro lidi, po ktere hry nejsou prioritou.

            Sice tenhle az „treti“ v poradi ted zacal neco kutit mozna i smerem k hernim grafikam, ale v tuto chvili to neni dulezite, protoze na trh s hernima grafikama maximalne vstoupi nekdy v budoucnu.

            Zamerme se na toho druheho v poradi. Ten se na hry mimo jine take specializuje, ale vysledky jsou tristni. Opravdu by mel nekdo doporucovat tohoto vyrobce pro hrace, kdyz se vyvojar podiva na statistiku na Steamu a bude hru optimalizovat pro tak, aby mel maximum zakazniku, teda se zameri na grafiky vetsinoveho vyrobce?


            Tohle neni nic proti AMD, ale je proste faktem, ze v hernich grafikach nemakaj tak, jak by meli. Ja uz neco pamatuju a jeste v dobach ATI a potom jeste chvili i v dobe AMD to bylo tak, ze jeden z vyrobcu mel chvili vyssi vykon o maximalne jednotky procent nebo ani to ne a chvili zase druhy. Ale soucasna situace je naprosto tristni, nejen, ze grafiky AMD jsou mene vykonne, ale zerou i vic energie a jsou drazsi (mysleno cenikove ceny). Ano, muzeme to omlouvat tim, ze AMD slapla do pedalu v procesorech a ze na grafiky uz nezbyva, ale to je fakt spatne, tak at AMD grafickou divizi proda, pokud nejsou schopni niceho. Bylo to nakonec rozhodnuti AMD, ze tu ATI koupili, takze nemam duvod je jakoli litovat.

        • Rede, však píšu, že má pravdu, jen jsem doplnil, že když nevíš kolik je vzorků ze všech PC je to dost na prd a pro „pobavení“ nebo porovnání jsem uvedl, jak často skáče steam survey u mne.

          • Harry podivej se nekde, co znamena slovo statistika. Statistika nema nic spolecneho s „nahodnym vyberem“. Statistika se pouziva nad vzorkem dat. Druha vec je, jak ty data ziskas. Muzes mit klidne vsechna data k dispozici, a nad temi udelas statistiku. Nebo nemas vsechna data k dispozici, a pak musis udelat nejprve nejaky vzorek dat a to je pak ale „model sberu dat“. Nahodny vyber, jak o nem Maudit pise, je maximalne soucasti nejakeho modelu sberu dat, nikoliv statistiky. A v tom modelu sberu dat, nemuzes mit jen „nahodny vyber“, to je uplny nesmysl, protoze to by jsi se s tim vzorkem taky mohl totalne seknout vedle (coz steam hezky i ukazal, ze se sekli i presto, ze to podle mne nemaji „nahodne“). Jinymi slovy, problem Survey Steam je, ze maji nejaky model sberu dat, ktery nikdo nezna. Tudiz se ani neda odhadovat, na kolik je korektni nebo ne. A z toho vyplyva, ze jakakoliv statistika, kterou and tim postavis je na vode.

          • tombomnino: Nie je to ten istý prípad ako volebné prieskumy? Nechytajme sa teraz za slovíčka. Tie sa totiž tiež robia náhodným výberom ludí a celkom korešpondujú s aktuálnou situáciou. A čím väčšia je vzorka podieľajúca sa na zbere dát, tým by mala byť prípadná chyba menšia. Nenájdeš mometálne lepšiu štatistiku o HW hráčov než je tá, ktorú ponúka Steam. Jasne, že sa stanú chyby ako je tá spomínaná v článku, ale na základe toho môžme povedať akurát to, že posledné mesiace skreslovali realitu. Aj keď tá sa o moc po oprave nezmenila. Rozdiely sú pár percent. Skôr sa mi zdá, že štatistické informácie, ktoré prináša Steam nevoňajú luďom, ktorí majú radi AMD, pretože vychádzajú pre túto firmu mizerne. Mne to ale príde tak, že to celkom zodpovedá údajom poskytovaným JPP o medzikvartálnych výsledkoch. Aspoň čo sa týka GPU časti. Plus sú očistené od kariet, ktoré používajú mineri, keďže JPP rieši celkové dodávky a nie to, komu dané GPU idú. Čo je tiež plus. Samozrejme spochybňovať sa dá všetko. Aj všetko pekne otočiť (viď Stachov krásny demagogický príklad v rámci AMD vs Asrock). Určite by som nebral štatistiky zo Steamu ako niečo nerelevantné.

          • Marku, ja nepracuji ve firme delajici predvolebni pruzkumy, ale z toho co tak vim, tak urcite nedelaji „nahodny“ vyber, jak se o tom bavime 😉 Prave naopak..maji to predem rozskatulkovany do mnoha kategorii podle socialniho slozeni, vzdelani, geograficky, a ja nevim co jeste.. a pak v ramci tech jednotlivych predem urcenych „skatulek“, tak ano, tam je mozna nahodny vyber konkretnich osob. Takze mluvit o tom jako o „nahodnem vyberu“ je hrozne zavadejici a neni to pravda. Je to opravdu nejaky „model“, podle ktereho nasbiraji vzorek dat a ten pak zpracuji. Jestli nad tim udelaji vyslednou statistiku a nebo ty vysledky jeste dal nejak aproximuji, nevim..spis bych rekl, ze se jeste aproximuji a pak teprve statistika na konci toho celeho…
            Takze abych to shrnul…vsechny ty procenta o kterych se bavime, tak jsou BRUTALNE zavisle od modelu, jakym ty data sbiraji a dost mozna i aproximace toho vzorku. Fakt nema moc smysl, se s temi vysledky seriozne zabyvat, kdyz nevime, jak k nim dojdou.
            Ale jinak ano…nic jineho nez Steam statistika neni..takze je to lepsi nez dratem do oka.. a to je asi tak vsechno 🙂

          • Jeste se an to muzes divat i tak.. v tech jejich pruzkumech figureje nevim..readove tisic lidi a pritom delaji statistiku pro 10 milionu…takze opravdu „nahodne“ to vybrat fakt nemohou.
            Podobne to bude i u Steamu, protoze kdyby ten jejich vzorek dat byl nejak velky, tak dostanes ten jejich survey minimalne neklikrat do roka…

          • Keď na tým rozmýšľam, tak asi máš pravdu, že nejde o náhodný výber. Každopádne ale momentálne nie je v tomto smere lepšia štatistika než nám dáva Steam. Nebral by som ju preto tak, že nič neznamená a nedá sa na ňu odvolávať. Ale tak isto si myslím, že by mohli zverejniť spôsob zberu dát a ich vyhodnocovania už len kvôli transparentnosti.

          • Tady je krasne videt, jak je tombomino nedovzdelanej.

            Nemuzes udelat vyber vzorku podle skupin, pokud nevis, jak jsou zastoupene (jinak by jsi mel spatne pomery mezi jejich vyznamnosti). A jejich zastoupeni zjistis jedine tak, ze ten soubor prozkoumas – nahodnym vyberem. Takze, tak jak to tombomino popisuje, to opravdu nefunguje 😃 @tombomino tobe by se hodil nejakej vecerni kurz matiky na stredni, jestli se neco takovyho dela.

          • Maudit: Ja si myslím, že to náhodné naozaj nebude. Oni proste zozbierajú dáta o používateľov, ktorí s odoslaním súhlasia a tie dajú do pomeru k celkovému počyu používateľov a získajú celkom slušné odhady. Reprezentatívna vzorka je podľka mňa dosť veľká na to, aby to fungovalo. Hlavne keď sa zbavia takých až amatérskych chýb ako to, čo sa im stalo kvôli Číne. Mne to ale minimálne u GPUčiek celkom výchádza tak, že to zodpovedá skutočnému stavu na trhu medzi hráčmi. Preto tento prieskum nezatracujem.

          • Oni maji hodne kategorii (sleduji i jednotliva GPU), takze jejich vzorek, aby mel potrebnou presnosti, musi byt obrovsky. Dost pravdepodobne vedeli, ze ten jejich nastroj umoznuje sber dat od vice uzivatelu z jednoho PC, ale kvuli male sanci to bylo nevyznamne pro vysledky. Situace se kvuli battle royal typu her a cisnkym PC hernam zmenila, takze uz to nemohli ignorovat. Takhle se to predpokladam odehralo.

            @tombomino: nahodny vyber je jednim ze zakladu statistiky (viz uvod), treba zde: https://en.wikipedia.org/wiki/Sampling_%28statistics%29

            To neokecas. Ty skupiny, o kterych tak neobratne mluvis, abych to rozvedl, by se daly prirovnak k „Stratified sampling“, ale tam je klicova ta cast: „Requires selection of relevant stratification variables which can be difficult“, co je presne jak jsem psal nahore – musis mit uz znalost tech skupin.

          • mareknr: „Jasne, že sa stanú chyby ako je tá spomínaná v článku, ale na základe toho môžme povedať akurát to, že posledné mesiace skreslovali realitu. Aj keď tá sa o moc po oprave nezmenila. Rozdiely sú pár percent. “
            wtf?? V grafický kartách se poměr sil během měsíce změnil z rozdělení 10,8 % pro AMD a 82,3 % pro Nvidii na 14,89 % proti 75,26 %

            To není pár procent, to je rozdíl skoro 40% díky špatné metodice.
            Na kolik těch chyb ještě Steam přijde (a neřeším komu by tentokrát hrály do karet)? Neznáme metodiku = statistika o howně.

          • Aznohh: Máš pravdu. Ja som na na relatívne čísla v rýchlosti pozrel iba v absolútnych číslach. Moja chyba. Rzodiely sú veľké. Každopádne ak to ošetrili, tak v tom nevidím problém. Ideálne by bolo zverejnenie metodiky. Na druhej strane nesedia tie čísla s tým, čo vidíme v reále? Minimálne v GPU časti hej.

          • @aznohh nelze rict, ze je chyba 40%. To opet vychazi z neznalosti. Uz treba pro hodnotu Nvidie to neplati (rozdil je 9%). Chyba se uvadi napr. v procentnich bodech a logicky muze vice ovlivnit malo zastoupene skupiny. Statisticka chyba 4 procentni body jeste neni nic drastickeho.

          • Já ale o žádné statistické chybě nic nepsal, tak mi to laskavě nevkládej do úst. Naopak jasně píšu o absolutních číslech co se týče AMD (moje reakce byla pro markanr a jeho příspěvek ve kterém psal: Skôr sa mi zdá, že štatistické informácie, ktoré prináša Steam nevoňajú luďom, ktorí majú radi AMD).

            Jako pokud se najednou z měsíce na měsíc se někde „vykouzlilo“ o 40% víc grafik od AMD, tak je taková statistika opravdu vtipná.

          • Jinak nevědomost je zjevně na tvojí straně, jestli počítáš statistickou chybu jako rozdíl těch výsledků, tak lol. Navíc chyba v metodice je systematická chyba a ne statisktická. Dvě naprosto odlišné věci.

          • Azanohh: Jasné, že chyba takejto kategórie je prúser. To ale neznamená, že odteraz je táto štatistiak zlá. Tých 40% sa tam nevykúzlilo len tak, ale s vysvetlením kde sa stala chyba. A s tým že daná chyba bola opravená. Samozrejme spochybňuje to výsledky za posledných pár mesiacov, ale nie tie, ktoré sú uverejnené od opravy. Vždy sa dá ale argumentovať, že tam môžu byť aj iné chyby a celkovo súhlasím s tebou aj s tombominom, že by bolo transparentné, keby Valve zverejnil metodiku, na základe ktorej zbiera a vyhodnocuje dáta.

    • Spis vesele cteni je to co pises ty Mauditku a neni to rozhodne poprve.
      Statistika nema nic spolecneho s „nahodnym vyberem“. Statistika pochazi od latinskeho slova „status“. Cili popis nejakeho stavu a v dnesni dobe se pouziva pro zpracovani hromadnych dat. Tvuj „nahodny“ vyber se tak tyka maximalne nejakeho „modelu sberu dat“, coz muze byt MAXIMALNE SOUCAST nejake „statistiky“, stejne jako vubec byt nemusi, protoze muzes statistiku pouzit i na vsech datech a ne jen na vzorku, ktery „nejak“ ziskas.
      Takze doporucoval bych Ti pred tim, nez se zacnes navazet do autora clanku, tak sam si nastudoval aspon zaklady o cem mluvis. 🙂

      • Od latinskeho slova status jo? 😀
        Ne.

        „From German Statistik, from New Latin statisticum (“of the state”) and Italian statista (“statesman, politician”). Statistik introduced by Gottfried Achenwall (1749), originally designated the analysis of data about the state.“

        „A mathematical science concerned with data collection, presentation, analysis, and interpretation. “

        https://en.wiktionary.org/wiki/statistics

        😀 😀 😀 😀 😀 😀

        • Hele mauditku, ze ty jsi nedoukuk, ktery nuc nechape, za to ti opravdu nemuzu. To ze „status“ bylo v uvozovkach, to ze latina vznikla davno pred nemcinou i to, ze „From German Statistik, from New Latin statisticum (“of the state”) ‚ ze nedokazes ani si prelozit jednoduchy anglicky text..to jen dokresluje kym jsi..troubelinem, ktery bude zvanit nesmysly a nesmysly. Hlavne delej ‚nahodny vyber‘ .. to je metoda pro statistiku jak vysita. S idiotem jako ty fakt nelze nic resit.

          • Z tveho odkazu:
            „he word statistics is derived from the Latin word “status” or the Italian word “statista,” and meaning of these words is “political state” or „government.“

            >> stat (political state), vlada (government)

            „Gottfried Achenwall used the word statistik at a German university in 1749 to mean the political science of different countries.“ 😀 😀 😀

            Clovece, ty se sam zabijis. Z tveho vlastniho linku 😀

          • Mauditku, ja opravdu nemuzu za to, ze jsi tak hloupy, ze umis maximalne slabikovat pismenka a nechapes smysl toho, co je tam napsano a jak se to slovo vyvijelo a co znamena jeho puvodni vyznam v prenesenem smyslu i v dnesni statistice. Ja ti fakt nemuzu za to ze jsi hloupy.
            Muzes tu psat X dalsich posmesnych prispevku, nicmene to nemeni nic na tom, ze v tomto stejne jako v predchozich diskusich jsi kompletne mimo misu..
            Zkus zase to pivo, to ti sedi lip.

    • Ta formulace v článku to myslela trochu jinak. Steam má přímo v designu, že se to vybírá náhodně. Že vybírají náhodně, jim nezazlívám, to je holt jejich volba – asi není možný oslovovat s žádostí úplně všechny uživatele pořád, byť by to zrovna tady technicky šlo (protože ani obecně není pravda, že náhodný výběr je nejlepší metoda, nejlepší metoda je mít data od úplně kompletní populace místo jen vzorku). Lidi by to otravovalo a sbírat data bez požádání o souhlas je zase nepěkný. Ta věta mluvila o tom, že z pohledu uživatele to někdy vypadá ne jako náhoda, kde to prostě padá nestraně podle nějaké křivky pravděpodobnosti, ale jako by to byla taková ta „schválnostní náhoda“ a zdá se mu, že je to rozbité, že furt čeká a nikdy se nedočká. Pokud to dělají dobře, tak by to měl být jenom čistě subjektivní pocit. Akorát tím, jak je to blackbox, tak není úplně jistota, jestli to fakt dělají správně.

      Dám tam místo toho slova náhodně, že to vypadá nevyzpytatelně,a by to bylo jasný.

      Náhodou jsem sociologii na škole měl a vytvoření vzorku tak, aby byl co nejrelevantnější je docela věda, takže to, že by měl prostě jen být náhodný je dost velký zjednodušení. Někdy nemusí být náhodný vzorek optimálně relevantní, například když je u různých skupin z celé té populace různá pravděpodobnost, že se do toho vzorku dostanou. Zrovna u toho předvolebního průzkumu tohle platí docela dost, proto taky člověk nikdy dopředu neví, jak moc se trefí a chce to hodně zkušeností a knowhow, ale zase se se ty faktory pořád mění. Například u telefonního průzkumu se nedostaneš k lidem, na které není v nějakém telefonním seznamu číslo, nebo který nemají telefon. Když se ptáš na ulici, tak tam nebudou lidi, který všude jezdí všude autem nebo málo chodí ven. Voliči komunistů například aspoň dřív byli míň ochotní se k tomu přiznat (a průšvih je, jak nějak zohlednit různou ochotu různých lidí nakonec k těm volbám fakt jít a nezůstat doma).

      Tady u Steamu bych si tipnul, že by mohly být anomálie třeba takové, že u lidí s nejdražšíma kartama je větší šance, že odsouhlasí požadavek sdílet data. Podobně by to možná mohlo být u Linuxáků, kteří můžou mít větší entuziasmus a touhu „zviditelnit“ podíl svého OS. Samozřejmě, jak velké ty vlivy jsou, to netuším. Tipuju, že jestli něco, tak tam budou spíš jiné problémy, které by člověk tak snadno nepředvídal.

      • Tak tech problemu s vyberem relevantniho vzorku je jeste vic… staci se podivat napr.na to ze zastoupeni urcite znacky v ruznych zemich nebude stejne. Potazmo v nekterych zemich nemusi byt ani urcita znacka vubec. Tudiz pokud se bavime o ‚nahodnem vyberu‘ a ‚nahodne‘ to tam padne..tak ty data budou na pikacu. Coz je hezke videt ted na cine. Dalsi veci jsou pocty obyvatel dane zeme, kupni sila regionu, atd. To vse ovlivnuje jake data tam nameri. To jsou vsechno faktory, ktere by jejich model mel/musi zohlednovat..tady zadny ‚nahodny vyber‘ jak o tom nesmyslne placa Maudit nemuze fungovat. Protoze systematicka chyba takove vybrane mnoziny bude uplne mimo. Tudiz poku vybiraji ‚nahodne‘ bez nejakeho modelu, tak jsou ty data uplne na pikacu..

        • Tombomino opet uplne mimo 😃 je to globalni statistika, takze je fuk, jake je zastoupeni ceho v dane zemi. Navic ta statistika neni o tom, jaky maji grafiky potencial, tzn kdyby v dane zemi byly dostupne, kolik by si jich lidi koupili, co je fer a co je nefer. Je o realnych nakupech. Takze kdyz v nejake zemi produkt neni, vzorky reprezentuji realny stav.

          Sad AMD fans. Kdyby jsou chyby 😉

          • Jsem ti maudite napsal uz nekolikrat, ze jsi hlupak. A hlupakem jsi. Pokud by napr. V Cine neprodavali AMD a tvuj „nahodny vyber‘ spadne „nahodou“ do ciny, tak ta statistika bude uplne nesmyslna. Jsi hlupak, ktery ani nevi co sam pise. Jednou tvrdis, ze je to nahodny vyber a pak tvrdis, ze je to globalni statistika. Hlupaku, jak muze byt neco nahodny vyber a zaroven to bude globalni? Bud je vyber nahodny a pak ani nevis kam to pada a nebo neni. Nemuze byt ale oboji…
            Hloupy zustane hlupakem..

      • To je o dost lepsi. Jinak korelace velicin v datech, jako napr vetsi sance, ze se nekdo bude chtit pochlubit, kdyz ma drazsi kartu, se nedaji nijak jednoduse kvantifikovat. Rozhodne na tuhle konkretni nema vliv system vyberu. Soucasti dotazniku by musela byt otazka, proc se dany uzivatel zapojil a az potom by se provedla korekce vahy dane skupiny. Jenze opet, priznali by se takovi lide? Nastesti je to jedno, protoze to bude v obou pripadech tak male procento lidi, ze by to vysledek nemelo vyzname ovlivnit.