Reklama

Trocha statistiky: Jak dlouho vydrží pevný disk v online provozu?

Na blogu společnosti Backblaze se objevil zajímavý článek, který poodhaluje chybovost pevných disků. Společnost si vede vlastní statistiku čtvrtým rokem, data jsou sbírána z celkem 25 000 pevných disků, které společnost využívá ve svém cloudovém úložišti (pro představu, aktuálně má firma k dispozici 75 PB v cloudu).

Možná jste právě mávnuli rukou se slovy, že „stejně tam mají nějaké RAID edice, to mi vůbec nepomůže“. Opak je pravdou, společnost ve svých datových úložištích používá zcela standardní pevné disky. Důvod je poměrně směšný – v době, kdy továrny v Thajsku nebyly schopny dodávat disky ve velkém množství, zaměstnanci z Backblaze objížděli obchůdky a skupovali nejen interní, ale i externí disky (které pak museli vypreparovat).

 

Chybovost zařízení je dána především třemi faktory – chyba z výroby, náhodná chyba a chyba z opotřebení. Zatímco chyba z výroby se projeví ve většině případů hned na začátku, chyba z opotřebení až po určitém čase (a postupně se šance chyby zvyšuje). Náhodné chyby lze považovat za určitou konstantu a objevují se po celou dobu.

 

Dá se tak předpokládat, že chybovost bude vyšší na začátku nasazení, pak se sníží a po určitém čase začne zase růst. A přesně ke stejnému výsledku došli i v Backblaze. Během prvního roku a půl byla chybovost 5,1 %, další rok a půl ale byla jen 1,4 %. Po třech letech online provozu se chybovost zvedla na 11,8 % (a patrně bude dále stoupat).

Výhled do budoucna

Společnost poskytla statistiku za první 4 roky, slíbila však, že bude výsledky průběžně zveřejňovat i dále. Pomocí interpolace výsledku však předpokládá, že by se 6 let v ostrém provozu mohlo dožít až 50 % disků.

 

Pokud je to pravda, rozhodně to není špatné. Zkuste vzít v úvahu, že na RAID Edition poskytuje pětiletou záruku, cena je však výrazně vyšší (oproti spotřebním diskům). Teoreticky vzato se provoz obyčejných disků v datacentrech vyplatí. Pokud ovládáte anglický jazyk, opravdu doporučuji si přečíst celý článek (viz zdroj).

Zdroj: blog.backblaze.com

Oblíbené Tisk E-mail
Další články na téma: 
Reklama

Komentáře

Jako statistika je to krásná což o to ale má jednu zásadní chybu. Není zde vůbec patrná zátěž disků. Je to jako udělat statistiku poruchovosti auta v závislosti na čase bez toho aby jste uvedli kolik má najeto nebo jaké trasy jezdí. Z uvedené poruchovosti nezbývá než odhadovat že tyto disky jsou nasazeny pod velice malou zátěží odpovídající domácímu provozu, protože podle těch jejich grafů vám disk umře nejpravděpodobněji kdykoliv (:. Moje zkušenost je taková, že disky ve vysoce zatížených fileserverech, kde pracují na hranici svých sil umřou buď do 14dnů a nebo vůbec...

Stačí si pořádně přečíst aktualitu (že nakupují standardní spotřebitelské disky) a zjistit si, co je předmětem jejich podnikání. Podle toho soudím, že ta zátěž bude hodně nízká, čili prakticky srovnatelná s desktopovým PC, jen s tím rozdílem, že jejich disky nejspíš jedou 24/7 a nemají tak prakticky žádné start/stop cykly (i když kdo ví, třeba to mají nějak vyřešené, že disky uspávají, když zrovna data na nich nikdo nepotřebuje číst).

Tím chceš říct, že když auto bude celý rok jen nastartované, aniž by najelo byť třeba jediný kilometr, tak se mu vlastně nemůže nic stát?

BTW. Ve vysoce zatížených serverech asi těžko budeš hledat kdejaký disk z externího rámečku, co byl zrovna na trhu.

Ano, přesně to jsem tím chtěl říct. Je rozdíl jestli bude auto stát jen v garáži, nebo bude jen stát nastartované, nebo najede 50t km jen po městě a nebo 50t km jen po dálnici.

Ono taky záleží na tom jaké disky to jsou. Staré U320 SCSI jsou prakticky nesmrtelné, stačí se podívat i na jejich konstrukci, to je jednoduše heavymetal (mám tu kusy staré přes 13 let, které jedou 24/7 a fungují dodnes). Pak tu jsou disky "střední generace" tj. před nástupem PMR. Tam se už šetřilo na materiálech, ale disky většinou zvládnou běžet těch cca 6 let s tím, že se čas od času objeví vadný blok. No a poslední štace jsou moderní vysokokapacitní disky s PMR (a jeho variacemi) - tam bych to viděl na cca 4 roky. I SAS disky jsou dnes v podstatě už klasické SATA jen s jinou deskou. (pokud se nebavíme o 15K honoraci)

Subjektivně na fileserverové použití jím to ze startu umírá příliš laksně a na domácí použití zase celkově příliš rychle.
Řekl bych že nejlepší vypovídací hodnotu má tahle statistika pro člověka, který provozuje cloudové úložiště a v něm 25.000 disků nakoupených v roce 2009. Pro takového člověka má tato statistika celkem dobrou vypovídací hodnotu... no teda za předpokladu že traffic by měl ten člověk stejný jako ten Backlbaze.

Předpokládám, že ty disky nakupovali průběžně podle toho, jakou kapacitu potřebovali, ne že v roce 2009 jich nakoupili celej vagon a od té doby počítali statistiku.

Jo,je to tak, jak říkáš. Však i v poslední větě lákám čtenáře, aby si přečetli zdroj, je tam dost zajímavých informací.

Osodně by mě zajímalo, jestli si vedou i statistiky typu zaznamenaných poruch. V jejich článku jsem se nikde nedověděl, "naco a jak ty disky umřely". Jak vůbec definují pojem "disk failure", jeho charakteristiku, rozsah nebo jeho zvětšování? 

Ono to je v podstatě jedno; v typickém raid poli je úplně fuk, jestli ten disk umřel úplně (třeba tak, že tluče hlavičkami o zarážky), nebo jen "softly" (typicky nečitelné bloky, které lze v 50% případů "opravit" firemní ulititou) - tak jako tak ten disk je z pole vyhozen a už není radno mu věřit. Jde-li o data, existuje pouze binární logika: funkční/nefunkční :-)

Reklama
Reklama