Reklama

Statistika selhání SSD: věk je větší riziko než přepisy, běžné jsou vadné bloky

Otázka spolehlivosti úložišť a toho, jak bezpečně jsou na nich data uložena, je citlivá či rovnou kritická. Proto jsou velmi zajímavé výsledky studie „Flash Reliability in Production: The Expected and the Unexpected“, která se tento týden objevila na webu. Na materiálu spolupracovala University of Toronto a Google, a může se tak opřít o velkou statistiku spolehlivosti – respektive nespolehlivosti – SSD a HDD používaných v datacentrech.

Studie určená pro konferenci FAST 2016 obsahuje data pro deset různých modelů SSD, provozovaných po datacentrech po dobu přesahující šest let – za tuto dobu si v součtu „natočila“ miliony dnů provozu. Tato SSD používala jak dražší a nominálně spolehlivější NAND třídy enterprise (eMLC a SLC, které v každé buňce ukládají jen jeden bit a jsou tedy nejrobustnější), tak typy MLC určené pro obyčejný spotřebitelský trh. To umožnilo srovnat spolehlivost jednotlivých typů paměti. Disky ovšem byly na míru vyrobené, takže tato studie nezachycuje vlivy, které mají na běžně dostupná SSD jejich řadiče a firmware.

 

MLC jsou stejně dobré jako SLC

Studie přináší několik zajímavých ponaučení. Za prvé z ní vyplývá, že použitá drahá SSD s pamětí SLC nebyla o nic spolehlivější, než levnější disky s NAND typu MLC. Jinými slovy obecně nemá smysl na nich příliš lpět – ačkoliv je pravda, že z podstaty věci zde máme čísla pro starší disky, kdežto u novějších s pamětí vyráběnou na menších procesech by se teoreticky významnější odstup v kvalitě už objevit mohl.

SSD Novachips Scalar NS370 4 a 8 TB (Zdroj: The SSD Review)

 

Chyby u SSD přibývají časem

Druhé zjištění je docela překvapivé. Statistická data údajně ukazují, že SSD vykazují určité stárnutí s časem. Při použití v serverech během delší doby koreluje výskyt chyb dat v discích (tedy nikoliv selhání celého zařízení, ale situace, kdy z disku nelze úspěšně přečíst blok – obdoba špatného sektoru z HDD) se stářím disku, ale nikoliv s množstvím zápisu, který absolvoval. Studie zjistila, že výskyt chyb před aplikací korekčních mechanismů (raw bit error rate) neroste s opotřebováním tak, jak se očekávalo, a také nekoreluje s výskytem neopravitelných chyb čtení (uncorrectable bit error rate) a jiných selhání.

V studii použitá SSD údajně ani v případě MLC typů s uváděnou životností 3000 cyklů ještě za dobu provozu nevyčerpala životnost své NAND, takže toto zjištění nelze brát absolutně. Pokud byste provedli experiment s neustálým přepisováním, tak disk jednou zákonitě zničíte. Ovšem během normálního provozu v době, než se přepisovací životnost vyčerpá, podle ní platí, že výskyt chyb při čtení nestoupá s najetými gigabajty, ale s věkem. To znamená, že i na SSD, z kterého budete jen číst a maximálně omezovat výskyt zápisů, vám s ubíhajícími měsíci a roky statisticky stoupá šance, že nepřečtete nějaká uložená data. To také znamená, že u SSD je stejně jako u jiných úložišť nutno zálohovat, neboť data nemáte jistá.

Uvnitř PT910 je dvojice kompletních SSD zapojených do RAIDu

 

HDD častěji umře, u SSD ale spíš ztratíte data

Tento imperativ podtrhuje další zjištění studie, opět překvapivé. SSD mají podle této statistiky lepší spolehlivost než mechanické disky, pokud jde o kompletní selhání zařízení – tedy že disk umře a vůbec se k datům nebudete moci dostat, což u HDD může vedle selhání elektroniky, jež hrozí i u SSD, způsobit třeba havárie hlaviček či jiná mechanická porucha. Data z masového nasazení v datacentrech ale ukazují, že se u SSD častěji než u HDD vyskytují částečná selhání vedoucí k ztrátě dat – tedy ony nečitelné bloky (je tedy vyšší uncorrectable bit error rate). S mechanickým diskem je výskyt vadných sektorů méně častý, máte tedy větší šanci, že dokud disk funguje, přečtete z něho uložená data v pořádku.

Disk SecureDrives Autothysis se schopností fyzické autodestrukce

Statistika říká, že během prvních čtyř let provozu se u 30–80 % SSD objeví alespoň jeden vadný blok. U 2–7 % za tuto dobu odejde přímo jeden či více čipů NAND. Údajně je také poměrně časté, že mají SSD vadné bloky již z výroby. Statisticky také existuje souvislost mezi vyšším počtem vadných bloků a pravděpodobností dalšího selhání. Pokud je špatných bloků mnoho, je pravděpodobné, že se jich v budoucnu dále objeví velké množství, nebo že selže některý z čipů. Co se čísel pro výskyt neopravitelných chyb (uncorrectable bit error rate) týká, samotné specifikace disků dle výrobce podle studie ukazují jen teoretické hodnoty, které o praxi moc nevypovídají, a nemá smysl na ně hledět.

 

 

Zálohovat, zálohovat, zálohovat

Závěry této studie tedy kromě obecné poučky o důležitosti a nezastupitelnosti záloh naznačují, že nemá moc smysl trápit se kvůli nižší teoretické životnosti NAND typu MLC a potažmo asi ani TLC. Poznatek o vyšší pravděpodobnosti vadných sektorů u SSD je nepříjemný, doufejme, že se zde situace časem zlepší s příchodem pokročilejších technologií jako je nevolatilní paměť 3D Xpoint.

Zdroj: ZDNet

Oblíbené Tisk E-mail
Reklama
Reklama

Komentáře

V clanku su nepresnosti(vlastne aj v zdroji ZDNET). Odporucam si precitat pdf so studiou

http://0b4af6cdc2f0c5998459-c0245c5c937c5dedcca3f1764ecc9b2f.r43.cf2.rac...

SSD z tej studie su vsetko custom riesenia cistujem
"The drives in our study are custom designed high perfor-
mance solid state drives, which are based on commodity
flash chips, but use a custom PCIe interface, firmware
and driver."
Len NAND flash chipy boli standardne a od 4 roznych vyrobcov. Takze nie SSD ale flash chipy boli standardne.

Takto studia ma nizku vypovedaciu hodnotu pre kazdeho okrem Googlu.
Priemerny pocet prepisov SSD bol velmi nizky. Nemali ziadne SSD,ktore by zhavarovalo na pocet prepisov.
Oni uobili zaver, ze MLC su rovnako spolahlive ako SLC, co je blud.

Dík za link (a komentář). Změnil jsem podle toho ten druhý odstavec.

Diky za clanek, velmi zajimave informace!

Ale muzu poprosit o par oprav? "dokatujete" -- to je prosim Vas co?, dale prebyvajici "je" v "HDD častěji umře, u SSD je ale spíš ztratíte data", dale "Studie určená pro konferenci FAST 2016 obsahuje data pro deset různých modelů SSD, provozovaných po datacentrech celkově déle než šest let – za tuto dobu si „natočily“ miliony dnů provozu." -- tady je nejaka logicka chyba ne? Jak muze disk bezici i dele nez 6 let natocit miliony dnu provozu?

Díky za upozornění. Ty miliony dnů se týkají více disků v součtu, něco jako tzv. "člověkoroky".

Taky mě to "dokatovat" prásklo do očí. Předpokládám, že základ tohoto slovesa nebude od podstatného jména "kat"......

Ja jsem prave na pochybach jestli je to od "kat" a nebo od "cat" (Unix program) coz clovek muze cist jak "kat". Vtip je v tom, ze "cat" se pouziva na vylistovani obsahu souboru na obrazovku (vesmes), ale pri presmerovani do souboru muze byt pouzit i k autorem zminovane destrukci disku (treba na Linuxu):
$ cat /dev/urandom > /dev/disk
to cele bezici v nejake smycce. Problem je v tom, ze cat je v tomto pripade zoufale neefektivni a bylo by lepsi pouzit "dd", takze pokud je to v tomto vyznamu pak "doddckovat" (s hackem nad "c"). Cili pro neefektivnost pouziti cat ja bych se priklanel spise k tomu, ze autor tento novotvar odvodil od podstatneho jmena "kat", cili cloveka vykonavajiciho finalni exekuci odsouzeneho. :-)
Vazeny autore, vnesete do tohoto zmateni trosku svetla? Diky!

Dokatovat/dokatovaný by asi mělo být od "kat" (popravčí). Hmm, to jsem překvapen, nevěděl jsem, že se to tak málo používá. Že by to byl slovakismus a říká se to jenom u nás v rodině?

Asi jo, nenašel mi to ani google. ;-) Má to být něco jako "dokaličiť"?

Aha, tak ze Slovenska vitr vane. :-) Myslim, ze jsem za zivot precetl uz dost, ale s timto vyrazem ve vasem textu jsem se setkal poprve, takze bych se priklanel k tom, ze se opravdu moc nepouziva.

dokatovany pouzivame v dvoch vyznamoch, aj v tom fyzickom zniceni, aj ked je clovek namol(ožratý na minďár)

A není ta časová úmrtnost kvůli RoHS? Pájky sou strašný, a i když existuje něco stabilního, tak ta srajda je levnější a pro výrobce jasná volba, i když na jednom disku ušetří centy, tak při nákupu to mohou být miliony, bohužel ten kdo takhle rozhoduje vidí jen pěkné číslo při nákupu a na kusy si to nerozpočítá, aby pochopil, že to za to nestojí. Záruku to přežije tak co. Na záznamová zařízení by měla platit přísnější pravidla, data sou cenná a disk by rozhodně neměl být spotřební zboží, kde se koupí jiný a není co řešit. Pomalu se dostáváme do situace, kdy bude potřeba dělat zálohy záloh, protože spolehlivost záloh bude taky mizerná.