Statistika selhání SSD: věk je větší riziko než přepisy, běžné jsou vadné bloky

0

Otázka spolehlivosti úložišť a toho, jak bezpečně jsou na nich data uložena, je citlivá či rovnou kritická. Proto jsou velmi zajímavé výsledky studie „Flash Reliability in Production: The Expected and the Unexpected“, která se tento týden objevila na webu. Na materiálu spolupracovala University of Toronto a Google, a může se tak opřít o velkou statistiku spolehlivosti – respektive nespolehlivosti – SSD a HDD používaných v datacentrech.

Studie určená pro konferenci FAST 2016 obsahuje data pro deset různých modelů SSD, provozovaných po datacentrech po dobu přesahující šest let – za tuto dobu si v součtu „natočila“ miliony dnů provozu. Tato SSD používala jak dražší a nominálně spolehlivější NAND třídy enterprise (eMLC a SLC, které v každé buňce ukládají jen jeden bit a jsou tedy nejrobustnější), tak typy MLC určené pro obyčejný spotřebitelský trh. To umožnilo srovnat spolehlivost jednotlivých typů paměti. Disky ovšem byly na míru vyrobené, takže tato studie nezachycuje vlivy, které mají na běžně dostupná SSD jejich řadiče a firmware.

 

MLC jsou stejně dobré jako SLC

Studie přináší několik zajímavých ponaučení. Za prvé z ní vyplývá, že použitá drahá SSD s pamětí SLC nebyla o nic spolehlivější, než levnější disky s NAND typu MLC. Jinými slovy obecně nemá smysl na nich příliš lpět – ačkoliv je pravda, že z podstaty věci zde máme čísla pro starší disky, kdežto u novějších s pamětí vyráběnou na menších procesech by se teoreticky významnější odstup v kvalitě už objevit mohl.

SSD Novachips Scalar NS370 4 a 8 TB (Zdroj: The SSD Review)

 

Chyby u SSD přibývají časem

Druhé zjištění je docela překvapivé. Statistická data údajně ukazují, že SSD vykazují určité stárnutí s časem. Při použití v serverech během delší doby koreluje výskyt chyb dat v discích (tedy nikoliv selhání celého zařízení, ale situace, kdy z disku nelze úspěšně přečíst blok – obdoba špatného sektoru z HDD) se stářím disku, ale nikoliv s množstvím zápisu, který absolvoval. Studie zjistila, že výskyt chyb před aplikací korekčních mechanismů (raw bit error rate) neroste s opotřebováním tak, jak se očekávalo, a také nekoreluje s výskytem neopravitelných chyb čtení (uncorrectable bit error rate) a jiných selhání.

V studii použitá SSD údajně ani v případě MLC typů s uváděnou životností 3000 cyklů ještě za dobu provozu nevyčerpala životnost své NAND, takže toto zjištění nelze brát absolutně. Pokud byste provedli experiment s neustálým přepisováním, tak disk jednou zákonitě zničíte. Ovšem během normálního provozu v době, než se přepisovací životnost vyčerpá, podle ní platí, že výskyt chyb při čtení nestoupá s najetými gigabajty, ale s věkem. To znamená, že i na SSD, z kterého budete jen číst a maximálně omezovat výskyt zápisů, vám s ubíhajícími měsíci a roky statisticky stoupá šance, že nepřečtete nějaká uložená data. To také znamená, že u SSD je stejně jako u jiných úložišť nutno zálohovat, neboť data nemáte jistá.

Uvnitř PT910 je dvojice kompletních SSD zapojených do RAIDu

 

HDD častěji umře, u SSD ale spíš ztratíte data

Tento imperativ podtrhuje další zjištění studie, opět překvapivé. SSD mají podle této statistiky lepší spolehlivost než mechanické disky, pokud jde o kompletní selhání zařízení – tedy že disk umře a vůbec se k datům nebudete moci dostat, což u HDD může vedle selhání elektroniky, jež hrozí i u SSD, způsobit třeba havárie hlaviček či jiná mechanická porucha. Data z masového nasazení v datacentrech ale ukazují, že se u SSD častěji než u HDD vyskytují částečná selhání vedoucí k ztrátě dat – tedy ony nečitelné bloky (je tedy vyšší uncorrectable bit error rate). S mechanickým diskem je výskyt vadných sektorů méně častý, máte tedy větší šanci, že dokud disk funguje, přečtete z něho uložená data v pořádku.

Disk SecureDrives Autothysis se schopností fyzické autodestrukce

Statistika říká, že během prvních čtyř let provozu se u 30–80 % SSD objeví alespoň jeden vadný blok. U 2–7 % za tuto dobu odejde přímo jeden či více čipů NAND. Údajně je také poměrně časté, že mají SSD vadné bloky již z výroby. Statisticky také existuje souvislost mezi vyšším počtem vadných bloků a pravděpodobností dalšího selhání. Pokud je špatných bloků mnoho, je pravděpodobné, že se jich v budoucnu dále objeví velké množství, nebo že selže některý z čipů. Co se čísel pro výskyt neopravitelných chyb (uncorrectable bit error rate) týká, samotné specifikace disků dle výrobce podle studie ukazují jen teoretické hodnoty, které o praxi moc nevypovídají, a nemá smysl na ně hledět.

 

 

Zálohovat, zálohovat, zálohovat

Závěry této studie tedy kromě obecné poučky o důležitosti a nezastupitelnosti záloh naznačují, že nemá moc smysl trápit se kvůli nižší teoretické životnosti NAND typu MLC a potažmo asi ani TLC. Poznatek o vyšší pravděpodobnosti vadných sektorů u SSD je nepříjemný, doufejme, že se zde situace časem zlepší s příchodem pokročilejších technologií jako je nevolatilní paměť 3D Xpoint.

Zdroj: ZDNet