Hlavní navigace

Pozor, servery HPE měly kazítko v SSD. Kvůli chybě disky přesně po 3 a ¾ roku umřou

28. 11. 2019

Sdílet

Občas se v nadsázce mluví o tom, že ve výrobcích bývají „kazítka“, což jsou součástky, které mají za cíl věc rozbít, ideálně po konci záruky. Mimo oblast konspiračních teorií se teď taková funkce nedopatřením dostala do některých SSD, které prodává HP, ovšem nejde o zlý úmysl, ale o nechtěné programátorské selhání na straně výrobce těchto disků. To má bohužel za následek, že všechny tyto disky umřou přesně po uběhnutí tří let a 270 dní. HP proto nyní upozorňuje zákazníky, že musí updatovat jejich firmware, jinak přijdou o data, ale současně i o hardware. Informace o této trapné chybě jsou spojovány s HP – přesněji s jeho enterprise sourozencem HPE, která chybu oznámilo v bulletinu. Nicméně podle jeho textu jde o SSD jiného výrobce, které HPE dodává v serverech, ale asi přímo nevyrábí a snad ani nevyvíjí onen firmware. Jedná se o SSD pro rozhraní SAS, takže typicky nebude hrozit, že by se vám schovávala v běžném PC. Pokud ovšem používáte servery HPE, dejte si dobrý pozor.

Selhání pravděpodobně kvůli použití krátkého integeru

Chyba firmwaru způsobuje, že SSD přestane fungovat poté, co absolvuje 32 768 hodin provozu, což jsou ony 3 roky, 270 dní a 8 hodin. Patrně totiž je pro nějakou proměnnou spojenou s dobou běhu použitý takto omezený datový typ (16bitový integer se znaménkem má rozsah jen minus 32768 až plus 32767) místo vhodnějšího většího a firmware se není schopen vypořádat s tím, když proměnná přeteče. SSD se poté nevratně „brickne“ a nelze ho už probrat k životu, což kromě jeho odepsání způsobí také ztrátu dat.

Chyba HP SAS SSD postizene platformy Chyba HP SAS SSD: postižené platformy

Vypečené je to obzvlášť, pokud se proti takovým problémům chráníte polem RAID. Je totiž hodně pravděpodobné, že disky jsou v něm stejně staré a běží prakticky stejně dlouhou dobu, takže na tuto chybu pak zdechnou všechny najednou bez možnosti špatné kusy včas nahradit a pole rebuildem zachránit. HPE proto před selháním celého pole zvlášť varuje.

KL24

Chybou postižená SSD byla dodávána v serverech i storage řešeních HPE. Firma uvádí, že postižené mohou být řady HPE ProLiant, Synergy, Apollo, JBOD D3xxx, D6xxx, D8xxx, MSA, StoreVirtual 4335 a StoreVirtual 3200, pokud jsou v nich nainstalovaná ona SAS úložiště. V tomto dokumentu je tabulka disků, kterých se to týká, a také níže seznam serverů a produktů, které mohou být postižené (případně viz screenshot v galerii). Různá postižená SSD mají kapacitu od 400 až po 15,3 TB.

HP SAS SSD HP SAS SSD

Je třeba aktualizovat firmware na verzi HPD8

Postižená SSD je třeba bezpodmínečně aktualizovat na opravený firmware verze HPD8, jelikož selhání je plně deterministické a jinak postihne zcela všechny exempláře. Tento firmware je pro část disků dostupný od 22. listopadu (novembra), u části disků, které byly vyrobeny později a tedy k selhání ještě tak brzy nedojde, má oprava vyjít kolem okolo 9. prosince (decembra). Mimochodem, webu The Register HP uvedlo, že se od výrobce SSD o chybě dozvědělo 15. listopadu, takže reakce je zřejmě docela rychlá.

Galerie: Chyba v SAS SSD serverů HPE

Byl pro vás článek přínosný?