Mam stroj se 144GB DDR3, 18x8GB, aktualne uptime 1200 dni.
Udelal za svoji historii (12? let) 1+mnoho ECC chyb podle iLO.
Ta jedna byla opravena a nahodna. Vsechny ostatni byly zpusobeny vadnym modulem.
Rika se, ze je to radove jedna chyba tydne. U konzervativne taktovaneho serveru to ale muze byt klidne jedna chyba za deset let, rika moje zkusenost.
Ale eviduji to jen u tohohle jednoho stroje, byla to kdysi moje srdcovka (tenhle kousek).
Jinak jsem se setkal treba s vadnou L2 cache u Opteronu, na kterou prislo taky ECC.
A vtipna byla hlaska tusim Debianu, neco jako Bad ECC checksum, little confused, trying to continue. VMWare na stejnou situaci reaguje okamzitym rebootem. Predpokladam, ze to bude otazka configu jadra.
Jo a protoze jsem uz nejake problemy zpusobene vadnou pameti zazil, dvakrat jsem kvuli tomu pracoval nekolik dni v kuse a zachranoval data po silent data corruption buhvi odkud, tak chci ECC vsude. Kdyby to slo, mam ho i v chytrych hodinkach.
Takova ta tvrzeni, ze ZFS nepotrebuje ECC jsou sice hezka, ale pamet je smesne levna. Teda byvala :-D (mam nakoupeno, tak se mi to smeje...)
Kdo to nezazil, jake to je, nema tuseni...
16. 3. 2026, 18:17 editováno autorem komentáře
tak... ZFS opravdu ECC ke svému fungování nepotřebuje. Dokonce ti i bez ECC řekne, že máš poškozená data - jen to je jaksi (často) už pozdě.
Samozřejmě by bylo super mít desku s podporou ECC a odpovídající RAMky, jenže to jsme s cenou (při zachování určité modernity a nežravosti celého řešení) už docela jinde. Na doma to prostě člověk riskne.
Ty kontrolní součty u ZFS (nebo ReFS) přijdou na to, když se data pokazila během svého uložení na HDD nebo SSD, takže ta formulace, že to ZFS "řekne", mi nepřijde úplně vhodná. Je to vlastně ortogonální k problému ECC u pamětí a nijak s ním nepomůže. Ideálně bychom měli oboje - aby ECC paměti chránily data (přičemž teda nejdůležitější asi je hlavně vědět o tom poškození, případná oprava bit flipu už je luxus navíc) a checksumy ve filesystemu hlídaly poškození na jeho úrovni. Teoreticky jsou asi důležité o něco méně, protože HDD i SSD mají svoje vlastní ECC ochrany na úrovni hardwaru (a na lepší úrovni, než je třeba ta on package ecc v DDR5, protože když selže ECC u SSD nebo HDD při čtení sektoru, tak to zařve chybu místo aby to potichu dodalo poškozená data).
Pokud vám dělá RAM chyby, tak změní data a ta se uloží chybně na ZFS, které si k jejich pokažené verzi vesele udělá kontrolní součet a pak bude pořád tvrdit, že je všechno v pořádku, protože součet sedí. Když data nahraju do RAM a něco tam změním, tak jsem zase vydán na milost a nemilost spolehlivosti RAM a ZFS mi vůbec nepomůže, protože ochrana checksumem skončí v momentě, kdy ten soubor načtu a změním a znovu začne hrát úlohu až po zápisu z RAM do FS. Jenže to už zase můžou být poškozená data a bez ECC na operační paměti prostě nemám jistotu.
Cena ECC RAM je podobná non-ECC. Cca rok a půl zpátky jsem kupoval 2x 32GB Kingston DDR4-3200 ECC unbuffered a stály mě dohromady 5000 Kč. Horší je to s deskami, politika Intelu je, že ECC RAM podporují pouze čipsety řad Cxxx a Wxxx, což nejsou zrovna levné modely. AMD je na tom lépe, tam je podpora v každém CPU a na čipsetu nezáleží, ale protože podpora není garantovaná, je potřeba hledat vhodnou desku.