Intelu zase degradují čipy. Kvůli chybě mohou 22nm a 14nm Atomy časem přestat fungovat

Intelu se opět vrátil chyba s pomalu degradujícím křemíkem. Po odumírajících Atomech C2000 je tato časovaná bomba i v čipech Bay Trail a Apollo Lake.

16

Pokud čtete diskuse pod články, tak už asi víte, že Intel má zřejmě na krku další problém podobný loňskému případu fyzicky degradujících Atomů C2000 (jinak také známých jako „Avoton“), který si tehdy vynutil výměny čipů, jež po 2–3 letech provozu přestávaly fungovat. Náš čtenář Eagle_registered totiž právě v komentářích upozornil, že podobná chyba se jako erratum objevila v dokumentaci Atomů Bay Trail a dalších (děkujeme za tip!). Kromě primárně postižených embedded verzí se to asi bohužel týká i velkého množství mobilních a desktopových procesorů, které možná také používáte.

Problém je zdá se podobný jako u Avotonu – používání některých sběrnic tato rozhraní opotřebovává, až nakonec přestanou fungovat, což může způsobit, že postižený počítač už nespustíte, případně přestane běžet, pokud je spuštěn nepřetržitě. V dokumentaci pro embedded verzi čipu Bay Trail (rodinu Atom E3800) se tento problém objevil ve formě errata označených VLI89 a VLI90, přičemž popis chyby VLI89 dí „Systém může přestat bootovat nebo přestat fungovat“.

Důvodem je zřejmě degradace PHY několika sběrnic, ke které dochází při častém používání v průběhu několika let. Pomalé poškozování se týká obvodů pro rozhraní LPC, USB a SDIO a může vést k nerozpoznání USB zařízení na sběrnici nebo připojených SD karet, které může embedded zařízení mít jako nezbytné periférie. LPC je zase potřebné k základnímu chodu a naběhnutí systému. LPC se týká i druhé erratum VLI90, u nějž ale není úplně jasné, zda jde také o projev stejné degradace čipu.

Errata procesory Bay Trail související s postupnou fyzickou degradací čipu
Errata procesory Bay Trail související s postupnou fyzickou degradací čipu

Pro embedded zařízení s non-stop provozem je tato chyba hodně závažná a Intel čipy opraví vyrobením nového steppingu D1. V existujících embedded zařízeních (Atom E3800 by mohl být například i v některých autech) by to ovšem znamenalo výměnu celé desky, protože tyto SoC jsou typu BGA. Kromě toho popis errata VLI89 sděluje, že by mohla být možná nějaká softwarová protiopatření realizovaná updatem firmwaru, která by zřejmě spočívala ve vypínání těchto sběrnic v nečinnosti, aby se „stárnutí“ zpomalilo.

Celeron N2820 (Bay Trail-M) na základní desce mini počítače NUC (Zdroj: ComputerBase)
Celeron N2820 (Bay Trail-M) na základní desce mini počítače NUC (Zdroj: ComputerBase)

Problém mají asi latentně všechny Bay Traily, včetně mobilních a desktopových

Intel podotýká, že se u Bay Trailů tato chyba zřejmě ještě neprojevila konkrétními selháními v poli a eventuální nástup problému byl prý zatím potvrzen jen simulací. Systémy s čipy Bay Trail tedy zatím ještě asi nějakou životnost před sebou mají. Co je naopak nepříjemné, že průmyslový/embeded Atom E3800 je stejným křemíkem, jako jsou Atomy Bay Trail v tabletech nebo Celerony a Pentia v noteboocích či Mini-ITX deskách a minipočítačích. Těch Intel v době, kdy se snažil konkurovat ARM zařízením s Androidem prodal docela velké množství.

Alespoň teoreticky se pravděpodobně časovaná bomba týká i těchto spotřebitelských produktů, které ale asi s žádnými výměnami či opravami počítat nemohou. Nevíme, zda bude vyroben nový stepping běžných ne-embedded Bay Trail (Intel má zřejmě už dokumentaci i pro Pentia a Celerony řady J a N, ale je pod NDA). Dotčená zařízení už ale asi stejně obvykle nejsou podporována výrobcem, takže by maximálně byl aktualizován hardware, který se nyní ještě stále vyrábí. Pokud máte nějaký tablet nebo notebook s takovým čipem, nezbývá než doufat, že se u nich chyba nestihne v nějakém rozumném čase projevit, jelikož nejsou používány non-stop. Otázka je, zda na degradaci nenarazíte třeba u domácího serveru založeného na těchto čipech (například Celeronu J1900). Pokud potřebujete vědět, které všechny procesory Intelu jsou na křemíku Bay Trail založené, poslouží vám tento seznam v databázi ARK.

Snímek čipu Bay Trail
Snímek čipu Bay Trail

Chyba v návrhu je i u 14nm čipů Apollo Lake

Problematický fyzický návrh sběrnice se už objevil ve dvou čipech (Avoton a Bay Trail) a zdá se, že před jeho odhalením se mohl dostat i do dalších procesorů či čipsetů. Podle dokumentů Intelu má stejný průšvih (erratum APL46) také už 14nm čip Apollo Lake s architekturou Goldmont, u nějž lze nalézt erratum podobné chybě VLI90 (u předchozího 14nm Cherry Trailu a Braswellu ještě nevíme, ale problém by logicky mohly mít také).

Erratum související s postupnou fyzickou degradací čipu pro změnu u 14nm čipů Apollo Lake
Erratum související s postupnou fyzickou degradací čipu pro změnu u 14nm čipů Apollo Lake

Je také docela pravděpodobné, že chyba byla i v původním návrhu nových serverových Atomů Centerton. Jejich příchod na trh se totiž hodně zpozdil proti očekávání a je celkem logické vysvětlení, že je Intel pozdržel proto, aby degradaci odstranil novou revizí. Vzhledem k době vydání by už také měly být bezpečné nové SoC Gemini Lake s architekturou Goldmont+.

Tato chyba by podobně jako problém Avotonu mohla mít určitý dopad na finance Intelu, pokud bude nucen některé čipy vyměňovat nebo platit kompenzace embedded klientům. Nicméně vzhledem k vysoké ziskovosti firmy by nemělo jít o nějak drastické náklady a případné výměny se pravděpodobně dotknou jen menšiny vyrobené produkce.

Intelu zase degradují čipy. Kvůli chybě mohou 22nm a 14nm Atomy časem přestat fungovat

Ohodnoťte tento článek!
4.4 (88.13%) 32 hlas/ů

16 KOMENTÁŘE

  1. Dopady jsou zhruba následující.

    LPC:
    LPC sběrnice se u Atomů C2000 začala porouchávat po 18 měsících (non-stop) provozu s tím, že po 36 měsících se poruchovost zvýšila. Pokud by to bylo ekvivalentní době provozu, bude to kritické zejména pro trvale zapnutý tablet nebo malý domácí server. Desktopy se při normální utilizaci cca 8 hodin denně dožijí kolem 5 až 10 let.

    Ona softwarová mitigace spočívá v nějaké funkcionalitě „LPC_CLKRUN#“, která má omezovat využití LPC. Dále je nutné nastavit režim Serial IRQ Mode na Quiet a nikoli na Continuous. Takové nastavení ale dělá někdy problémy, ne všechno pak musí dobře fungovat a některé systémy s tím patrně nejsou kompatibilní vůbec. Tímto se degradace pouze omezuje, ale nikoli vylučuje, poškozování obvodů tedy dále pokračuje.

    USB:
    Zátěž by se měla držet na maximálně 10 %. Každý port by měl mít životnost 50TB. To je asi na běžné situace dostačující, problém může nastat v okamžiku, kdy se USB používá permanentně – např. je do něj vloženo nějaké zařízení typu přídavná WiFi karta nebo nějaký čip na desce.

    SD Card sběrnice:
    Tady je doporučeno nepoužívat SD kartu jako bootovací medium a vyndávat kartu v případě, že je nepoužívána. To bude problém zejména pro IoT stroje a tablety s malou vnitřní kapacitou flash.

    Celerony a Pentia Bay Trail jsou postiženy také, ale Intel to „vyřešil“ tak, že ve standardní dokumentaci – Specification Update o problému není ani písmeno:
    https://www.intel.com/content/dam/www/public/us/en/documents/specification-updates/pentium-n3520-j2850-celeron-n2920-n2820-n2815-n2806-j1850-j1750-spec-update.pdf

    Nicméně existuje obtížně dohledatelné separátní Specification Update pro ty stejné procesory s názvem „for Internet of Things Platforms“, ve kterém je uvedena jediná chyba a to právě tato:
    https://www.intel.com/content/dam/www/public/us/en/documents/specification-updates/Celeron-J1900-N2807-N2930-IoT-SU-Addendum.pdf

    Celkově lze říct, že architektura má od základu chybně navržené I/O obvody, u Atomu C2000 se to pouze projevilo jako u prvního, protože byl uveden jako jeden z prvních (desky už v Q4 2013) a běží nejdelší dobu (typicky non-stop). Intel se samozřejmě snaží nedávat rozsah problémů moc najevo, protože jenom Cisco stálo fiasko s Atomem C2000 125 milionů dolarů a tady se přitom bavíme o desítkách až stovkách milionů kusů vadných CPU (Intel kvartálně prodá asi 100 milionů CPU a tyto procesory se prodávaly vadné zhruba tři až čtyři roky).

  2. Tak to je pro mě nepříjemné zjištění. Asus tablet s Bay Trail mi už jednou zdechl zhruba po roce používání, vypl se a byl úplně mrtvý, od reklamace (výměna Mobo) jsem tablet již moc nepoužíval, za to dva Prestigio tablety s Rockchipem mám už hromady let a bez problému (každý používám k něčemu jinému).

    Vážně mě už unavuje, že jakákoliv elektronika, kterou koupím, je prostě laciná sračka s účelem zdechnout co nejdřív po záruce. Neustále jen něco reklamuji a po záruce nahrazuji novými, neustále prachy létají do hajzlu a ho*no z toho. Proto za měsíc pořídím Ladu 2101 z roku 1973 a veškerá moderní elektronika mi může akorát políbit zadek.

    • Athlon 200GE by bol v pohode, len problém je že od prvej správy ubehli dva mesiace a stále nič, žiadny produkt na trhu. 14nm výroba má očividne dobrú výťažnosť keď sa nevie nazbierať dostatok 2C zmätkov z Raven Ridge. Preto si myslím že by sa oplatilo zainvestovať do nového kremíka 2C4T + 4-6CU, 2MB L3, 1-2x64b MemCh, náklady na masky a ostatné veci okolo by mali byť tým nižšie čím menší je výsledný kremík a toto by bol krpec s cca 100mm2. Ale možno si v AMD povedali že sa im už neoplatí investovať do ďalšieho DIE na ZEN1 (prípadne ZEN1+) a odložili to až pre ZEN2 na 7nm. Ale zase či sa to oplatí na 7nm, to by to DIE malo už len do 60mm2, ďalej s novým nedoladeným 7nm procesom by o zmätky z obdoby raven ridgu nebola núdza a na koniec sa ešte stále nedostalo von z AMD aká bude forma CCX, či ostanú na 4C alebo sa prejde na 3C alebo 6C nebodaj 8C. Každopádne by som bral ako + ak by v každom kremíku bolo integrované GPU aj keď len s fyzicky 2CU, ako základná záloha by to bolo fajn.

  3. Dopr …
    Zrovna jsem chtěl stavit malý NAS na N5005 (což je sice nová generace, ale furt založená na Apolo 14nm).
    + Rok zpátky mi prošlo rukama 500+ tabletů s Atomy, několik NAS a notebooků, které s tímto SOC běží …

    A já ty Atomy měl tak rád 🙁
    Žádný ekvivalent od konkurence ani neexistuje, protože AMD od Beema blbě plká, ale u plkání to vždy zatím zůstalo.
    Když by alespoň ty čipy, co by měly být v SmachZ, vypustily ven, ale ne to je AMD …
    Super situace si vybrat mezi něčím, co se za 2-3 roky možná vysype a něčím, co reálně neexistuje.

    • J5005 je už Gemini Lake, ten by snad už měl být v pořádku. V tom Smachu jsou embedded BGA čipy, IIRC? Ty se holt ven pustit nedají, jestli se objeví v deskách/zařízeních, to záleží na tom, jestli je výrobci těch zařízení použijou. Ty 28nm APU jsou v nějakých NASech, ale moc časté to asi není. Tablety s těma malýma APU kdysi byly… asi dva.

      • Pokud se nepletu, ten tablet s AMD APU byl nakonec jen jeden – jeden reálný produkt a druhý pouze prototyp, který nikdy nespatřil produkci 🙁
        Já doufám, že Gemini už bude ok, ale furt je to velice podobná architektura – pokud se nepletu něco jako „jen“ refresh Apola.
        Raději počkám na nějaké bližší informace.

        S tím BGA je to pravda, ale i Atomy cpou do základních desek, které lze „běžně“ koupit (Asrock, Asus apod.).
        Fakt bych rád konečně viděl AMD řešení na trhu, ale čekat na něj nebudu, to už mne popravdě za ty roky omrzelo.

        https://youtu.be/KmdNvD0QfJY

        • Architektura je to paradoxně nová (myslím jádro CPU, ačkoliv se jmenuje Goldmont+, je to spíš upgrade na úrovni pln= nové generace). Tohle je ale problém I/O, které není závislé na jádru CPU. Důležité asi je, že čip šel na trh až v době, kdy o tom věděli a pravděpodobně to už má opravené jako ten Denverton – nebo aspoň teda to tak zatím vypadá.

          • Moc díky za info. Mrknu ještě na to.
            Fakt mě ten malý, domací server táhne + generační skok od Apolo nevypadá špatně. Dokonce je už Gemini asi na úrovni CoreM, který mám v netbooku od Xiaomi … docela aby mě samotného zajímalo srování.
            Válí se mi tu dva SSD disky, licence na Windows, takže by mě chybělo jen dokoupit 2x DDR4 RAM … asi to toho půjdu, for science! 😉