
Pokud čtete diskuse pod články, tak už asi víte, že Intel má zřejmě na krku další problém podobný loňskému případu fyzicky degradujících Atomů C2000 (jinak také známých jako „Avoton“), který si tehdy vynutil výměny čipů, jež po 2–3 letech provozu přestávaly fungovat. Náš čtenář Eagle_registered totiž právě v komentářích upozornil, že podobná chyba se jako erratum objevila v dokumentaci Atomů Bay Trail a dalších (děkujeme za tip!). Kromě primárně postižených embedded verzí se to asi bohužel týká i velkého množství mobilních a desktopových procesorů, které možná také používáte.
Problém je zdá se podobný jako u Avotonu – používání některých sběrnic tato rozhraní opotřebovává, až nakonec přestanou fungovat, což může způsobit, že postižený počítač už nespustíte, případně přestane běžet, pokud je spuštěn nepřetržitě. V dokumentaci pro embedded verzi čipu Bay Trail (rodinu Atom E3800) se tento problém objevil ve formě errata označených VLI89 a VLI90, přičemž popis chyby VLI89 dí „Systém může přestat bootovat nebo přestat fungovat“.
Důvodem je zřejmě degradace PHY několika sběrnic, ke které dochází při častém používání v průběhu několika let. Pomalé poškozování se týká obvodů pro rozhraní LPC, USB a SDIO a může vést k nerozpoznání USB zařízení na sběrnici nebo připojených SD karet, které může embedded zařízení mít jako nezbytné periférie. LPC je zase potřebné k základnímu chodu a naběhnutí systému. LPC se týká i druhé erratum VLI90, u nějž ale není úplně jasné, zda jde také o projev stejné degradace čipu.

Pro embedded zařízení s non-stop provozem je tato chyba hodně závažná a Intel čipy opraví vyrobením nového steppingu D1. V existujících embedded zařízeních (Atom E3800 by mohl být například i v některých autech) by to ovšem znamenalo výměnu celé desky, protože tyto SoC jsou typu BGA. Kromě toho popis errata VLI89 sděluje, že by mohla být možná nějaká softwarová protiopatření realizovaná updatem firmwaru, která by zřejmě spočívala ve vypínání těchto sběrnic v nečinnosti, aby se „stárnutí“ zpomalilo.

Problém mají asi latentně všechny Bay Traily, včetně mobilních a desktopových
Intel podotýká, že se u Bay Trailů tato chyba zřejmě ještě neprojevila konkrétními selháními v poli a eventuální nástup problému byl prý zatím potvrzen jen simulací. Systémy s čipy Bay Trail tedy zatím ještě asi nějakou životnost před sebou mají. Co je naopak nepříjemné, že průmyslový/embeded Atom E3800 je stejným křemíkem, jako jsou Atomy Bay Trail v tabletech nebo Celerony a Pentia v noteboocích či Mini-ITX deskách a minipočítačích. Těch Intel v době, kdy se snažil konkurovat ARM zařízením s Androidem prodal docela velké množství.
Alespoň teoreticky se pravděpodobně časovaná bomba týká i těchto spotřebitelských produktů, které ale asi s žádnými výměnami či opravami počítat nemohou. Nevíme, zda bude vyroben nový stepping běžných ne-embedded Bay Trail (Intel má zřejmě už dokumentaci i pro Pentia a Celerony řady J a N, ale je pod NDA). Dotčená zařízení už ale asi stejně obvykle nejsou podporována výrobcem, takže by maximálně byl aktualizován hardware, který se nyní ještě stále vyrábí. Pokud máte nějaký tablet nebo notebook s takovým čipem, nezbývá než doufat, že se u nich chyba nestihne v nějakém rozumném čase projevit, jelikož nejsou používány non-stop. Otázka je, zda na degradaci nenarazíte třeba u domácího serveru založeného na těchto čipech (například Celeronu J1900). Pokud potřebujete vědět, které všechny procesory Intelu jsou na křemíku Bay Trail založené, poslouží vám tento seznam v databázi ARK.

Chyba v návrhu je i u 14nm čipů Apollo Lake
Problematický fyzický návrh sběrnice se už objevil ve dvou čipech (Avoton a Bay Trail) a zdá se, že před jeho odhalením se mohl dostat i do dalších procesorů či čipsetů. Podle dokumentů Intelu má stejný průšvih (erratum APL46) také už 14nm čip Apollo Lake s architekturou Goldmont, u nějž lze nalézt erratum podobné chybě VLI90 (u předchozího 14nm Cherry Trailu a Braswellu ještě nevíme, ale problém by logicky mohly mít také).

Je také docela pravděpodobné, že chyba byla i v původním návrhu nových serverových Atomů Centerton. Jejich příchod na trh se totiž hodně zpozdil proti očekávání a je celkem logické vysvětlení, že je Intel pozdržel proto, aby degradaci odstranil novou revizí. Vzhledem k době vydání by už také měly být bezpečné nové SoC Gemini Lake s architekturou Goldmont+.
Tato chyba by podobně jako problém Avotonu mohla mít určitý dopad na finance Intelu, pokud bude nucen některé čipy vyměňovat nebo platit kompenzace embedded klientům. Nicméně vzhledem k vysoké ziskovosti firmy by nemělo jít o nějak drastické náklady a případné výměny se pravděpodobně dotknou jen menšiny vyrobené produkce.
Úžasný, díky Intele. Ví se třeba v jakých autech to je?
A to som kamošovi odporučil 13″ noťas s N3350 do reštiky 12h/7. Dúfam že ešte nič nekúpil, asi sa pôjde do A-čka.
Dopady jsou zhruba následující.
LPC:
LPC sběrnice se u Atomů C2000 začala porouchávat po 18 měsících (non-stop) provozu s tím, že po 36 měsících se poruchovost zvýšila. Pokud by to bylo ekvivalentní době provozu, bude to kritické zejména pro trvale zapnutý tablet nebo malý domácí server. Desktopy se při normální utilizaci cca 8 hodin denně dožijí kolem 5 až 10 let.
Ona softwarová mitigace spočívá v nějaké funkcionalitě „LPC_CLKRUN#“, která má omezovat využití LPC. Dále je nutné nastavit režim Serial IRQ Mode na Quiet a nikoli na Continuous. Takové nastavení ale dělá někdy problémy, ne všechno pak musí dobře fungovat a některé systémy s tím patrně nejsou kompatibilní vůbec. Tímto se degradace pouze omezuje, ale nikoli vylučuje, poškozování obvodů tedy dále pokračuje.
USB:
Zátěž by se měla držet na maximálně 10 %. Každý port by měl mít životnost 50TB. To je asi na běžné situace dostačující, problém může nastat v okamžiku, kdy se USB používá permanentně – např. je do něj vloženo nějaké zařízení typu přídavná WiFi karta nebo nějaký čip na desce.
SD Card sběrnice:
Tady je doporučeno nepoužívat SD kartu jako bootovací medium a vyndávat kartu v případě, že je nepoužívána. To bude problém zejména pro IoT stroje a tablety s malou vnitřní kapacitou flash.
Celerony a Pentia Bay Trail jsou postiženy také, ale Intel to „vyřešil“ tak, že ve standardní dokumentaci – Specification Update o problému není ani písmeno:
https://www.intel.com/content/dam/www/public/us/en/documents/specification-updates/pentium-n3520-j2850-celeron-n2920-n2820-n2815-n2806-j1850-j1750-spec-update.pdf
Nicméně existuje obtížně dohledatelné separátní Specification Update pro ty stejné procesory s názvem „for Internet of Things Platforms“, ve kterém je uvedena jediná chyba a to právě tato:
https://www.intel.com/content/dam/www/public/us/en/documents/specification-updates/Celeron-J1900-N2807-N2930-IoT-SU-Addendum.pdf
Celkově lze říct, že architektura má od základu chybně navržené I/O obvody, u Atomu C2000 se to pouze projevilo jako u prvního, protože byl uveden jako jeden z prvních (desky už v Q4 2013) a běží nejdelší dobu (typicky non-stop). Intel se samozřejmě snaží nedávat rozsah problémů moc najevo, protože jenom Cisco stálo fiasko s Atomem C2000 125 milionů dolarů a tady se přitom bavíme o desítkách až stovkách milionů kusů vadných CPU (Intel kvartálně prodá asi 100 milionů CPU a tyto procesory se prodávaly vadné zhruba tři až čtyři roky).
Tak to je pro mě nepříjemné zjištění. Asus tablet s Bay Trail mi už jednou zdechl zhruba po roce používání, vypl se a byl úplně mrtvý, od reklamace (výměna Mobo) jsem tablet již moc nepoužíval, za to dva Prestigio tablety s Rockchipem mám už hromady let a bez problému (každý používám k něčemu jinému).
Vážně mě už unavuje, že jakákoliv elektronika, kterou koupím, je prostě laciná sračka s účelem zdechnout co nejdřív po záruce. Neustále jen něco reklamuji a po záruce nahrazuji novými, neustále prachy létají do hajzlu a ho*no z toho. Proto za měsíc pořídím Ladu 2101 z roku 1973 a veškerá moderní elektronika mi může akorát políbit zadek.
Čudujem sa čo AMD nespraví čip s variable TDP 15-25-35W, povedzme 2C/4T 1,2GHz – 3,6GHz + 4CU Vega
Není nečím takovým údajný Athlon 200GE? Té variability spotřeby patrně půjde dosáhnout omezením taktů.
https://www.cnews.cz/v-sandre-se-objevil-amd-athlon-200ge-s-jadry-zen-zrejme-konkurent-pro-levna-pentia/
Vydavaji to postupne pravdepodobne z duvodu omezenych zdroju. Vem si, ze snad jeste i pred rokem touhle dobou byli v cervenych cislech..
Athlon 200GE by bol v pohode, len problém je že od prvej správy ubehli dva mesiace a stále nič, žiadny produkt na trhu. 14nm výroba má očividne dobrú výťažnosť keď sa nevie nazbierať dostatok 2C zmätkov z Raven Ridge. Preto si myslím že by sa oplatilo zainvestovať do nového kremíka 2C4T + 4-6CU, 2MB L3, 1-2x64b MemCh, náklady na masky a ostatné veci okolo by mali byť tým nižšie čím menší je výsledný kremík a toto by bol krpec s cca 100mm2. Ale možno si v AMD povedali že sa im už neoplatí investovať do ďalšieho DIE na ZEN1 (prípadne ZEN1+) a odložili to až pre ZEN2 na 7nm. Ale zase či sa to oplatí na 7nm, to by to DIE malo už len do 60mm2, ďalej s novým nedoladeným 7nm procesom by o zmätky z obdoby raven ridgu nebola núdza a na koniec sa ešte stále nedostalo von z AMD aká bude forma CCX, či ostanú na 4C alebo sa prejde na 3C alebo 6C nebodaj 8C. Každopádne by som bral ako + ak by v každom kremíku bolo integrované GPU aj keď len s fyzicky 2CU, ako základná záloha by to bolo fajn.
Co tie vsetky NASy s Atomami, a ze ich je viac nez dost, tie zvacsa idu nonstop.
Hmm záhada vyřešena. Přesně stejnými symptomy trpý můj Atom tablet. A ja si myslel že to je jen shit SW na Windows.
To jsou pěkný k*rvy.
Ne že by se toto Intelu stalo poprvé…
https://newsroom.intel.com/news-releases/intel-identifies-chipset-design-error-implementing-solution/
Je zajímavé, že tyhle „školácké“ chyby zopakují. 🙂
Dopr …
Zrovna jsem chtěl stavit malý NAS na N5005 (což je sice nová generace, ale furt založená na Apolo 14nm).
+ Rok zpátky mi prošlo rukama 500+ tabletů s Atomy, několik NAS a notebooků, které s tímto SOC běží …
A já ty Atomy měl tak rád 🙁
Žádný ekvivalent od konkurence ani neexistuje, protože AMD od Beema blbě plká, ale u plkání to vždy zatím zůstalo.
Když by alespoň ty čipy, co by měly být v SmachZ, vypustily ven, ale ne to je AMD …
Super situace si vybrat mezi něčím, co se za 2-3 roky možná vysype a něčím, co reálně neexistuje.
J5005 je už Gemini Lake, ten by snad už měl být v pořádku. V tom Smachu jsou embedded BGA čipy, IIRC? Ty se holt ven pustit nedají, jestli se objeví v deskách/zařízeních, to záleží na tom, jestli je výrobci těch zařízení použijou. Ty 28nm APU jsou v nějakých NASech, ale moc časté to asi není. Tablety s těma malýma APU kdysi byly… asi dva.
Pokud se nepletu, ten tablet s AMD APU byl nakonec jen jeden – jeden reálný produkt a druhý pouze prototyp, který nikdy nespatřil produkci 🙁
Já doufám, že Gemini už bude ok, ale furt je to velice podobná architektura – pokud se nepletu něco jako „jen“ refresh Apola.
Raději počkám na nějaké bližší informace.
S tím BGA je to pravda, ale i Atomy cpou do základních desek, které lze „běžně“ koupit (Asrock, Asus apod.).
Fakt bych rád konečně viděl AMD řešení na trhu, ale čekat na něj nebudu, to už mne popravdě za ty roky omrzelo.
https://youtu.be/KmdNvD0QfJY
Architektura je to paradoxně nová (myslím jádro CPU, ačkoliv se jmenuje Goldmont+, je to spíš upgrade na úrovni pln= nové generace). Tohle je ale problém I/O, které není závislé na jádru CPU. Důležité asi je, že čip šel na trh až v době, kdy o tom věděli a pravděpodobně to už má opravené jako ten Denverton – nebo aspoň teda to tak zatím vypadá.
Moc díky za info. Mrknu ještě na to.
Fakt mě ten malý, domací server táhne + generační skok od Apolo nevypadá špatně. Dokonce je už Gemini asi na úrovni CoreM, který mám v netbooku od Xiaomi … docela aby mě samotného zajímalo srování.
Válí se mi tu dva SSD disky, licence na Windows, takže by mě chybělo jen dokoupit 2x DDR4 RAM … asi to toho půjdu, for science! 😉