AMD potvrdilo nestabilitu Linuxu na některých Ryzenech, bude se řešit reklamací

59

V červnu jsme zde měli zprávu o chybě procesorů Ryzen, která se projevovala při vytížení všech jader kompilací softwaru obvykle v GCC, a to na platformě Linux. Od května nebylo o této nestabilitě známo nic nového, zdá se ale, že bude závažnější, než se zdálo. AMD k ní totiž teď vydalo vyjádření, podle kterého ji bude s postiženými uživateli řešit výmenou procesoru v rámci reklamace.

Tento problém se má vyskytovat na Linuxu, případně podobných operačních systémech, jako je například FreeBSD. Neměla by naopak postihovat uživatele Windows. Problém se projevuje segmentační chybou („segfault“) neboli porušením ochrany paměti. Nejde o chybu vyskytující se při typickém používání a výpočtech (jinak by asi byla zjištěna před vydáním), avšak lze jí zreprodukovat při kompilaci velkých softwarových projektů na všech jádrech procesoru. Ze začátku tak byl problém pozorován hlavně uživateli distribude Gentoo. Na Windows kompilátor GCC (běžící skrze Cygwin nebo Mingw32) problémy nedělal.

Podle AMD je však chyba přesto hardwarová, ovšem vzniká za komplikovaných okolností, které ztížily její nalezení. Zřejmě jde o typ problému, kde vlivem kombinace napětí, kvality napájení a taktu při interakci určitých stavů čipu některá část není dokonale stabilní a nepracuje dle specifikací (AMD to označuje jako „marginality“, čímž se asi myslí, že se CPU někde překročilo rezervy pro správné fungování, tedy „margins“). A tento problém zřejmě proklouzl testovacím systémem, který stabilitu a bezchybnost čipů prověřuje. Zdá se také, že problém nemají všichni uživatelé, ale jen někteří, procento ale těžko odhadnout.

Řešením na straně výroby tak asi bude úprava testování čipů a/nebo vývoj nového steppingu. Problém by teoreticky mohl odstraňovat už stepping B2, který se jako první objeví v procesorech Epyc. Oprava pro už postižené prodané čipy však zatím není a AMD webu Phoronix, který se věnuje hardwaru ve spojení s Linuxem a open source softwarem, zaslalo sdělení, podle kterého bude problémy jednotlivých uživatelů řešit individuálně výměnou CPU skrze reklamační proces. To znamená, že pokud Linux používáte a při kompilování softwaru jste na segmentační chyby narazili, můžete CPU dát do reklamace a vyžádat si náhradní kus.

Snímek čipu Summit Ridge, na němž jsou založené osmijádrové Ryzeny
Snímek čipu Summit Ridge, na němž jsou založené osmijádrové Ryzeny

Chyba by se neměla vyskytovat deterministicky na každém Ryzenu, alespoň podle AMD – jinak by asi také nemohlo postižené kusy vyměňovat opět za stejné modely Ryzeny. Je naznačeno, že jde problém obzvlášť počtečních kusů, ale úplně na plná ústa toto ujištění v článku od Phoronixu bohužel nezazní. Minimálně přes reklamace by se snad měly distribuovat ověřené kusy, pokud tedy výměnu neprovede jenom samotný obchod a zpátky nedostanete nějaký starší procesor, který ještě proti této chybě zkoušen nebyl (bude dobré při vyplňování reklamace důvod pořádně popsat a případně odkázat třeba na článek na Phoronixu, protože každý lokální prodejce nemusí být informován). Zda má u nás smysl konktovat přímo mezinárodní podporu AMD, jak firma doporučuje, ale nevím, jelikož přímo u nás AMD žádné přímé servisní zastoupení nemá.

Epyc a Threadripper jsou prý v suchu

Podle AMD ale problémem určitě nejsou postižené procesory Epyc pro servery (o kterých víme, že mají novější revizi čipu, B2). Údajně ale nemá postihovat ani Threadripper, který prý naopak ještě má revizi čipu B1. To by možná mohlo nasdědčovat, že chyba skutečně nepostihuje křemík originálních Ryzenů univerzálně, ale že by snad mohla být problémem slabších exemplářů a úprava testování ji odchytí. V takovém případě by se snad časem mohla u nově prodávaných CPU přestat vyskytovat úplně – tedy až v obchodech dojdou starší kusy, které odešly z továrny předtím, než bylo testování upraveno. Zda to tak ale skutečně bude takto, těžko říct, jelikož v podobných případech se firmy většinou snaží o problému dát co nejméně informací a držet ho pod kobercem. Nicméně oficiální uznání reklamovatelnosti by vám mělo pomoci, pokud byste na chybu narazili.

Zda se eventuálně ještě objeví nějaká oprava na úrovni mikrokódu, není jasné. To, že zatím ohlášena nebyla a místo toho se reklamuje, je patrně znamení, že takové řešení nemusí být možné. Nicméně problém je údajně stále analyzován, takže zcela vyloučeno nějaké další ošetření asi není.

59 KOMENTÁŘE

    • EHm, ono to o u nás není ani na PCtuningu, to je také AMD fanouškovský web? Diit je vždy se zprávami poněkud pozadu, tak se to jistě objedví, ale většinou to pak je nejvíce podrobně podané.
      Ale pan Olšan dělá opravdu většinou skvělou práci, to se musí nechat.

  1. Úplně vidím, jak teď každý majitel toho CPU zjišťuje, jak se instaluje Linux a jak se kompiluje jádro, aby náhodou neměl procesor, který hází chyby při činnosti, kterou běžný člověk nikdy nedělá 🙂

    • A vy byste si ho nenechal případně vyměnit? Příklad z jiného oboru. Máme doma dvě Hondy (auta). Zjistili u nich, že mohou být vadné airbagy. A ač běžně nebourám a airbagy nepotřebuju, stejně jsem si je nechal bezplatně vyměnit. A stejně bych to udělal i s procesorem od AMD.
      Mimochodem, když se Intelu objevila chyba v prvních Pentiích, tak už před těmi 25 lety procesory vyměňoval zákazníkům, kteří o to požádali. Stálo ho to tenkrát 475 milionů dolarů. Což je na chybu, která se podle Intelu projevila u běžného zákazníka při normálním používání jednou za 27 tisíc let, docela pálka.
      Firem, které se k problému staví čelem a své vadné produkty vyměňují, si vážím a mám je rád. Ale to neznamená, že bych bezplatné možnosti výměny nevyužil.

      • Porovnávat výměnu CPU a airbagu není asi úplně ideální.
        Funkční airbag vám může zachránit život a to i v případě kdy jste nejlepší řidič na světě. Protože vy nemusíte bourat, ale můžete být nabourán. A že na našich silnicích je to děs a běs, co si budeme povídat.
        Pokud má CPU vadu, která se projevuje pouze za určitých podmínek (pod Linuxem) a já ty podmínky nikdy nesplním (zásadně užívám jen Windows), tak mě to netrápí. Můj život nemůže být ohrožen a nemusím mít potřebu takový produkt měnit.
        Samozřejmě to, že mám vadný produkt a že mi je nabídnuta bezplatná výměna je fajn a správný krok výrobce. Nakonec je ale mou volbou jestli výměnu chci či ne.

          • Zaručit na 100% se nedá nikdy nic, ale s rozumnou mírou jistoty se to asi „zaručit“ dá, když se to doposud nikomu na Windows nepovedlo.

            Z toho, co se o tom psalo dřív, by to mělo být odlišnou prací s pamětí v Linuxu a Windows, aplikační software by neměl mít možnost ten problém spustit.

        • S těmi airbagy je to tak, že z desítek milionů prodaných kusů jich několik při aktivaci zranilo či dokonce zabilo posádku díky tomu, že se z nich uvolňovaly nějaké kovové části. Tato situace nastávala jen za velmi specifických podmínek a opravdu řídce. Šance, že vás takto vadný airbag při aktivaci zabije byla nižší, než že vyhrajete 1. místo ve Sportce.
          S tou vadou AMD to není tak, že se vyskytuje pouze pod Linuxem, ale že zatím byla demonstrována pouze pod Linuxem. On jaksi procesor těžko tuší, instrukce jakého OS vlastně vykonává.
          A ano, je vaší volbou, jestli chcete vyměnit procesor, stejně jako bylo mojí volbou, jestli chci vyměnit airbagy.

          • Desítek milionů prodaných kusů? Myslíte půl milionů vozů napříč několika značkami, do kterých se airbagy dodávaly? (Kolik z toho byla honda nevím). Jinak srovnávat závadu která náhodně zabíjí s vadou která může za velmi specifických a poměrně přesně určených okolností způsobit pád systému je poněkud nešťastné. To první se musí za každou cenu vyloučit a to druhé mě naopak nemusí trápit, protože jsem schopen zhodnotit míru rizika.

          • Já teda nevím, ale třeba tady: http://auto.idnes.cz/airbag-takata-00d-/automoto.aspx?c=A160921_223410_automoto_fdv
            píší o 70 milionech aut. Kolik je z toho Honda, není podstatné, protože ta úmrtí a zranění také nejsou počítána podle značek, ale celkově.
            A že nemáte fantazii, jak vás může závada počítače zabít, je jen váš problém. V obou případech jste schopen zhodnotit míru rizika a v obou případech je to riziko hodně malé.

      • To je argumentace jako prase, srovnávat airbag, kde jde o bezpečnost s chybou, kterou 99,999% lidí nikdy neuvidí. Směšné. Pokud srovnávat s autem, tak např. s držákem na kafe v zadním kufru – taky ho nikdy nevyužiju, tudíž měnit auto kvůli tomu nebudu

        Sám mám R7 1700 a měnit rozhodně nebudu, nejsem debil.

          • 100% kvalita je iluze 😉 pokud mu jede dobre tak je nesmysl to menit, vpodstate se ti muze stat ze ted vymenis funkcni za horsi 😀

          • teoreticky virtualizace nebo prý ten Linux subsystém for Windows (ale tam nevím nevím.)

            Ai nejleší řešení by bylo zkusit nabootovat linux z USB/DVD a spustit tam ten spciální skript, co to má vyvolávat.

        • Tu popisovanou chybu u airbagů neuvidí ještě o dva řády méně (99,99999 %) lidí. A chyba v procesoru může mít stejně fatální následky na bezpečnost, jako ta chyba v autě. Jde jen o to, že nemáte dostatek fantazie.

          • i s fantazií je to pořád blbost.
            S airbagy je to taky lež – dle statistik ĆR je nehod necelých 0,01% ročně na celkový počet aut – a to jsou jen ty, kde jsou policisté, takže nehod je určitě víc. Pokud by každé auto mělo airbag, mohlo by to +- odpovídat i našemu přirovnání.
            Takže žádné „ještě o dva řády méně“.
            A pokud chcete dál porovnávat bezpečnost airbagů s chybou u CPU, která se projevuje navíc jen v extrémních případech, pak nemá dál smysl se s vámi bavit. Tečka.

          • Jenže ty airbagy nejsou vadné ve smyslu, že nefungují, ale v tom, že s malou pravděpodobností se vlivem okolního prostředí poškodí tak, že při aktivaci zabijí či zraní posádku. Takže to nesrovnáváme s tím, kolik airbagů se aktivuje při nehodách, ale s tím, kolik se jich aktivuje a někomu ublíží.
            Takže víte o tom sice prd, ale máte jasno v tom, že nemá smysl si argumenty vyslechnout, natož se nad nimi zamyslet. Možná je to tím, že na to není vaše mozková kapacita připravena.

          • Takže urážet když dojdou smysluplný argumenty, vy inteligente. Všichni píší, že ta myšlenka s airbagy je blbost, ale vy pořád „JÁ“ mám pravdu, Strčte si tu svoji pravdu někam, s takovýma blbama, kteří uráží nemám potřebu komunikovat. Nazdar.

          • Klasika Holeček.. všechno ví, všude byl, ale že mu z úst teče žumpa, to mu nedochází..

        • Ta chyba na AMDčku je replikovatelná. Tedy, ten procesor se ve specifických, byť málo pravděpodobných případech, chová vždycky stejně blbě. Úplně přesně, jako se blbě chovalo to Pentium.
          Mimochodem ta chyba v Pentiu byla v FPU jednotce, která se v porovnání s dneškem, používala výrazně méně, protože tenkrát bylo na trhu ještě velké množství procesorů bez koprocesoru, ať už integrovaného nebo přidaného, a tak se software psal pokud možno tak, aby FPU využívat moc nemusel, protože emulace na těch CPU co to nezvládaly hardwarově, byla pomalá.
          Jo a ta chyba v Pentiu se projevovala jen při jednom konkrétním početním úkonu s jednou sadou konkrétních čísel. A dávala výsledek, který se od správného lišil o 0,006 %, takže i když jste ten chybný výpočet potkal, s největší pravděpodobností, jste si ho ani nevšiml.
          Takže ano, byl to průšvih, stejně jako se už od té doby povedlo Intelu několikrát. Tenhle jsem vybral jako ukázku proto, že tenkrát taky vyměňovali kus za kus a je známo, na kolik je ta chyba vyšla.

      • ne nenechal bych si ho vymenit protoze bych tim nic neziskal, jen bych musel vyndat CPU a zase tam to nove dat zpatky, pro me zbytecna prace kdys s linuxem nedelam a v nejblizsich letech ani delat nebudu

        airbag je bezpecnostni prvek auta, jakou ma spojistost neco co je bezpecnostnim prvkem pro kadodenni pouzivani s necim co treba nikdy nevyuziju?

    • „hází chyby při činnosti, kterou běžný člověk nikdy nedělá“

      Zatim vime o situaci, kdy se to stane prakticky okamzite. O ostatnich situacich kdy se to stane jednou za tyden, nebo pri OC a urcite kombinaci napeti, nevime. Tohle se stava i v lepsich rodinach, viz intel TSX, ale tohle je bohuzel HT, ktere se pouziva neustale.

    • Vidíš, vidíš, ponaučení pro příště, než kupovat nedodělaný procesor, který byl udělán ve spěchu měl jsi mu koupit intel a vydělal by jsi na tom, takhle na tobě vydělá zákazník a ty proděláš. Říká se tomu: „Nejsme tak bohatí abychom jsme si mohli kupovat levné věci!“

        • Chudák kamoš, co se mu stavěl ten kompl, mít za kamaráda takovýho trotla a ještě si od něj nechat stavět PC… prostě ho lituju. Evidentně Redmarxovi záleží, aby kamoš měl to nejlepší za rozumný peníz.
          (a nevěřím, že je to linuxář a že bude kompilovat operační systémy – při běžným provozu problém prostě nemůže nastat, jinak by se na to přišlo dřív než po půl roce, co je R7 venku)

          • On je grafik a dela jen na Windows, ale preci mu nebudu nechavat vadnej procesor ne?

          • Holecek..a v cem je problem? To stejne se mohlo stat Intelu. Jejich CPU jsou uplne stejne plne chyb jako AMD. Jediny rozdil je v tom, ze AMD na takovou chybu prisli a ze Microcode na to nestaci. Proc se muzeme jen dohadovat. To stejne se muze stati Intelu pristi tyden. Co pak budes psat..ze AMD se to nestava, ale Intelu ano. Budes k vuli tomu spat lip v noci?
            Nemer pindiky a radeji pouzivej selsky rozum.

          • Problém není v ničem. Jak píše jfb, každý procesor má chyby a já s tím souhlasím. Jen konstatuju, že ne každá chyba je taková, že ji mohu bezplatně odstranit výměnou, kterou výrobce nabízí.
            Proč do toho taháte nějakou bitvu AMD Intel, to vůbec nechápu. Intel v minulosti také vyměňoval kus za kus, poprvé to bylo asi to mnou výše zmiňované Pentium.
            Naopak, jak jsem psal taky výše, firmy, co se nebojí přiznat chybu a bezpatně vyměňují nebo opravují své výrobky, chválím a mám je rád.
            Takže mého pindíka nechte, stejně si na něj přes pupek nevidím, takže ho nepotřebuju měřit.

          • V pripade, ze jVas prispevek byl takto myslen, tak se omlouvam 🙂
            Jsem rad, ze jsem se mylil 🙂

          • Odpovim si sam, FDIV pentium bug. Nicmene chyba to nebyla horsi, asi zhruba stejne vzacna.

          • U Sandy Bridge-E byla ve steppingu C1 snad fatální chyba v implementaci VT-d. Nejsem si jist zda Intel CPU následně měnil za stepping C2, a zda vůbec dal „no“ do VT-d kolonky na ARKu u postižených CPU.

          • Letos stahuje serverový Atomy, protože časem odcházejí a bricknou tím desku/server, v kterým jsou připájený.

        • No nevím jestli srovnatelnou, ale ten motiv, že se na Linux objevují chyby, které nejsou na Windows, to má Intel taky. Prý se ještě pořád vyskytujou chyby s Hardware Lock Elision (TSX) na Broadwellu a Skylake, které můžou vést k nestabilitě (pád, chybná data). Snad by to měl řešit microcode update vypnutím TSX
          A taky ještě čtyři roky po vydání Bay Traylu je ten čip na Linuxu nestabilní při používání úsporných stavů. Tam se dá žít s omezením úsporných stavů tuším na C1 (C2 mělo už pentium II pro představu), a definitivní řešení se údajně stále ještě hledá.

          Tohle je horší v tom, že není nějaký workaround skrz vypnutí sekundární funkce.

  2. Porad to stejne dokola..porad ti stejni, kteri si potrebuji zvysit uroven sebevedomi a merit pindika. To ze Intel ma taky chronicke bugy (stejne jako AMD) v kazdem CPU, vydava opravy Microkodu, to samozrejme nevadi. Jako kdyby AMD snad delalo schvalne. Urcite jsou statsni, ze tam takovy bug maji.
    Misto, aby jste drzeli AMD palce, at konkurence trva, tak porad stejne trubky museji vyzdvihovat svoje pindiky. Tady posledni zarez Intelu pro srovnani:
    „The Debian advisory says affected users need to disable hyper-threading “immediately” in their BIOS or UEFI settings, because the processors can “dangerously misbehave when hyper-threading is enabled.”
    Vyjadreni Intelu:
    „Under complex micro-architectural conditions, short loops of less than 64 instructions that use AH, BH, CH or DH registers as well as their corresponding wider register (eg RAX, EAX or AX for AH) may cause unpredictable system behaviour. This can only happen when both logical processors on the same physical processor are active.
    https://www.theregister.co.uk/2017/06/25/intel_skylake_kaby_lake_hyperthreading/

      • Tak nějak.
        Když tu byla chyba u Skylake, tak všichni tu psali, že se to prostě stává a nikdo na Intel nenadával, ale jak se to stane u AMD, tak je oheň na střeše, Fakt objektivita jako prase, ale oni to prostě nevidí, protože INTEL+nVidia „RULEZ“ vole !!!! (pardon za výrazy :o) )

        • Kde v celé diskusi vidíte, že je oheň na střeše? Kde vidíte jedinou výčitku vůči AMD, když nepočítám povzdech Redmarxe o tom, že je to opruz měnit procesor, i když je to zadarmo. A ten jeho povzdech nevyznívá nijak protiamdčkovsky, ale spíše obecně.

    • Mě by zajímalo, kde v celé diskusi vidíte, že někdo vykládá o tom, že AMD má v procesorech chyby, ale Intel ne. Nikde. Protože všichni soudní lidé vědí, že chyby jsou všude.
      Celá diskuse je jen o tom, jestli stojí za to ten svůj Ryzen otestovat, jestli tuto konkrétní chybu obsahuje, a pokud ano, jestli si ho nechat bezplatně vyměnit. A to přeci není nic proti AMDčku. Naopak, je to pochvala, že chybu uznávají a bezplatně řeší.

      • Není pravda. Chyba byla odhalená a nahlášená už loni (našel to nějakej open source vývojář). Intel zhruba po roce vydal opravnej mikrokód a existenci bugu tím potvrdil, ale do té doby o tom bylo úplné ticho. Ti lidi, co to odhalili a hlásili, prý nedostali jedinou reakci. (Což je blbý, protože si sice myslíš, že si našel bug v CPU, ale nemáš jistotu a nevíš tedy, jestli je tvůj kód správnej… a co s tím dělat).