Některé karty Nvidia Titan V mohou dávat nesprávné výsledky ve výpočetních úlohách

14

Před Vánoci vydala Nvidia překvapivě kartu své luxusní hráčské řady Titan s čipem GV100 architektury Volta, Titan V. Ovšem s cenou 3000 $ bylo poukazováno na to, že výhodný by mohl být spíše pro ty, kdo potřebují čip GV100 na výpočty. Jeho nasazení na tuto práci však zdá se není bez problémů, minulý týden se objevily informace, že GPU v některých případech nedává správné výsledky zřejmě vlivem nějakého problému se stabilitou.

O problému informoval The Register, kterému o něm řekl inženýr pracující na molekulárních simulacích. Při testech se čtyřmi exempláři Titanu V narazil na to, že dvě z karet vykazovaly numerické chyby, vedoucí k jiným než očekávaným výsledkům. Druhé dvě zřejmě nikoliv, což by naznačovalo, že jde spíš o nějaký problém s hardwarem a ne s ovladači nebo softwarem, což by u GPGPU kódu určitě nebylo neslýchané. Chybné výsledky se projevovaly zhruba s 10% pravděpodobností. Daná úloha by přitom údajně měla mít deterministický výstup a výsledek dávat vždy stejný.

Podle The Registeru by asi nejpravděpodobnějším místem vzniku těchto chyb měly být paměti, Titan V nemá na rozdíl od karet Tesla aktivní ECC. Paměti HBM2 nemají u Titanu nějak extrémně vysokou frekvenci, běží na 1,7 GHz, přičemž Tesly V100 by měly mít takt dokonce vyšší (1,75 GHz). Je nicméně možné, že do Titanů V jdou pouzdra s čipem V100 a HBM2, která při testování nedosáhla na kritéria pro prodej v řadě Tesla a mají i na nižším taktu menší rezervu. Ovšem problém by také mohl být v časování, nikoliv ve frekvenci.

nvidia-titan-v-04Nvidia prý zprvu nechtěla tyto informace komentovat, nicméně během víkendu The Register dostal vyjádření, dle kterého by uživatelé pozorující problémy měli kontaktovat podporu. Ve vyjádření stojí, že všechny GPU Nvidie fungují korektně, zároveň ale také zmiňuje, že pro pro úlohy jako rozsáhlé simulace jsou navržené karty Tesla, které mají ECC (což by mohlo sedět z hypotézou, že problém může být v příliš agresivně nastavených pamětech). Nvidia údajně ví o minimálně jedné aplikaci, kde má Titan V problémy, jde o software pro molekulární dynamiku Amber. O případných řešeních tohoto problému zmínka nepadla, nicméně Nvidia by například mohla ovladačem změnit řízení frekvencí.

All of our GPUs add correctly,“ the rep told us. „Our Tesla line, which has ECC [error-correcting code memory], is designed for these types of large scale, high performance simulations. Anyone who does experience issues should contact support@nvidia.com.

Při uvedení byl na výpočetním použití důraz

Při hraní her by Titan V zřejmě problémy dělat neměl, nebo na ně alespoň zatím nebylo natrefeno. Při vysoké ceně sice asi není zas tak moc uživatelů, kteří by kartu prověřovali, nicméně validace přímo u Nvidie by snad měla vážnější problémy odhalit. Jak velkým „průšvihem“ je potenciální nespolehlivost ve výpočtech? Nvidia sice poukazuje na to, že pro podobné účely jsou vhodné Tesly, nicméně při uvedení Titanu V se o hraní vlastně ani moc nemluvilo a v prezentaci naopak byla řeč právě o bourání limitů v HPC, vědeckých výpočtech a AI. Titan V tedy aspoň z části výpočetní kartou je a k tomuto segmentu také kartu tlačí její cena. Zatímco pro hráče má velmi špatný poměr cena výkon v porovnání ke kartám GeForce, pro výpočetní nasazení platí opak. Zde je totiž Titan V naopak výrazně levnější alternativou ke kartě Tesla, a tudíž byl pro třeba ty vědecké výpočty atraktivní, jelikož na rozdíl od komerčního sektoru v akademické sféře nebývají kapsy za tak hluboké.

Takto vypadá GPU GV100 na kartách Tesla V100 (Foto: Golem.de)
Takto vypadá GPU GV100 na kartách Tesla V100 (Foto: Golem.de)

Tento problém by asi mohl odrážet to, že Titany V jsou přes určité neoficiální či polooficiální „profi“ ambice zřejmě stále testovány a validovány stejně jako karty GeForce pro hraní. Těm asi odpovídají i požadavky na spolehlivost, což znamená menší rezervy ve frekvencích a napětích, byť pochopitelně nevíme úplně jistě, zda je toto skutečně důvod onoho nesprávného chování ve výpočetních zátěžích. Pokud tyto karty pro daný účel používáte, měly byste se asi pokusit nějak ověřit, zda je pro dané úlohy 100% stabilní a nevrací někdy nesprávné výsledky. To ovšem asi není úplně triviální vyloučit. Podle Registeru by bylo ideální počkat, až Nvidia vydá nějaký patch, který by nekorektní fungování odstranil.

Některé karty Nvidia Titan V mohou dávat nesprávné výsledky ve výpočetních úlohách

Ohodnoťte tento článek!
4.4 (87.86%) 28 hlas/ů

14 KOMENTÁŘE

  1. Titan V je sice velká bestie a chybka se občas najde všude, ale u tohoto typu výpočetních karet bych očekával, že to naopak bude dokonalé (i s ohledem na cenu karty).
    „Nvidia prý zprvu nechtěla tyto informace komentovat“ – a toto mě ani moc neudivilo, standardní chování jako u všech problémů Nvidie. Ona možná z toho udělá ještě výhodu (generování náhodných čísel), protože CEO to kupcům „vysvětlí“, že je to pro dobro zákazníků a karty ještě zdraží :o)

  2. Připomnělo mi to tento starý vtip (mladší ročníky nemusí pochopit):

    „Popis rozhovoru mezi Pentiem a Motorolou.
    Motorola (rozvláčně): „Kolik je 2×2?“
    Pentium (rychle): „8“.
    Motorola (rozvláčně): „To je přece špatně. 2×2 jsou přece 4.“
    Pentium (rychle): „Špatně, ale rychle“. „

  3. Ž eto vůbec čtu, zas to budou nějaké inženýrské vzorky z prvních čipů ještě nevyladěné výroby… Už je to takový kolorit který se objevuje pokaždé když nějaká úspěšná firma něco chystá uvést na trh. Co to bylo posledně? Odklad kaby Lake ohledně nějaké chyb inženýrského vzorku? Nebo to byl ryzen… už ani nevím.

  4. A proto by se měli na určité úlohy používat nástroje k tomu přímo stvořené. U herního PC je ECC k ničemu, ale pokud chci dělat extra náročné simulace, kde potřebuji přesné výsledky, a přehození jedné nuly za jedničku učiní celou simulaci nepoužitelnou, je třeba vzít i správný HW…

    • Jenže Titan V byl na výpočty stvořený. Není to herní karta, Titany byly vždy výpočetní karty (a u V to platí mnohonásobně více než u starších). Titan V je profesionální karta zaměřená na výpočty, přímo pro použití v SW jako je zmiňovaný Amber.
      To, že nemá aktivní ECC, je blbost nVidie.

      • Ani všechny Tesly nebo Quadra nemají ECC. Ono by to mělo fungovat správně i bez něj (třeba na Titanech X problémy nebyly), pokud tam zrovna nedopadne nějaká částice z vesmíru, což tady asi ten případ nebude.
        ECC je holt spojené s tou nejdražší řadou, aby měli uživatelé motivaci ji koupit. A u uživatelů je to zase otázka priorit a kompromisů, protože cena je nevím, 10K oproti 3K…

  5. Multithread je svin. Ak tam ma neosetreny racing condition problem, veci ako, ze to dava (zdanlivo) konzistentne spravne vysledky na dvoch kartach a (zdanlivo) nekonzistentne na inych, nie je nic neobvykle. Zazil som vsetky mozne druhy problemov s chybami v multithreade, a jedna sa prejavila len na jednom jedinom pocitaci po asi dvoch rokoch software v prevadzke – hoci to bol vseobecny problem. Nikde v skutocnosti nie je iste, ze toto je chyba hardware – I ked samozrejme moze byt.