„Mám jet do myčky autem, nebo jít pěšky?“ Většina jazykových modelů odpověděla špatně. Chybovali ale i lidé

25. 2. 2026

Fotografie myčky — Jazykové modely chtějí auto v myčce umýt bez auta.

Velké jazykové modely dostaly snadnou logickou otázku, u které ale většina z nich neřešila primární zadání. Namísto toho hodnotily, zda je 50 metrů vhodná vzdálenost pro chůzi.

Společnost Opper AI zveřejnila výsledky experimentu, který měl prověřit základní schopnost jazykových modelů pracovat s implicitním kontextem. Zadání bylo záměrně triviální: „Chci umýt auto. Myčka je 50 metrů daleko. Mám jít pěšky, nebo tam jet autem?“ Správná odpověď logicky zní „jet autem“, protože pro mytí auta je dobré ho do myčky dopravit.

Správně 11 z 53 modelů

V prvním kole bylo testováno 53 modelů, které dostaly jednoduchý prompt bez dalšího kontextu. Celkem 42 z nich odpovědělo špatně, neboť radily jít do myčky pěšky. Správně poradilo pouze 11 modelů:

Claude Opus 4.6
Gemini 2.0 Flash Lite
Gemini 3 Flash
Gemini 3 Pro
GPT-5
Grok-4
Grok-4–1 Reasoning
Sonar
Sonar Pro
Kimi K2.5
GLM-5

Chybné odpovědi typicky pracovaly s tezí, že 50 metrů je krátká vzdálenost, a proto je lepší jít pěšky. Modely se tedy soustředily na vzdálenost a chůzi, namísto splnění primárního zadání – dopravení auta do myčky.

Následně byl každý model spuštěn desetkrát, celkem tedy proběhlo 530 volání API. Cílem bylo ověřit stabilitu odpovědí. Pouze 5 modelů odpovědělo správně ve všech 10 pokusech: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro a Grok-4. To představuje zhruba 9 % testovaných modelů.

Další dva modely – GLM-5 a Grok-4–1 Reasoning – dosáhly skóre 8/10. GPT-5 skončil na 7/10, tedy ve třech případech z deseti odpověděl nesprávně. Na opačném konci spektra bylo 33 modelů, které nedokázaly správně odpovědět ani jednou z deseti pokusů

Zajímavostí je, že se tvůrci tohoto testu pustili i do srovnání s lidmi. Jejich úspěšnost přitom byla takřka totožná jako v případě GPT-5, kdy správně odpovědělo jen 71,5%. Respondentů přitom bylo 10 000, tedy dostatečně velký vzorek. Otázkou tedy je, zda je víc znepokojující velmi malá úspěšnost jazykových modelů, nebo více než čtvrtina lidí, která by šla mýt auto do myčky bez auta.

Zdroj: Opper AI

Vstoupit do diskuse (12 názorů)

Matěj Vlk

Redaktor portálu Cnews.cz. Zaměřuje se na Windows, související aplikace a jeho ekosystém. Rovněž pokrývá technologické novinky. Profil autora →

Témata:

nebuď zhrzelej.

Pan Jaroslav Crha

Sdílet

Správně 11 z 53 modelů

Je AI bezpečná? Evropský parlament si to nemyslí a zaměstnancům ji zakázal

Autor článku

Matěj Vlk

Témata:

Anketa

Čtete podmínky používání služeb?

Kvíz týdne

Ultimátní procesor AMD bude mít i extrémní cenu. Objevil se v ceníku prvních obchodů

Výrobce robotických vysavačů míří do 3D tisku. S 12tryskovou Core XY novinkou chce zatopit i Bambu Labu

Zprávy na telefonech Samsung přestanou v červenci fungovat. Náhradu už nejspíš máte

Čechy naštvalo nahlížení do katastru nemovitostí, musí při něm řešit absurdní hlavolam. Jak se přes něj dostat nejrychleji?

Na vydání Steam Decku 2 si ještě počkáme. Leaker upřesnil možný rok vydání

Budoucnost Intelu v procesorech: Nova Lake má lepší IPC než Zen 6 a co přinesou další generace

Triumf modderů: Vysněné procesory Bartlett Lake bez E-Core se proti vůli Intelu povedlo zprovoznit v Z790 deskách

Nachystejte uzenáče, na snídani jsem zpátky. Červený trpaslík je teď zdarma na iVysílání

Pevné disky Toshiba už nabízejí kapacitu 34 TB. Místo z hliníku mají plotny ze skla, paradoxně jsou prý odolnější

T-Mobile přidává do nabídky předplatné Disney+. Na první půlrok jej lze pořídit zdarma

„Mám jet do myčky autem, nebo jít pěšky?“ Většina jazykových modelů odpověděla špatně. Chybovali ale i lidé

Sdílet

Správně 11 z 53 modelů

Je AI bezpečná? Evropský parlament si to nemyslí a zaměstnancům ji zakázal

Autor článku

Matěj Vlk

Témata:

Anketa

Čtete podmínky používání služeb?

Kvíz týdne

Nejnovější články

Ultimátní procesor AMD bude mít i extrémní cenu. Objevil se v ceníku prvních obchodů

Výrobce robotických vysavačů míří do 3D tisku. S 12tryskovou Core XY novinkou chce zatopit i Bambu Labu

Zprávy na telefonech Samsung přestanou v červenci fungovat. Náhradu už nejspíš máte

Čechy naštvalo nahlížení do katastru nemovitostí, musí při něm řešit absurdní hlavolam. Jak se přes něj dostat nejrychleji?

Na vydání Steam Decku 2 si ještě počkáme. Leaker upřesnil možný rok vydání

Budoucnost Intelu v procesorech: Nova Lake má lepší IPC než Zen 6 a co přinesou další generace

Triumf modderů: Vysněné procesory Bartlett Lake bez E-Core se proti vůli Intelu povedlo zprovoznit v Z790 deskách

Nachystejte uzenáče, na snídani jsem zpátky. Červený trpaslík je teď zdarma na iVysílání

Pevné disky Toshiba už nabízejí kapacitu 34 TB. Místo z hliníku mají plotny ze skla, paradoxně jsou prý odolnější

T-Mobile přidává do nabídky předplatné Disney+. Na první půlrok jej lze pořídit zdarma

Dále u nás najdete

Konflikt v Íránu a jeho okolí ohrozí globální výdaje na IT

Vyplňujete přiznání a přehledy? Pozor na tyto časté chyby

Miliardy z EU, strach z hackerů a marný boj s tabulkovými platy (1.)

Chytré televizory pod přísnějším dohledem?

Krátké připomenutí povinností před spuštěním JMHZ

Neřešme zákazy sítí a telefonů, dětem není ve škole dobře

Claude ve firmách získává na popularitě

Jídlo bez mobilu, večerka „offline“. Desatero digitálního zdraví

Doplňující údaje o zaměstnancích pro účely JMHZ

Gmailová novinka umožňuje změnu staré e-mailové adresy

Tajemství čokoládového zajíce: Jak vznikla ikona velikonočních regálů

Nachlazení, zápal plic, černý kašel. Laik nemusí rozdíl poznat

Věštba se naplňuje, Oracle od rána propouští tisícovky lidí

Říkali jim hadráři a věštili krach. Dnes patří k lídrům trhu

V Teplicích otevřela ambulance pro léčbu golfové nohy

V psychiatrických stacionářích léčí osvětlením nebo v kuchyni

Náklady na jazykové modely LLM se do pěti let až desetkrát sníží

Ministerstvo přišlo o IT experty, kteří bojovali se starými pořádky

Soud konstatoval, že Meta a YouTube způsobují závislost

Kolika podnikatelů se dotkne EET 2.0? MFČR odhaduje 600 tisíc