Microsoft dosáhl milníku. Hlas rozpozná stejně dobře jako člověk

4
Cortana

Výzkumný tým Microsoftu vylepšil svou neuronovou síť určenou pro rozpoznávání a přepis mluveného slova do textové podoby. Už loni dosáhl míry chybovosti jen 5,9 %, což podle výzkumu odpovídá i lidským zapisovatelům. Pokud by ale zapisovatelů na stejném vzorku pracovalo více, chybovost by klesla na 5,1 %. A stejný milník teď po úpravě algoritmů pokořil i software Microsoftu.

Měření proběhlo dle metodiky Switchboard založené na vzorku 2400 telefonických záznamů s více než 500 lidmi. Switchboard se pro testování úspěšnosti rozpoznávání používá již přes 20 let. IBM ji už zpochybňuje a samo používá náročnější korpus CallHome. V něm lidští zapisovatelé dosahují chybovosti v průměru 6,8 %, software pak 10,3 %.

Microsoft CallHome nevyužívá, ale přistoupil na letošního poznámku IBM, že aby se stroj vyrovnal člověku, musí na Switchboardu chybovost klesnout na 5,1 %. To tedy Microsoft nakonec splnil. Dvanáctiprocentního zlepšení dosáhl doplněním nového akustického modelu a zlepšením predikce slov založené na historii hovoru.

Firma dodává, že je teprve na začátku. Musí ještě vylepšit citlivost rozpoznávání v zašuměném prostředí, lépe si poradit s různými přízvuky a také neuronovou síť naučit více jazyků. Lepší rozpoznávání hlasu pomůže zdokonalit Cortanu, překladač a jiné produkty.

Microsoft dosáhl milníku. Hlas rozpozná stejně dobře jako člověk

Ohodnoťte tento článek!

4 KOMENTÁŘE

  1. Hmm… by mne zajimalo, jak to resi s ruznyma prizvukama? Co jsem zatim mel moznos vyzkouset tyto „AI rozpoznavace“ tak to byli pekne sracky, ktere uplne stejne jako clovek, nedokazali reagovat na zmenu prizvuku, jiny druh vyslovnosti..

    • S přízvuky je vždycky problém. Zrovna i ta Cortana se myslím nejdříve spustila v US a UK a až pak se přizpůsobila pro Kanadu, Austrálii nebo Indii. A to se asi ještě dost předpokládá, že všichni mluví spisovně. Různé londýnské, skotské nebo irské dialekty jsou tak extrémní, že jim nerozumí ani člověk. 🙂

  2. Milník, kdy počítač rozpozná řeč stejně dobře jako člověk byl dosažen již v roce 2016. V roce 2016 to byl jeden z deseti nejvýznamnějších pokroků lidstva. Microsoft je tedy rok pozadu, anebo tento článek.