Google vám bude rozumět i na diskotéce. Vyvinul k tomu technologii

Lidský mozek se dokáže soustředit a zesílit konkrétní hlasy ve skupině lidí. Totéž teď umí i umělá neuronová síť Googlu. Oddělí hlasy od okolí.

0
koncert párty
Ilustrační foto (zdroj: Free-Photos / Pixabay)

Možná už jste slyšeli o tzv. fenoménu koktejlové párty. Lidský mozek se dokáže soustředit na jednotlivé hlasy, přestože stejně hlasitě slyší mluvit i další lidi, případně jej ruší jiný šum. Osoba, kterou chce poslouchat, mu však připadá hlasitější.

Vědci tento jev studují již přes 60 let, ale zatím stále neví, jak přesně v tomto případě neuronová soustava dokáže hlasy oddělovat. Několik studií ukázalo, že záleží například na směru, ze kterých zvuky přicházejí, a že lepšímu porozumění pomáhá, když osobu vidíme mluvit.

Co je však přirozené pro člověka, s tím si těžko poradí počítač. Osm výzkumníků Googlu vypracovalo studii Looking to Listen at the Cocktail Party a v rámci ní vytvořili umělou neuronovou síť, která se naučila separovat hlasy.

Google Cocktail party
Google od sebe dokáže oddělit dva současně mluvící hlasy

Trénink probíhal na 90 000 videích z YouTubu. Z přednášek na TED Talks a návodových videí vystříhali 2000 hodin záznamů, na kterých byly vidět obličeje osob a na pozadí nebyla hudba ani jiné ruchy. Software díky tomu poznal, jak vypadá zvukový spektrogram mluvící osoby i kdy osoba mluví, protože sleduje také vizuální stránku.

Výsledek je hodně přesvědčivý. Google dokázal oddělit dva současně hovořící komiky i sportovní moderátory, odstranil hluk v kavárně apod. Na stránce projektu najdete desítky ukázek včetně srovnání s konkurenčními programy. Těžko posoudit, nakolik účelově Google vybral videa, ale dle ukázek má nad rivaly navrch.

K čemu je tato technologie dobrá? Typicky bude využívaná pro strojové přepisy videozáznamů, vylepšení automaticky generovaných titulků na YouTubu nebo různé asistenční služby. Kupříkladu Skype dokáže v reálném čase překládat mluvené slovo do jiného jazyka. S podobnou technologií mu to půjde i v rušném prostředí. Případně při videohovoru zapnete filtr, který ztlumí bušení do klávesnice, štěkajícího psa nebo hluk zvenčí. Google sám tvrdí, že zkoumá, do kterých produktů technologii nasadí.

Google vám bude rozumět i na diskotéce. Vyvinul k tomu technologii
Ohodnoťte tento článek!
5 (100%) 4 hlas/ů