Tchajwanský veletrh hardwaru a elektroniky Computex 2023 začíná a Nvidia už představila první z novinek pro svět počítačových her, které během tohoto veletrhu chce prezentovat. První, kterou probereme, představuje spíše softwarovou věc – technologii umělé inteligence, která má dodat větší realismus postavičkám ve hrách a interakci s nimi. Současně je to také příležitost oživit reprezentaci hráče v herním světě.

Nvidia ACE

Technologie Nvidia ACE znamená Avatar Cloud Engine a jde o speciální AI model, který je uzpůsobený k tomu, aby „oživil“ a dodal inteligenci herním NPC. Tento model může být integrován do her nebo do middlewaru, který slouží k tvorbě her. Bude už na vývojářích, jak ho využijí.

ACE má několik částí. První je Nvidia Omniverse Audio2Face, což je model, který rozpoznává řeč (ze zvuku) a analyzuje, jaké pohyby obličeje by dané mluvě odpovídaly. Tyto pohyby pak umí aplikovat na 3D model postavy (respektive hlavy a tváře), takže výsledkem je, že postava reaguje na přehrávané audio a mluví synchronizovaně s audiem. Je to tedy takový reverzní dabing. Podobně jako u animovaných emoji používajících motion tracking se takto mohou ve hrách rozpohybovat avatary hráče.

Nicméně ACE nemá animovat jenom avatar hráče, ale i ostatních postav, které také mohou být animované podle nahrané řeči. K tomu se ale přidávají další komponenty, označené Nvidia Riva a NeMo. NeMo je aplikace jazykového AI modelu, který simuluje NPC (postavu ve hře) pro potřeby konverzace. Podobně jako s chatbotem se tak s takovou postavou dá vést (simulovaná) konverzace. Proti tradičnímu modelu, kdy jsou konverzace předem napsané, zde postava může mluvit volně podle toho, co řekne hráč. Mělo by to být více nepředvídatelné, na druhou stranu kvůli tomu asi začne být složitější pro vývojáře například kontrolovat, zda se někde neobjevil bug, kdy se nějaké téma hráčům obtížně „odemyká“, pokud postava má věcí na sdělení hodně.

Postava se bude chovat podle nějakého svého definovaného pozadí a role, přičemž model také používá techniku tzv. „guardrails“, která slouží k tomu, aby nějak limitovaly věci, o kterých postava bude mluvit. Toto je opatření proti vtipálkům, kteří zkouší chatbotům podsouvat různé nesouvisející otázky, třeba aby z nich dostali různé nevhodné (rasistické, mládeži nepřístupné atd.) průpovídky.

AI model NeMo sám o sobě generuje text, ale k tomu se pak dá přidat další model Riva, který syntetizuje z psaného textu řeč. Riva se pak tedy postará o dabing textu, který AI pro postavu generuje. Aplikování generované řeči řeší známý „problém“, kdy hry s velkým objemem textu nemají všechno namluveno a některé repliky jsou pouze textové. Při AI generování bude hlas všude. Ale umělý, samozřejmě.

Demo Kairos

Nvidia ACE má umožnit nejen syntézu řeči z textu, ale také rozpoznání řeči uživatele a naopak její přepis do textu, což technologie Riva také poskytuje. Je tedy možné s onou postavou tvořenou AI modelem přímo konverzovat bez psaní. Nvidia toto na Computexu předváděla v demu nazvaném Kairos, které bylo vyvinuté ve spolupráci se startupem Convai. V budoucnu by podobný model interakce mohl být použitý ve hrách, toto demo ale zpracovává jen jednu konkrétní postavu/konverzační situaci.

Demo Kairos ukazující konverzační AI pomocí technologie Nvidia ACE (zdroj: Nvidia) Autor: Nvidia

Druhá věc je asi, jestli je ovládání hry hlasem úplně to, co chceme, protože jednak to nebude moc šikovné, když nejste doma sami, ale vedle toho to ani nemusí být zas tak praktické. Volba z připravených odpovědí aktivovaná jen kliknutím nebo jednou klávesou je o dost úspornější na čas a úsilí. Ale je možné, že budoucí hry najdou recept na to, jak tuto interakci využít.

Toto vše samozřejmě potřebuje nějaký výkon a AI model může mít asi celkem značné nároky (na výpočetní výkon, ale i paměť). Podle Nvidie může ACE běžet v cloudu, ale i lokálně na hardwaru, kde hra běží. To druhé by určitě bylo lepší, protože pokud hra bude závislá na cloudu, přestane za pár let fungovat, až se autoři rozhodnou vypnout servery.

Nvidia už oznámila některé projekty, které ACE budou používat – má jít například o hry S. T.A.L.K.E.R. 2: Heart of Chernobyl a Fort Solis od indie vývojářů Fallen Leaf. Nicméně v případě těchto her ještě nepůjde o použití celého AI modelu pro NPC, ale jen o aplikaci oné dílčí technologie Audio2Face. Jejich vývojáři tedy implementují jen funkci animace tváře podle přehrávaného audia (řeči), ne generovanou osobnost postav.

