Minulý měsíc jsme informovali o tom, že Alliance for Open Media plánuje do konce roku dokončit nový video formát AV2, kterým chce navázat na a eventuálně nahradit na standard AV1. Tento nový formát či lidově řečeno kodek byl nyní prezentován Andrey Norkinem, který pracuje na vývoji pro Netflix (a je u funkcionářem v AOM), takže se dozvídáme různé technické podrobnosti a také to, „o kolik“ by nový formát zjednodušeně řečeno měl být lepší.
O 30 % lepší komprese než AV1
Podle prezentace Norkina z konference QoMeX (International Conference on Quality of Multimedia Experience) 2025 je cílem vývoje AV2 dosáhnout zlepšení komprese o 30 %, AV2 tedy nemá představovat nějaké malé zlepšení, ale skutečně „next-gen“ formát snažící se přinést velký posun ve schopnostech komprese videa.
Tímto číslem se míní, že by alespoň pro některé testované scénáře (ne nutně pro všechny) mělo být možné dosáhnou podobné kvality se zhruba o 30 % nižším datovým tokem, než by byl nutný s AV1. Jinými slovy, video soubor je o 30 % menší nebo potřebuje o 30 % menší rychlost připojení (v průměru) pro streamování.
Protože hodnocení kvality videa je nesmírně ošidná věc, jsou samozřejmě obtížně zhodnotitelná i tato srovnání, obvykle jsou založená na nějaké metrice, která nemusí říkat vše. Je také dobré pamatovat, že se zde bavíme o teoretickém potenciálu formátu. V praxi bude záležet na tom, jak dobře dokážou produkční enkodéry možnosti dané formátem využít. Často trvá i několik let, než enkodéry uzrají a nový formát je skutečně přínosem.
AV2 je ve vývoji od roku 2021 doteď. Během této doby byla shromážděna a studována řada různých kompresních nástrojů nebo změn v těch již dříve používaných. Byly testovány v referenčním enkodéru AVM, který je nyní ve verzi v11.0.0. Podle Norkina byly v tuto chvíli již dokončené téměř všechny nízkoúrovňové nástroje, které budou nový kodek tvořit a aktuálně se řeší hlavně vyšší syntax dat, které se do bitstreamu videa.
Norkin ukázal souhrnné výsledky z testování kvality dosažené referenčním enkodérem AVM (oproti referenčnímu enkodéru AV1) na testovacích sekvencích videa, podle kterého by zřejmě cíl 30% redukce datového toku mohl být alespoň v testovaných scénářích dosažen. V metrice PSNR-YUV (tedy při skórování jak jasové informace, tak chrominance) se tomu výsledky blíží, ekvivalentní kvalita byla dosažena při datovém toku, který je o 28,63 % nižší. V metrice VMAF je to lepší: Podle ní AV2 dokáže ekvivalentní kvalitu poskytnout s o 32,59 % nižším datovým tokem.
Nižší výsledek u PSNR nemusí indikovat problém, tato jednodušší metrika bývá ošidnější (obecně lze říci, že má tendenci „odměňovat“ rozmazaný obraz, optimalizovat kodek či enkódování přímo na co nejlepší PSNR je chybou) než komplexnější VMAF, v kterém AV2 má lepší výsledek. VMAF by mělo o něco lépe korespondovat s vnímanou vizuální kvalitou, byť jde stále o tzv. objektivní testování. Tím se myslí, že pracuje jako algoritmus čistě numericky, neprobíhá skutečné vizuální hodnocení snímků a videa pozorovatelem (což se ve světě videa označuje jako subjektivní testování).
Větší arzenál nástrojů, které může komprese použít
V prezentaci, kterou je možné vidět na YouTube, lze vidět krátké shrnutí technik, které se do AV2 dostaly (slajdy z ní můžete také procházet v galerii v záhlaví tohoto článku). Ztrátové video kodeky jsou hodně složité aparáty a AV2 při pohledu na schéma opět rozšířilo množství různých režimů intra predikce (což jsou techniky, které dokážou zakódovat aproximaci skutečné podoby snímku například ze sousedních už uložených bodů a podobné informace existující ve stejném snímku) a inter predikce (techniky, kdy se aproximace provádí pomocí dat z předchozího snímku například kompenzací pohybu), které komprese může využívat.
Například některé režimy intra predikce nyní predikují obousměrně (Bi-Prediction), což znamená, že predikují hodnotu bodů mezi dvěma již známými body na horní a levé hraně nově kódovaného bloku. AV2 také bude mít zdokonalené metody predikce vzorků v kanálech chrominance (U a V) z dat v kanálu jasové složky čili luminance (Y), tzv. techniku Chroma From Luma Intra Prediction. Hodně nových technik používá poměrně složité operace s cílem predikovat taková data, která pak minimalizují „residuál“, který je třeba zakódovat.
Rozšířené byly možnosti „wedge“ inter predikce, která dovoluje rozdělit blok diagonálním řezem na dvě části, kde každá je predikovaná jinak – toto je dobré pro zakódování části obrazu, kterou prochází hranice nějakého pohyblivého objektu.
AV2 má rozšířené i možnosti rozdělení snímku do bloků a sub-oddílů (partititions) bloku, a také může použít více různých režimů transformace (dříve přitom formáty používaly jen jednu transformaci, AV2 jich má k dispozici 16), které jsou různě upravené oproti AV1. AV2 bude také umět tzv.
Warp predikci, která umí místo jednoduchého pohybového vektoru použít komplikovaný pohyb s odlišnostmi pro jednotlivé body (například pro kombinace posunu a otáčení či zoomu nebo jiné změny perspektivy).
Vylepšení a rozšíření jsou prakticky ve všech ohledech, tedy i v kvantizaci, kódování entropie a loopfilterech. Těch už je pět, jeden z nových se například snaží zlepšovat kvalitu kanálů chrominance podle objektů v luma kanálu, které bývají detailnější.
Prezentace zlepšení video formátu AV2 na QoMeX 2025. Vlevo deblocking pomocí loopfilteru z AV1, vpravo vylepšený loopfilter z AV2
S těmito změnami a rozšířeními možností formátu nicméně stoupne jeho výpočetní komplexita, mimo jiné i proto, že více pracuje s vyvozováním určité informace v dekodéru místo toho, aby byla zakódována při kompresi.
Pro přehrávání bude třeba silnější CPU
Tento růst komplexity znamená, že přehrávání pomocí jader CPU, což bude nutnost na dnešních a budoucích počítačích a zařízeních, která ještě nebudou mít hardwarový dekodér, bude vyžadovat více výkonu než u AV1. K tomu budou užitečné SIMD jednotky procesorů, včetně podpory AVX2 a AVX-512. Růst komplexity a nároků je nicméně u těchto nových formátu normální věc – je nezbytný pro to, aby se mohla zlepšovat jejich schopnost komprese.
Na AV2 pracují výzkumníci pracující za Google, Meta, Netflix, Apple a čínský Tencent, což jsou firmy zřejmě s největší mírou vstupů, jsou jim připsány techniky, které byly na konferenci prezentovány (mimochodem, nejen čínských, ale i indických jmen je mezi autory podepsáno hodně za většinu z těchto společností).
Vedle nich se ale na vývoji návrhy technologií nebo jejich posuzováním a diskusemi podílí také Amazon, Broadcom, Alibaba, Intel, Nvidia, Oppo, Samsung nebo Visionular. AMD a Realtek se podílely konzultacemi zaměřenými na to, aby byl formát dobře implementovatelný v hardwaru. Tuto roli mají současně i některé z firem jmenovaných v první skupině, jako jsou Nvidia, Intel, Samsung a Broadcom).
Hlavní standard letos, další profily později
Zatím stále platí, že cílem AOM je dokončit AV2 jako standard (tedy asi i s tzv. „zmrazením“ formátu) do konce roku, kdy se asi dočkáme nějakého oficiálního oznámení. Nebude to ale úplný konec vývoje, později mohou do standardu přibývat nějaké rozšířené formáty, například s větší bitovou hloubkou. A bude samozřejmě pokračovat práce na ladění enkodérů, tedy jeden z nejtěžších a nejdůležitějších úkolů pro každý nový formát video komprese.
Zdroje: VideoCardz, Netflix / AOM (YouTube)



