Nvidia to prave vsude, co jsem videl, podava tak, ze generaci, kde to bude podporovano, az krecovite nejmenuje. To ve mne vyvolava spis dojem, ze to pojede i na starsich kartach, ale taktne na to neupozornuji, aby podporili prodeje RTX50. Vsude se o tom zminuji (narozdil od jinych featur typu LSS) jako "predstaveno spolu s generaci Blackwell", ne podporovano pouze Blackwellem...
Je to možné. Tady ty aktuální zprávy mluví jenom o RTX 5000, ale v takovém dom dokumentu k architektuře také stojí:
"With the Blackwell launch we introduce the era of developer-created neural shaders, some of which will also run on prior generation GPUs."
Dost se tam ale také píše o tom, že Blakcwell má specifické změny, aby to na něm fungovalo ("Many architectural improvements to Blackwell were made specifically to increase the performance and efficiency of neural shaders and this section describes those optimizations."). Napadá mě třeba vysvětlení, že to (HLSL shader + tensor operace) na starších GPU půjde taky zapojit dohromady, ale bude tam něco jako context switch nebo inicializace tensor jádra, stojící výkon...
Takže je možné, že starší GPU jsou kompatibilní, ale byly by u nich problémy s výkonem. Výkon je teda najasný i v případě těch GPU Intel a AMD. One teda nějakou představu o tom, jaký výkonnostní propad by ve hrách byl, když se v nich nějaká taková miniAI spustí aby třeba kreslila kůži nebo nějaký jiný objekt, zatím obecně nemáme ani pro Blackwell. Bude to asi mít svoji cenu tak jako tak.
V tom si myslím, že to nebude. Je pravda, že by to ty mini AI modely mohly asi využít pro nižší dopad na spotřebovanou paměť, ale zase přece jenom u FP4 se předpokládá že nebude lehké ho využít bez problémů v kvalitě výstupu, takže bych čekal, že osmibitová přesnost bude častější? No, uvidíme.
Co Nvidia zmiňuje, je že "dřív" (implikováno asi na starších GPU, ale samozřejmě nelze vyloučit, že se softwarově podaří to podporu zpětně rozšířit dozadu) se tensor jádra nedala použít přímo ze standardních shaderů (pixel, geometry...), muselo se k nim přistupovat přes compute rozhraní (Cuda nebo compute shadery). Zatímco Blackwell je umí zpřístupnit i v základních shaderech (výslovně je jmenovaný pixel shader jako asi nejběžnější). Z toho si myslím, že je to o jiných překážkách než o schopnosti těch FP4 výpočtů (Aktualizoval jsem ten text.)