Mě formát Block FP16 silně připomíná návrat k fixní řádové čárce, kdy na rozdíl od celého čísla šlo o přezentaci čísla desedinného, ale zapsaného jako celé a tedy s ním mohla pracovat ALU jednotka, což bylo rychlejší. A největší rozdíl vidím v tom, že u fixní řádové čárky pozici desetinné čárky určil programátor. Stále ten formát běžně požívají digitální signálové procesory.
Historicky formátů plovoucí řádové čárky bylo hodně. A až u druhé generace FPU pro i8080 (AMD Am9080) / AMD Am9511 a Am9512 (Intel 8231 a 8232) - Jo první koprocesor na jednom čipu mělo AMD, používal se i ve spojení se Z80 a Motorola 6800. Právě 9511 ještě používal proprietární formát, 9512 už uměl částečně IEE754, ale finální IEE754-1985 se standardizovali až po i8087.
A proč to píšu - zas se vyrojily úplně nové formáty od 4. do 16. bitů včetně 6. bitu. A když pominu klasický Half tedy 16 FP a pak 16 BFLOAT, je toto třetí formát 16. bit v plovoucí řádové čárce. Teda pokud jich není víc.
Recenze PCW
https://www.youtube.com/watch?v=UyZgHSv9C2k&t=3920s
NTCHeck
https://www.notebookcheck.com/Asus-Zenbook-S-16-Laptop-im-Test-Der-erste-Copilot-Laptop-mit-AMD-Zen-5-im-1-3-cm-flachen-Gehaeuse.866609.0.html
https://www.notebookcheck.com/Asus-ProArt-PX13-im-Test-Dank-AMD-Zen-5-und-RTX-4070-Laptop-das-schnellste-13-3-Zoll-Convertible-der-Welt.866991.0.html
All hail to the new KING ::)
omluvte laickost, ale v modernich instrukcich se moc nevyzanam:
je ten AVX512 "přes 2x256" v reálu problém? jen to bude 2xpomalejší? je avx2 voláno tak často(tak hustě), že by bylo pozorovatelné skoro 2násobný doba běhu? Nepočítám benchmarky. A spotřeba celková by měla být stejná, ne? (+-nějaká režie a fixní/statická spotřeba
Ryzen 7040 series (7040HS) to taky má přes 2 prudochy?
tu něco nesedí "Jednotka NPU má o 60 % integrovanou pracovní paměť"
V reálu moc ne, nemělo by se stát, že vám kvůli tomu bude něco drhnout. Je to udělané stejně, jako AVX-512 v Zenu 4, takže když se podíváte na testy výkonu, který AVX-512 přidávalo na Zenu 4, tak by to mohlo odpovídat.
512bitová implementace nad rámec toho přidá v určitých program výkonu víc, v jiných možná nebude rozdíl tak velký - záleží na tom, kde má běžící kód limitace. Když program profituje z AI instrukcí a permutací, tak může na Zen 5 "256bit" možná být blízko toho, co dokáže 512bit. Pokud je to úloha využívající hrubý výpočetní výkon nebo enkódování videa, pak na Zenu 5-256 moc nezíská a větší efekt bude až u Zen5-512.
Takže nevýhoda je jenom určitá proti plnotučnému Zenu 5. Proti procesorům, které nemají AVX-512, je ta implementace pořád ve výhodě.