Intel uvádí AI akcelerátor v podobě USB klíčenky, má výkon 0,1 TFLOPS při 1W spotřebě

9

Nvidia si letos na apríla dělala legraci, že uvede akcelerátor umělé inteligence ve formě klíčenky do USB, avšak někdy se fantazie přeměňují v realitu. AI akcelerátor do USB totiž skutečně existuje – jen ho nevyrábí Nvidia, ale Intel. Ten totiž loni koupil malou firmu Movidius, která se na strojové učení zaměřovala a nyní uvádí na trh už druhou generaci jejího produktu Neural Computing Stick. A přesně jak dí název, jedná se o malý výpočetní akcelerátor připojený na rozhraní USB 3.0 a vyráběný v klíčenkovém provedení o rozměru 2,7 × 1,4 × 7,25 cm.

K čemu je taková periférie? Cílem je akcelerovat běh neuronových sítí na jakémkoli zařízení s portem USB, přičemž výhodou je snadná instalace a rychlost rozběhnutí tohoto řešení. Vzhledem k formátu je výkon omezen a u zařízení se tak počítá hlavně s tzv. inferencí, tedy aplikací již hotové neuronové sítě (na bázi frameworku Caffe), která byla vytrénována separátně někde jinde na výkonnějším hardwaru. Aplikace je zřejmě předpokládána hlavně pro počítačové „vidění“ tedy zpracování obrazu z kamery, identifikaci objektů, jelikož Movidius o svém hardwaru mluví jako o „VPU“ (vision processing unit).

Nový Movidius Neural Compute Stick je založený na VPU čipu označeném Myriad 2, zřejmě vyráběném na 28nm HPC procesu TSMC. Tento čip složený z CPU jader s neupřesněnou architekturou typu RISC a vektorových výpočetních jednotek má údajně příkon zhruba 1 W, přičemž má podávat výkon okolo 100 GFLOPS (0,1 TFLOPS) v operacích s přesností FP16. Pro srovnání – výpočetní GPU Vega 10 od AMD slibuje 24,6 TFLOPS při 300 W, což by bylo jen 82 GFLOPS na 1 W. Tesla P100 od Nvidie má při spotřebě 250–300 W udávaný výkon o něco nižší (vychází na 70,6–75 GFLOPS na 1 W). Nicméně srovnávání poměru spotřeby a výkonu asi nemá mezi těmito zařízeními příliš smysl, jelikož potenciální využití se příliš liší. Podle Intelu má jedna klíčenka zvládat 10 až 15 inferencí za sekundu.

Klíčenek Movidius Neural Compute Stikc lze používat víc naráz
Klíčenek Movidius Neural Compute Stikc lze používat víc naráz

Aktuální Movidius Neural Compute Stick navazuje na předchozího ještě samostatně vyvinutého předchůdce Fathom Neural Compute Stick (který se však nedostal do prodeje a zůstal jen zkušebním polo-interním produktem), ovšem s vylepšeními. Například je možné jich mít v systému více, přičemž u čtyř kusů údajně výkon škáluje prakticky lineárně a zaměstnanci aktuálně ladí i konfigurace s šesti a osmi zařízeními. Zvětšila se také paměť, kterou má SoC Myriad 2 jako pracovní prostor – v první generaci šlo jen o 1 GB, nyní má klíčenka 4 GB paměti LPDDR3. Naopak se na softwarové úrovni zmizela podpora frameworku TensorFlow od Googlu, s nímž v dřívějších dobách firma spolupracovala – v roce 2014 její čip byl v zařízení Project Tango. Dnes se zařízení Movidius integruje zejména s AI ekosystémem Intelu, tedy s frameworkem Caffe, Xeony, případně službami cloudu Nervana.

Čipy Movidius Myriad 2 by asi měly být použitelné jako akcelerátor i v jiných zařízeních (nabízí se třeba drony a roboty) a pro takovéto aplikace může Neural Compute Stick sloužit jako vývojová platforma. Zařízení stojí 79 dolarů (celkem nízkých 2150 Kč) a v tuto chvíli by se již mělo prodávat. Podle Intelu představuje levnou a dostupnou cestu, jak se do do této problematiky dostat – i když konvenční CPU nebo grafická karta, na které se takový software dá vyvíjet a testovat, taky nevyjde nějak draho. Intel by měl Neural Compute Stick prezentovat příští týden na konferenci CVPR2017 v Honolulu, takže by se k zařízení mohly objevit další informace.

Intel uvádí AI akcelerátor v podobě USB klíčenky, má výkon 0,1 TFLOPS při 1W spotřebě

Ohodnoťte tento článek!

9 KOMENTÁŘE

  1. „Tesla P100 od Nvidie má při spotřebě 250–300 W udávaný výkon o něco nižší (vychází na 70,6–75 GFLOPS na 1 W).“

    Proc uvadite Tesla P100 a ne rovnou Volta (Tesla V100)? Ta ma diky Tensor Cores skoro 500 GFLOPS na 1W a zaslape Vegu i ten compute stick do zeme.

    • Zatím není, a vzhledem k tomu, jak paperlaunchová byla P100 (reálně dostupná až 2017, víc jak půl roku po „odhalení“), se mi to zdálo předčasný.
      Jinak tedy je třeba říct, že i ty AMD Instinct nejsou asi ještě na trhu – moc jasný to není, mají být dostupné v „Q3“. Ale mělo by to být blíž a menší vaporware.
      Edit: možná tam měla být napsaná spíš ta Frontier Edition, která je taky částečně míněná jako vývojářský hardware pro AI/neuronové sítě.

      Mimochodem, https://www.cnews.cz/nvidia-uvadi-voltu-obrovsky-815mm%C2%B2-cip-na-12nm-procesu-hbm2-5376-shaderu/
      120 TFLOPS s Tensor Cores, 300W, to mě tedy vychází přesně na 400 GFLOPS/W, ne na „skoro 500“.

          • Tri veci Maudit:
            1. Si si istý, že vôbec porovnávaš porovnateľné keď sem pletieš Tensor Cores? Tie sú predsa iba na špecifické úkony. Nebol by som si vôbec istý, či je reálne ich plne vyloadovať a dosiahnuť tak ten proklamovaný výkon, nakoľko sama Nvidia uvádza pri porovnaní s predošlou Teslou cca 2,4x zlepšenie v AI learning a cca 3x zlepšenie v inference. A to pri viac ako 5x vyššom teoretickom výkone.
            2. Kde si prišiel na to, že pri použití Tensor Cores máš k dispozícii ešte „vypocetni vykon zbytku karty“?
            3. Odkiaľ máš istotu, že pri plnom zaťažení Tensor Cores bude karta držať max boost a neprekročí pri tom TDP?

          • @ifkopifko
            1. Tak ono u těch teoretickcýh výkonů je to vždycky dost hypotetické, protože předpokládají maximální využití, které v praxi není. A taky se uvádějí pro maximální turbo, které nevím jestli ty výpočetní karty úplně v serverech budou běžně dosahovat na 100 %. Tady ale jde o úplně jiné kategorie velikostí, takže bych asi ty FLOPSy ani moc neporovnával. Dal jsme to tam jenom pro ilustraci.
            2. Naráz pravděpodobně nebo spíš skoro určitě oboje použít nelze (naplno). A to proto, že jen ty běžné jednotky sežerou při plné zátěži +-celé TDP. Kolik sežerou Tensor cores při plné zátěži celkově, to těžko říct, ale bude to hodně – všechny ty výpočty v té matici zadarmo nebudou plus zátěž registrů (viz AVX/AVX-512).
            3. Teoreticky by mohla, ale asi jenom když budou zatížené jenom ty tensor cores a nic jiného. Tipl bych si, že to spíš bude dělat špičky spotřeby a takty při tom poběží níž, jako to má Intel u AVX/AVX-512

  2. Tenhle bazmek by možná šel použít na trénování UI za účelem rozpoznávání a potírání čím dál vlezlejší internetové reklamy 🙂 Takový samoučící se AdB s hw akcelerátorem už by mohl být hodně efektivní.