Jak funguje Google Dremel, analýza desítek gigabajtů dat v řádu sekund

0

Včera jsem měl možnost zúčastnit se konference Google Enterprise. Během půldenního programu přišlo na řadu několik témat, ke kterým se možná ve zpravodajství Cnews dostaneme a možná ne. Jako jeden z nejzajímavějších bodů konference jsme vybrali prezentaci aplikace, které Google říká interně Dremel, oficiálně bigquery. Dremel není úplně nová věc, pro zákazníky ji ale Google zpřístupnil teprve nedávno, do té doby ji používal k analyzování statistik užívání svých služeb.

Řekněme, že se chceme podívat na data z meteorologických stanic. Předváděné demo umí buď to, nebo nějak analyzovat články z Wikipedie (to jsme bohužel neviděli).

Předváděčka byla skutečně naživo. Důkazem toho budiž, že Google Maps, na které je aplikace napojena, zrovna odmítly po přetažení boxíku s vymezením oblasti vyrenderovat mapové podklady.

Přechroustat data nějakou dobu trvá. 11 GB jsou data, která byla skutečně načtena a použita pro naši statistiku, nikoliv velikost celé databáze s údaji o počasí. Google Dremel není zadarmo, přece jenom vyžaduje dost výpočetního výkonu, uživatelé budou ale platit jen za objem dat, která skutečně pro daný dotaz potřebují.

A takhle nám aplikace vynese nalezená data do grafu. Lze zobrazit i provedený dotaz v jazyce SQL.

Můžete si ale být jistí, že databázový systém od Oraclu ani Microsoft SQL Server za tím neběží.

Věděli jste, že…?

Prezentace Dremelu byla součástí přednášky Jaroslava Bengla, produktového manažera Google Maps, a dozvěděli jsme se během ní pár zajímavostí o mapách obecně.

  • Google začal vyvíjet vlastní mapy proto, že třetina dotazů do vyhledávače nějakým způsobem souvisela s místy. Lidé chtěli vědět, kde se co nachází, nebo co se nachází v nějaké oblasti, a Google potřeboval vědět, kde se nachází uživatel, aby mu nabídl relevantní výsledky.
  • Opravit mapové podklady v době, kdy je Google odebíral od externích poskytovatelů, trvalo až rok (kvůli pravidelným cyklům vydávání nových verzí). Nyní to pracovníci Googlu zvládnou třeba i několik minut od nahlášení problému přes tlačítko v Google Maps.

 

  • Když Google Maps začínaly, sestavovaly se mapy z předem vyrenderovaných dlaždic ve formátu PNG. Takto namalovat celý svět trvalo tehdejším serverům asi dva týdny. Nyní se z obrázky mapových podkladů renderují v reálném čase, takže Google může například snadno doladit barevné provedení.
  • Když vám Google ve výsledcích vyhledávání najde pohled ze Street View na budovu, kterou hledáte, vypadá to zdánlivě jednoduše. Ve skutečnosti se za touto funkcionalitou skrývají algoritmy na rozpoznání textu (OCR), které z fotografií čtou všemožné cedule, nápisy, čísla domů i dopravní značky.

Jak funguje Google Dremel, analýza desítek gigabajtů dat v řádu sekund

Ohodnoťte tento článek!

1 komentář

  1. The VIA PadLock Security Engine integrated into all recent VIA processors includes a powerful AES cryptography engine, the VIA PadLock ACE, that allows information to be encrypted at a rate of up to 20 gigabits per second.

    P.S. Tie osemjadrá idú nejak do módy…