Prepojenie online správania používateľov s offline nákupmi je snom mnohých firiem a analytikov. Existuje viacero možností, ktoré sú viac či menej spoľahlivé. Jednou z nich je BigQuery, data warehouse platforma od Googlu, ktorá slúži ako automatizovaný centrálny systém prepájajúci viaceré dátové zdroje. Aj vám to znie tak sexi, ako nám? Tak čítajte ďalej. 😉 

Pri analyzovaní nákupného správania sa často zabúda na fakt, že používatelia interagujú so značkou aj inak, ako len v “online svete”. Pričom tieto interakcie (na webe alebo prostredníctvom aplikácie) môžu pre niektoré firmy predstavovať iba malý zlomok z celkovej nákupnej cesty zákazníka. Hlavne, pokiaľ sa bavíme o lead generation weboch alebo iných “omni channel” biznisoch, kedy zákazníci vyhľadávajú a porovnávajú produkty online, no transakcia sa nakoniec odohrá v kamennom obchode. Spoliehať sa v takomto prípade len na webové dáta môže byť veľmi zavádzajúce. Existujú možnosti ako posielať offline interakcie do Google Analytics, no častokrát je takáto implementácia komplikovaná a príliš náchylná na chybu.

Ak sú však dáta z webu doplnené aj o dáta z ďalších zdrojov, ste schopní vytvoriť omnoho reálnejší obraz o celkovej nákupnej ceste zákazníkov. Či už sa jedná o:

  • CRM dáta, 
  • dáta z mobilných aplikácií,
  • dáta získaných z rôznych API (napríklad dáta o počasí),
  • a mnohé ďalšie.

Ak sa snažíte prepájať dáta z viacerých zdrojov, je potrebné vytvoriť jeden centrálny systém, ktorý ich bude (ideálne automaticky) uchovávať, upravovať a navzájom prepájať. V neposledom rade vám systém musí umožniť rýchlo a jednoducho z dát vytiahnuť to, čo momentálne potrebujete pre lepšie informované rozhodnutie.

Je vhodné vlastné riešenie?

Pre veľké firmy so šikovným IT oddelením a analytikmi možno áno. Pre väčšinu firiem tu však vzniká množstvo problémov: 

  1. Vybudovanie takéhoto systému na vlastných serveroch a s využitím vlastnej výpočtovej sily je časovo a finančne veľmi náročné. 
  2. To sa netýka len počiatočného nastavenia, ale aj následnej údržby, ktorá s vybudovaním takejto infraštruktúry súvisí.
  3. Navyše, ak chcete takýto systém škálovať, vznikajú ďalšie komplikácie. Jednoducho povedané: výpočtová sila, ktorú máte k dispozícií už nepostačuje a potrebujete znova zainvestovať. S tým sú spojené ďalšie časové a finančné nároky.
  4. Opačný problém nastáva, ak ste investovali do vybavenia, ktoré momentálne využívate tak na 30%. Systém musíte udržiavať rovnako, ako keby ste ho využívali na 100% a rovnako musíte platiť zbytočne vysoké účty za elektrinu.

Čo je BigQuery?

BigQuery je vysoko škálovateľný data warehouse umiestnený na Google Cloud-e. Pôvodne bolo BigQuery vyvíjané pre interné potreby Googlu, no neskôr ho sprístupnil verejnosti prostredníctvom Google Cloud. Hlavnou úlohou BigQuery je vybudovanie jedného centrálneho miesta pre zber, modifikovanie a prepájanie dát z rôznych zdrojov.

Ak poznáte databázové systémy, tak viete, že sú založené na tabuľkách. V BigQuery sú taktiež dáta uložené vo forme tabuliek. Stĺpce predstavujú atribúty a riadky jednotlivé záznamy. V prípade, že chceme z tabuľky vytiahnuť údaje, musíme napísať dopyt (alebo query). Dopyty sa v BigQuery zadávajú v dopytovacom jazyku SQL. Ako to potom reálne vyzerá v praxi?

Ukážme si to na veľmi jednoduchom príklade. Predstavme si, že máme tabuľku s objednávkami z nášho eshopu. Tabuľka obsahuje id transakcie (transaction_id), id používateľa (user_id) a celkovú hodnotu transakcie (revenue). Ak by sme chceli určiť lifetime value (LTV) hodnotu našich zákazníkov, napísali by sme dopyt:

SELECT SUM(revenue) AS ltv, user_id
FROM `ourdatasource.ecommerce`
GROUP BY user_id
ORDER BY ltv DESC

Samozrejme, s rastúcou náročnosťou otázok rastie aj komplexnosť dopytu. Avšak výhodou takéhoto priameho dopytovanie je, že otázky vieme priamo pretransformovať do formy SQL dopytu. Výsledky je možné buď vyexportovať (CSV, Google Sheets), alebo uložiť vo forme tabuľky priamo v BigQuery. Nakoľko Google Data Studio obsahuje BigQuery connector, výsledky analýz môžeme jednoducho vizualizovať napríklad práve v tomto nástroji.

Hlavné výhody BigQuery

Aké sú teda výhody vytvorenia centrálneho dátového hubu na cloud-e oproti vytvoreniu takéhoto hubu vo forme vlastných fyzických serverov? 

Lacné úložisko

Úložisko Cloud Storage je veľmi lacné, navyše prvých 10 GB je zdarma. V čase písania tohto článku (január 2020) stojí 1 GB úložiska 2 centy. V prípade, že ste dáta posledných 90 dní nemodifikovali, cena dokonca padá na 1 cent za GB dát. To znamená, že jeden terabajt dát vás stojí na aktívnom úložisku 20$ mesačne. Ak ste uložené tabuľky nezmenili po dobu 90 dní, cena padne na polovicu, tzn. 10$.

Menej infraštruktúry a údržby = viac práce s dátami.

Ak chcete vybudovať svoje vlastné Big Data riešenie, musíte investovať do infraštruktúry. Okrem úložiska (fyzických diskov) na uchovávanie dát, je potrebná výpočtová sila, ktorá bude schopná nad dátami dostatočne rýchlo vykonávať. Samozrejme, s tým všetkým je spojená časovo náročná údržba, aby všetko fungovalo tak ako má. Pri BigQuery všetky tieto starosti odpadávajú. Všetky zdroje sú vám priradené podľa potreby a po skončení práce sú vám zase odobrané. Všetko sa deje automaticky na pozadí, takže sa môžete sústrediť čisto na prácu s dátami. 

Porovnanie riešenia na Cloude (Big Query) s fyzickým vlastným riešením.

Výhodný model spoplatnenia

Výhodou je aj model, akým je BigQuery spoplatené. A to sa netýka len BigQuery, ale všetkých komponentov, ktoré sú dostupné v rámci Google Cloud. Najlepšie pomenovanie je asi “pay as you go”, to znamená, že celkový účet sa bude odvíjať od toho, aké produkty a ako intenzívne ich využívate.

BigQuery je spoplatnené podľa množstva spracovaných dát. Pred vykonaním akéhokoľvek dopytu (query) sa zobrazí informácia o tom, aké množstvo dát sa spracuje (v MB alebo GB). Prvý terabajt je každý mesiac zdarma. Je to viac než dosť, pokiaľ si chcete prácu s BigQuery vyskúšať na niektorom z množstva verejných datasetov. Po vyčerpaní prvého terabajtu je každý ďalší spoplatnený sumou 5$. Samozrejme, dôležitá je optimalizácia, aby dopyty do databázy boli čo najefektívnejšie (sprocesovali len nevyhnutné množstvo dát).

Viac podrobností o cene môžete nájsť tu, poprípade využiť online kalkulačku, ktorá odhadne vaše mesačné náklady. 

Škálovateľnosť

Výhodou riešenia na Google Cloud-e je, že zdroje sú vám priradené podľa toho, koľko v danej chvíli reálne potrebujete. Keď sa snažíte spracovať v jednom dopyte veľké množstvo dát, na pozadí je vášmu dopytu priradená väčšia výpočtová sila, aby ste na výsledok nemuseli čakať večnosť. A keď s prácou skončíte, výpočtové jednotky sú vám znova odobraté. 

Ste pripravení začať s BigQuery?

BigQuery pomáha firmám bezpečnejšie, rýchlejšie a efektívnejšie spravovať a spracovať dáta. Je súčasťou ekosystému Google Cloud, vďaka ktorému viete dáta priamo prepojiť s ostatnými Google cloudovými komponentami, ako napríklad:

  • Dataprep na rýchlu a jednoduchú prípravu vašich dát, 
  • Cloud Storage ako lacné cloudové úložisko, 
  • AI a Machine Learning modely vytvorené priamo Google-om. 

Toto všetko máte okamžite k dispozícii bez nutnosti investovania veľkého množstva času a peňazí do budovania a udržovania komplikovanej infraštruktúry.

Téme BigQuery a Google Cloud sa na našom blogu budeme venovať viac. Ak už teraz máte akékoľvek otázky, dajte nám vedieť a pokúsime sa ich zodpovedať v ďalších článkoch 🙂