A nagy Big Data félreértés

„A Big Data olyan mint a tiniknél a szex:

  1. mindenki erről beszél
  2. senki sem tudja igazán, hogy hogyan kell csinálni
  3. mindenki azt hiszi, hogy  a többiek csinálják
  4. ezért mindenki azt mondja, hogy ő is csinálja.”

(Dan Ariely)

Biztosan hallottad már a fenti mondást. Félig vicces, de félig igaz is. Manapság már a csapból is a Big Data folyik és ennek a legfőbb oka nem a technológia terjedése, hanem az, hogy az újságírók és a marketingesek rájöttek, hogy ennek a két szónak az említésével szinte bármit el lehet adni. A másik oldalról viszont a valódi adat-szakemberek ritkán írnak közérthető cikkeket a témában, hiszen őket a technológia érdekli.
Ezt az űrt szeretném betölteni ezzel a rövid kis cikkel. Mi az a Big Data? Érthetően, de marketing bullshit nélkül.

Small Data

Kezdjük onnan, hogy mi az a small data? Az adatelemzés alapjainak alapjait a népszámlálás teremtette meg, ahol már évszázadokkal ezelőtt is kérdezőbiztosok mindenféle érdekes dolgokat kérdezgettek az emberektől. Ennek a következő evolúciós lépcsője a kérdőívezés lett, ami mind a mai napig egy gyakran használt piackutatási módszer. Mi a baj a kérdőívezéssel? Egyrészt a mintavétel: még a legprecízebb, legkörültekintőbb mintavétel is tévedhet. Hogyan reprezentálhatná hűen 2.000 ember válasza egy millió ember gondolatait? Persze vannak korrekt statisztikai módszerek, de a hibázás lehetősége mindig fennáll. A másik probléma a válaszok minősége. Az emberek hazudnak és gyakran nem is tudják, hogy hazudnak. Ha Téged megkérdeznek, hogy mi a kedvenc színed, lehet, hogy ma azt mondod, hogy a piros… aztán 1 hét múlva rájössz, hogy amúgy az összes pólód sárga és elbizonytalanodsz. De addigra már leadtad a válaszodat, a nagy üzletemberek pedig már döntéseket hoztak az alapján.

Ezek tipikus small data-s problémák.

Majdnem Big Data

Ezekre a problémákra ad választ a big data-s gondolkodás mód. Ha big data alapon gondolkozunk, akkor nem megkérdezzük az embereket, hanem a megfigyeljük viselkedésüket. Így nem tudnak nekünk (és maguknak) hazudni. Emellett pedig nem csak 2.000 embert figyelünk meg, hanem az összeset.

Értelemszerűen ez a legkönnyebben a számítástechnikai és az ahhoz kapcsolódó területeken történhet meg, ahol minden kattintásból és egérmozgásból új adatsor születhet.

Ezen a logikán keresztül születtek meg az olyan ismert és használt projektek, mint a Google Analytics, a CrazyEgg vagy a Mixpanel.

Bár ezekben a projektekben minden felhasználó/látogató viselkedését letárolták, de még mindig nem számítanak Big Data-nak, mivel relatív még mindig elég kicsi adatmennyiségről és korlátok között mozgó, nem túl rugalmasan kezelhető adathalmazokról beszélünk (pl. csak az előre meghatározott riportokat lehet legyártani, nem lehet kettőt kombinálni)… De akkor mi a tényleg nagy?

Big Data

Az elmúlt évek (évtizedek) egyik fontos trendje volt, hogy az adattárolás ára folyamatosan és nagy erővel csökkent. Mára elértük azt az állapotot, hogy olyan olcsó adatot tárolni, hogy inkább elmentünk mindent és nem törlünk ki semmit. És ez a kulcsa a Big Data-nak! Letárolunk minden adatot, amit csak tudunk és nem törlünk ki belőle semmit, még évekre visszamenően sem. Ezt jellemzően már nem Analytics-szerű programokba pakoljuk, hanem saját adattáblákba (pl. SQL) vagy log-okba.

Így előbb vagy utóbb akkora adatbázisok jönnek létre, amivel egy számítógép már nagyon nehezen birkózik meg. Egy terabájtos nagyságú adathalmazt Excel-ben vagy SPSS-ben nyilván meg se próbálunk megnyitni. De egy rendes SQL lekérdezés is akár órákon, sőt napokon keresztül futhat rajta. Egész egyszerűen akármivel próbálkozik az ember (R, Python, etc.), azt látja, hogy elérte a számítási kapacitás tetejét és nem tudja értelmes időn belül feldolgozni az adatait.

És ekkor jönnek képbe a Big Data technológiák – aminek az alapja, hogy az adatainkon innentől fogva nem egy számítógép dolgozik, hanem akár több tíz vagy száz vagy még több. Legtöbbször ezek a cluster-ek könnyen és szinte végtelenül skálázódnak: minél több az adatunk, annál több erőforrást tudunk bevonni a feldolgozásába. Így újra normális idő alatt tudjuk elemezni az adatainkat. Viszont sok-sok számítógépet egybekötni és egyszerre dolgoztatni egy elemző script-en: új infrastruktúrát és új technológiát igényelt. Így született meg a Big Data technológiák széles tárháza és így kerültek be a köztudatba az olyan fogalmak, mint a Hadoop, a YARN, a Spark, a Pig és a többi divatos Big Data technológia.

Big Data evolúció cégen belül

Nézzük egy startup esetében, hogy működik a Big Data evolúció.

1. Először a korai szakaszban nincs adatelemző a cégnél, de nem akarnak vakon repülni. Ezért fel-setup-olnak egy Google Analytics-et, egy Mixpanel-t, meg egy CrazyEgg-et és nézegetik az adataikat.

2. Megvan az első 10.000 felhasználó. A cégvezetés rájön, hogy a Mixpanel és a CrazyEgg kezd drága lenni, meg amúgy sem mutatnak elég részletes riportokat. Így elkezdenek saját SQL táblákat építeni és szabad szöveges log-okat gyártani. Ezt pedig valaki elemezgeti, különbözős SQL, Python vagy R script-ekkel.

3. Továbbra is növekszik a felhasználószám és az elemző(csapat) ekkor már arra panaszkodik, hogy 10-20 perc alatt sem futnak le az elemző script-jeik. Aztán, amikor elérik a több órás futás időket, rájönnek, hogy szükség lesz egy Big Data technológiára és elkezdik guglizni, hogy mi is az a Hadoop… :-)
Remélem ez a rövid összefoglaló segít eloszlatni egy kicsit a ködöt a Big Data mítosz körül. Ha pedig több tudásra van szükséged a témában, a szeptember 17-i Big Data tréningünkre még van 2 hely.

Hamarosan folytatom a témát egy új cikkel! Ha értesülni akarsz róla, iratkozz fel!

Tomi