Big Data technológia. Játszótér – avagy hogy próbáljuk ki?

Mester Tomi
november 16, 2015

Sok cég (főleg külföldön) úgy kísérletezik a Big Data technológiákkal (Hadoop, MapReduce, Spark, etc…), hogy nincs is igazán szüksége rájuk. Sőt… A probléma az, hogy bár a legtöbb Big Data technológia open-source (aka. ingyenes), mégis sok pénzbe kerül már a kipróbálás is a szerverköltségek miatt, illetve a konfigolási idő miatt (emberi erőforrás).

De hogyan lehet „okosba” kipróbálni a Big Data technológiákat?

Nem kell feltétlen a céges büdzséből egy nagy szeletet lekanyarítani (szerverköltségre, insfrastruktúra-szetapolásra), hogy legyen egy játszóterünk. Több megoldás is létezik arra, hogy az ember ingyenesen kipróbálhassa a technológiákat:

1. HortonWorks Sandbox

LINK: HortonWorks Sandbox

A HortonWorks az egyik legismertebb Big Data-s/Hadoop-os cég. A fent elérhető oldalon egy virtuális gépet tettek közzé, amin egy előre beállított hadoop-os környezet fut. Ez azért praktikus, mert így a saját gépeden is tudsz (kb 15 perc alatt) egy „mini-Hadoop-ot” futtatni, így kipróbálhatod az összes kapcsolódó technológiát. A csomagban jön pár tutorial is, így gyorsan megtanulhatod az alapokat.

Note: Király Péternek köszi a kiegészítésért: „A Cloudera-nak és a MapR-nek is van ingyenesen letölthető Hadoop virtuális gépe, a Clouderának tutoriállal együtt (a MapR-ét nem ismerem).”

2. Spark

LINK: Apache Spark

A Spark sok szempontból a következő évek felfutó Big Data technológiájának tűnik. Saját elmondásuk szerint akár 100-szor gyorsabban tudja futtatni a memóriában történő számításokat, mint a Hadoop MapReduce. Emellett sok elemző nyelvet is rá lehet ültetni (R, Python, Java, Scala…). És nem utolsó sorban van olyan lehetőség, hogy akár a saját laptop-odon futtasd. Így az ember megint csak – viszonylag gyorsan – ki tudja próbálni otthon, hogy mit tud a rendszer. (Akár a fent említett HortonWorks-ös Hadoop-ra is rá lehet rakni.) Egyéb költségek nélkül.

3. AWS, Google, Azure…

Ez nem olyan időhatékony, mint a fenti 2 módszer, de már egy lépéssel közelebb visz a tényleges megoldáshoz. A 3 legnagyobb cloud big data szolgáltató az Amazon Web Services, a Google Compute Engine és a Microsoft Azure. Mindháromnak más az erőssége. És mindháromnak van „demó” és fizetős verziója is.

A demó verziók valóban ingyenesek. A Microsoft-nál BizSpark a program neve, amin belül free Azure-t lehet szerezni. Az Amazon-nál is hasonló a koncepció, itt 12 hónapos trial-unk van különböző limitekkel. A Google-nél pedig egy egyszerű 60 napos (300$-os) trial van.

Én az Azure-t és az AWS-t próbáltam. Mindkettő elég jól és barátságosan működik.

Ezek a trial-ok már inkább fél-éles tesztre valók, mint játszótérnek, hiszen bár a szerverköltséget ki lehet hozni 0-ra, azért az infrastruktúra telepítéssel szenvedni kell egy kicsit. (De még mindig sokkal barátibb, mintha nulláról kéne fellőni egy saját cluster-t.)

Úgyhogy habár nincs túlpromózva, de van lehetőség bőven játszadozni a Big Data-s cuccokkal akár ingyen is!

Ha szeretnél egy átfogó képet kapni mind a technológiáról, mind a Big Data-s elemzési módszertanokról és startégiákról, jelentkezz az idei utolsó, november 27-i 1 napos Big Data Képzésünkre!

Tomi