Eheti vendégbloggerünk Pusztai Ádám, aki az adatlaboros egyetemista képzésünket is látogatta. Ádám egyébként Veszprémben végzett vegyészmérnökként, emellett pedig a Big Data az egyik fő érdeklődési területe… A következő profi összefoglalója a Honnan (és hogyan) tanuljunk a Big Data-ról címet is kaphatta volna.
“Ami igazán lényeges, az a szemnek láthatatlan.” A kis herceg remekül összefoglalta az adatelemzés és adatbányászat lényegét. Az utóbbi időben egyre inkább érdekel ez a téma, ezért gondoltam, hogy utánanézek, ki mit mond róla, és ha beleásnám magam, akkor hogyan kezdjem el. Tuti recept szerintem nincs, de én így álltam neki:
Gyűjtögetés
A taktika az volt, hogy felütöttem a Google-t a „big data”, „how to start big data learning”, „big data 101” címszavaknál, és gondolkodás nélkül megnyitottam az összes első oldalas találatot. Ezek között voltak hasznos oldalak, kevésbé hasznosak, egyáltalán nem témába illőek (rossz SEO), és voltak összegyűjtött listák is.
Ezeket a találatokat bedobáltam egy dokumentumba, de ebben a formában teljesen használhatatlan volt, úgyhogy elkezdtem rendszerezni. Ezután már csak azt kellett kitalálni, melyikkel résszel kezdjem.
A terv
Úgy gondoltam, egy kis ráhangolódás nem árt, ezért először olyan TED videókat kerestem, amik kapcsolódnak a témához. Itt találsz 13 előadást az adatokról, ebben a videóban pedig Hans Rosling elképesztő statisztikáit láthatod (mozgó bogyók, úristen mennyire menő!).
Többször is előkerült ez az infografika azzal a tanáccsal, hogy vallásos áhítattal kövessem. Nem mondom, hogy így van, de néha kelet felé fordítom és napjában ötször ránézek.
Első lépésként olyan forrásokat kerestem, amik helyre teszik a fejemben azt, hogy a Big Data mire jó, milyen technikákkal lehet és érdemes nekifogni ilyen elemzéseket végezni, és ehhez milyen technikai háttér szükséges részemről. Az ajánlások alapján a következő könyveket szereztem be (mindegyik ingyenesen elérhető):
- The Field Guide to Data Science
- An introduction to statistical learning with applications in R
- Data Scientist – The Number Game Deciphered (rövid, bevezető leírás)
- Mining of Massive Datasets
- Python for Informatics
- Think Stats – Probability and Statistics for Programmers
- Adatbányászat, a hatékonyság eszköze (itt beleolvashatsz, a könyvesboltokban pedig megtalálod; remek összefoglaló egyébként, érdemes az elejére venni)
Egyelőre az első hármat olvasom, aztán majd kiderül, hogy a keményebb programozás témájú könyvek hogy mennek. Annak érdekében, hogy ne csak könyvekből kelljen kihámoznom a lényeget, találtam online kurzusokat mind általánosan Big Datára, mind pedig programozásra is. A következőket ajánlom:
Online kurzusok / Big Data:
- University of Washington’s Intro to Data Science
- University of Washington’s Computing for data analysis
- Mining Massive Datasets
- Process Mining
- Machine Learning kurzus a Coursera-n
- Végtelenül sok kurzus: https://bigdatauniversity.com/wpcourses/?cat=19
Online kurzusok / Programozás:
- Codecademy (Python és JS): http://www.codecademy.com/learn
- Datacamp (R, vizualizáció, dinamikus riportok) : https://www.datacamp.com/
- Swirlstats ( R): http://swirlstats.com/
- Code School (R és JS): https://www.codeschool.com/courses
- Coursera ( R): https://www.coursera.org/course/rprog
- http://www.learnpython.org/
A végén járok a Codecademy-s Pythonnak és a CodeSchool-os R-nek, a Datacamp lesz a következő utánuk. Mindkét nyelv tetszik, sokban hasonlítanak a Matlabra, amit az utóbbi években használtam (nem feltétlen adatbányászatra).
Trello tábla gyűjtemény
Egy elvetemült figura készített egy hatalmas gyűjteményt, külön táblákra rendszerezve az ő forrásait, aszerint, hogy melyik cikk, online kurzus, könyv, blog, képregény(?), és a többi. Itt megtalálod.
Gyakorolni, gyakorolni, gyakorolni
Megvan a tudás a fejedben, a rendszerek a lelki szemeid előtt, most ki kellene próbálni mindezt. De hogyan? Ha nincs kéznél egy irdatlan méretű adatbázisod, ne ess pánikba, ilyeneket is találtam:
- Quandl: ingyenes/korlátozott hozzáférés rengeteg adatbázishoz: https://www.quandl.com/
- egyéb gyűjtemények:
- http://hadoopilluminated.com/hadoop_illuminated/Public_Bigdata_Sets.html
- http://stackoverflow.com/questions/381806/large-public-datasets
- http://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public
- http://blog.bigml.com/2013/02/28/data-data-data-thousands-of-public-data-sources/
A versenyszellem is segíthet. A Kaggle olyan oldal, ahova adatelemzős feladatokat töltenek fel (például a GE, az Amazon, vagy a Microsoft), és benevezhetsz a saját algoritmusaiddal és megoldásaiddal az adott contest-re, magyar szemmel nézve nagyon szép díjazásokért. Ráadásul még tutorial oldaluk is van, érdemes rápillantani arra is.
Alapok, technikák, gyakorlás – nekem ez a tervem a nyárra. Te hol tartasz?
Pusztai Ádám