adatlabor funfaktor borítókép

Honnan tanuljunk az adatelemzésről? – 2. rész

Ebben a bejegyzésben megosztok néhány könyvet és online kurzust, amelyeket az utóbbi időben elolvastam/megnéztem és színvonalasnak, hasznosnak találtam. Sok a (big) data-s tananyag a neten, hát még könyvek formájában – sok köztük a selejt is. De szerencsére van köztük jó néhány nagyon jó anyag is.

(Az első részben már mutattam 3 könyvet: http://adatlabor.hu/big-data-konyv-1-resz/)

Íme újabb 4 tananyag, amit érdemes magadévá tenni, ha érdekel a téma!

1. Charles Wheelan – Naked Statistics

naked statistics - big data könyvEzt a könyvet főleg azoknak ajánlom, akik statisztikában, illetve az egész adatelemzés/big data témakör matekos részében kevésbé járatosak. Nagyon jó belépő könyv, sok-sok példával, sztorival és esettanulmánnyal. Amiket Charles Wheelan itt leír (és könnyen érthetővé tesz), azok azok a matematikai módszerek, amelyeket egy adatelemző az esetek 95%-ban használ és azok azok a statisztikai hibalehetőségek és dilemmák, amelyekkel mindig találkozik munkája során. Azoknak is élvezetes olvasmány lehet, akik bár ismerik az olyan fogalmakat, mint a lineáris regresszió vagy a döntési fák, de sohasem tudták megértetni környezetükkel ezeknek a szépségét.

Itt lehet megvenni (csak angolul jelent meg): http://www.amazon.com/Naked-Statistics-Stripping-Dread-Data/dp/039334777X/ref=mt_paperback?_encoding=UTF8&me=

2. Cser – Fajszi – Fehér: Üzleti haszon az adatok mélyén

üzleti haszon az adatok mélyénSzerintem ez az egyetlen magyar könyv a témában, amit érdemes elolvasni. Egyébként amikor belekezdtem, nem hittem volna, hogy magyar szerzők tudnak a témában olyat írni, amit tényleg hasznos és újszerű lehet. De ez a könyv tudott újat adni a sok külföldi szakirodalom mellett is. Egyrészt egy nagyon jó áttekintő arról, hogy NEM-online területen hol és hogyan lehet használni az adatokat. Másrészt betekintést ad konkrét módszerekbe is. Harmadrészt pedig jól összefoglalja azt, hogy hol tart ez a terület Magyarországon, merre halad, mi a múltja, jelene és jövője.

Mindezek mellett ez is inkább egy belépő szintű könyv, de azoknak, akik nem foglalkoztak még banki, telko vagy biztosítócégek adataival, lesz benne érdekesség bőven.

Ez a könyv magyarul és angolul is megjelent, pl. itt meg lehet venni: https://www.libri.hu/konyv/uzleti-haszon-az-adatok-melyen.html

3. Jeroen Janssens – Data Science at the Command Line

data-science-at-the-command-lineMár többször is írtam róla, hogy mennyire fontosnak tartom, hogy aki adatot elemez, az mindenképpen és minél gyorabban szedjen magára valamilyen kódolói tudást is. Lehetőleg az alábbi 4 nyelv egyikét (később mindegyikét): bash, python, sql, r.

Szerintem a bash-sel érdemes kezdeni, amihez jó kiindulás lehet ez az ingyenes kis online kurzus vagy az Adatlabor Bevezetés az Adatelemzői Kódolásba képzése. De aki mindent tudni akar erről a nyelvről, annak a Data Science at the Command Line könyvet ajánlom, ami tényleg az elejétől a végéig taglalja a nyelv előnyeit, hátrányait, felhasználási módjait – konkrét parancssor szinten. Minden benne van, amit tudni kell erről a nyelvről egy adatelemzőnek és ráadásul az egész elfér 150 oldalban. :-)

Itt lehet megrendelni (természetesen ezt is csak angolul): http://datascienceatthecommandline.com/

4. Coursera: Practical Machine Learning kurzus

Ez egy kicsit más formátum: webinárium. Viszont egy nagyon jó fajta. Megnéztem már pár kurzust Machine Learning témában és ez tényleg az, amelyikre azt mondom, hogy nagyon gyakorlatias és emellett teljesen érthető marad. Ha érdekel a gépi tanulás és a prediktív analitika, akkor ezzel érdemes kezdeni. (Mondjuk előtte nem árt, ha a Naked Statistics-et elolvasod és az sem ha tudsz R-nyelven alapszinten legalább). Jó előadó, szemléletes példák, használható és gyakorlatias tudás!

Itt lehet benevezni. A videók ingyenesen megtekinthetőek:
https://www.coursera.org/learn/practical-machine-learning

ENJOY!

Tomi

2 hozzászólás a(z) “Honnan tanuljunk az adatelemzésről? – 2. rész” bejegyzéshez

  1. Szia,
    Koszi a cikket, nagyon erdekes.
    Most olvasom a Naked Statistics-et, es ezt a programot kezdtem el tanulgatni :
    https://www.coursera.org/specializations/jhu-data-science
    Nem vagyok informatikus, de az R-es resz ertheto, a feladatokat le lehet kuzdeni.

    Viszont sok helyen irjak, hogy a linearis algebrat is meg kell tanulni a tovabbiakhoz, ezt a reszt nagyon neheznek talalom, pedig tobb helyen utana olvastam egy-egy resznek.

    Ezt az MIT-s eloadast sokan ajanlottak, ezt vettem alapul : https://www.youtube.com/watch?v=ZK3O402wf1c
    Nagy nehezen atragom magam egy-egy levezetesen, de a fo problema az, hogy egyaltalan nem latom at, hogy ez mire is lesz jo nekem, az egesz nagyon absztrakt.
    Neked mi a velemenyed errol ? A big data minden teruletehez szukseges ez ? ‘Hozza’ lehet tanulni kesobb a tovabbi targyakhoz ?
    Mert ez elegge letorte a lelkesedesemet :(

    Koszi,

    1. Szia Kriszti,

      belenéztem a videóba, amit linkeltél!
      Valóban elég hasznos kis előadásnak tűnik…
      És a lineáris algebrát valóban nem árt legalább alapszinten szinten tudni. Nem mondanám, hogy biztosan mindenre szükség lesz és pl. hogy a mátrixokat feltétlen fogod használni – de a logikájukat nem árt ismerni.
      Szóval azt mondanám, hogy érdemes megtanulni, de szerintem elkezdeni el lehet az adatozást a gimnáziumi matematika (valószínűség számítás, deriválás, integrálás, több ismeretlenes egyenletek, stb.) alapos ismeretével is. A többit pedig szépen különböző feladatok során előkerülő konkrét problémák mentén érdemes hozzátanulni a dolgokhoz. (Mindent egyszerre úgysem lehet. :-))

      Főleg, ha a prediktív analitika és a machine learning területre tévedsz tud majd sokat segíteni a magasabb szintű matematikai tudás.

      Remélem segítettem!
      Üdv,
      Tomi

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.