Ebben a bejegyzésben megosztok néhány könyvet és online kurzust, amelyeket az utóbbi időben elolvastam/megnéztem és színvonalasnak, hasznosnak találtam. Sok a (big) data-s tananyag a neten, hát még könyvek formájában – sok köztük a selejt is. De szerencsére van köztük jó néhány nagyon jó anyag is.
(Az első részben már mutattam 3 könyvet: https://adatlabor.hu/big-data-konyv-1-resz/)
Íme újabb 4 tananyag, amit érdemes magadévá tenni, ha érdekel a téma!
1. Charles Wheelan – Naked Statistics
Ezt a könyvet főleg azoknak ajánlom, akik statisztikában, illetve az egész adatelemzés/big data témakör matekos részében kevésbé járatosak. Nagyon jó belépő könyv, sok-sok példával, sztorival és esettanulmánnyal. Amiket Charles Wheelan itt leír (és könnyen érthetővé tesz), azok azok a matematikai módszerek, amelyeket egy adatelemző az esetek 95%-ban használ és azok azok a statisztikai hibalehetőségek és dilemmák, amelyekkel mindig találkozik munkája során. Azoknak is élvezetes olvasmány lehet, akik bár ismerik az olyan fogalmakat, mint a lineáris regresszió vagy a döntési fák, de sohasem tudták megértetni környezetükkel ezeknek a szépségét.
Itt lehet megvenni (csak angolul jelent meg): http://www.amazon.com/Naked-Statistics-Stripping-Dread-Data/dp/039334777X/ref=mt_paperback?_encoding=UTF8&me=
2. Cser – Fajszi – Fehér: Üzleti haszon az adatok mélyén
Szerintem ez az egyetlen magyar könyv a témában, amit érdemes elolvasni. Egyébként amikor belekezdtem, nem hittem volna, hogy magyar szerzők tudnak a témában olyat írni, amit tényleg hasznos és újszerű lehet. De ez a könyv tudott újat adni a sok külföldi szakirodalom mellett is. Egyrészt egy nagyon jó áttekintő arról, hogy NEM-online területen hol és hogyan lehet használni az adatokat. Másrészt betekintést ad konkrét módszerekbe is. Harmadrészt pedig jól összefoglalja azt, hogy hol tart ez a terület Magyarországon, merre halad, mi a múltja, jelene és jövője.
Mindezek mellett ez is inkább egy belépő szintű könyv, de azoknak, akik nem foglalkoztak még banki, telko vagy biztosítócégek adataival, lesz benne érdekesség bőven.
Ez a könyv magyarul és angolul is megjelent, pl. itt meg lehet venni: https://www.libri.hu/konyv/uzleti-haszon-az-adatok-melyen.html
3. Jeroen Janssens – Data Science at the Command Line
Már többször is írtam róla, hogy mennyire fontosnak tartom, hogy aki adatot elemez, az mindenképpen és minél gyorabban szedjen magára valamilyen kódolói tudást is. Lehetőleg az alábbi 4 nyelv egyikét (később mindegyikét): bash, python, sql, r.
Szerintem a bash-sel érdemes kezdeni, amihez jó kiindulás lehet ez az ingyenes kis online kurzus vagy az Adatlabor Bevezetés az Adatelemzői Kódolásba képzése. De aki mindent tudni akar erről a nyelvről, annak a Data Science at the Command Line könyvet ajánlom, ami tényleg az elejétől a végéig taglalja a nyelv előnyeit, hátrányait, felhasználási módjait – konkrét parancssor szinten. Minden benne van, amit tudni kell erről a nyelvről egy adatelemzőnek és ráadásul az egész elfér 150 oldalban. :-)
Itt lehet megrendelni (természetesen ezt is csak angolul): http://datascienceatthecommandline.com/
4. Coursera: Practical Machine Learning kurzus
Ez egy kicsit más formátum: webinárium. Viszont egy nagyon jó fajta. Megnéztem már pár kurzust Machine Learning témában és ez tényleg az, amelyikre azt mondom, hogy nagyon gyakorlatias és emellett teljesen érthető marad. Ha érdekel a gépi tanulás és a prediktív analitika, akkor ezzel érdemes kezdeni. (Mondjuk előtte nem árt, ha a Naked Statistics-et elolvasod és az sem ha tudsz R-nyelven alapszinten legalább). Jó előadó, szemléletes példák, használható és gyakorlatias tudás!
Itt lehet benevezni. A videók ingyenesen megtekinthetőek:
https://www.coursera.org/learn/practical-machine-learning
ENJOY!
Tomi