Adatvizualizáció Google Fusion Tables segítségével

Papp Gábor
Papp Gábor, thepitch.hu

Mai vendégszerzőnk Papp Gábor a The Pitch | Online Marketing blog alapítója, SEO és online marketing szakértő! Ebben a posztjában az adatvizualizáció egy kis szeletét fogja megmutatni nekünk!

Már az elején fontos valamit leszögezni: nem vagyok profi adatelemző. De adatvizualizáló sem. Ugyanakkor nagyon sok olyan eszközt használok, amelyek valamilyen formában alkalmasak az adatvizualizációra. Még egy angol keresőoptimalizálással kapcsolatos cikk kapcsán futottam bele a Google egyik ún Big Data tooljába, a Google Fusion Tables-be. Ahogy elkezdtem elmerülni a használatában, rájöttem, hogy ezt az eszközt bizony sok célra fel lehet használni. Most ezekről gyűjtöttem össze a tapasztalataimat.

Az adatok megfelelő vizualizációjához szerintem az alábbiakra van szükség: jó minőségű és jól strukturált adat, valamint egy jó adatvizualizáló megoldás. Ez lehet egy eszköz, vagy akár csak egy módszer (egy gráf például). Ha megvan az összhang a fenti elemek között, akkor lesz igazán jó az adatmegjelenítésünk.

Amikor először futottam bele a Google Fusion Tables-be, akkor egy nagyon határozott célra kellett használnom. Több weboldal backlink hálózatát kellett feltérképeznem.

Ezt úgy kell elképzelni, hogy adott volt 3-4 oldal, és azt néztem, hogy melyik oldalnak honnan vannak hivatkozásai, linkjei. Aztán ezeket ábrázoltam egy gráfon és megnéztem, hogy hol vannak átfedések. Valami ilyen lett a végeredmény:

backlink-graph

Itt kék csomópontok az elemzett fő weboldalak,  a sárgák pedig azok az oldalak, akik hivatkoznak a kékekre. A köztük lévő szürke élek pedig nyilván a hivatkozások. A fent ábrán a 4 kék pont között a középpontban szereplő sárga pontok azok, akik mindegyik oldalhoz tartalmaznak linket. Amik a gráf szélén vannak, azok pedig jellemzően csak 1 kék ponthoz / weboldalhoz.

Aztán rájöttem, hogy különböző filterek (szűrők) használtával azt is meg tudom csinálni, hogy ne jelenjen meg minden oldal és él gráfon, hanem mondjuk csak az angol nyelvű blogok. Vagy csak azok, amiknek a domain hitelességük (DA) legalább 50-es. Ehhez viszont ezeket az adatokat össze kell gyűjteni minden adatpont esetében. Itt kezdett el izgalmassá válni a dolog. Azt láttam, hogyha elég jó adatokat pakolok be a rendszerbe, akkor értelmes és hasznos outputot tudok belőle kiszedni. Méghozzá olyat, amiből üzleti értéket is lehet teremteni. Keresőoptimalizáláshoz a mai napig használom a fenti elemzést. Bár időigényes és kell technikai tudás is hozzá, mégis elképesztően hasznos információkat tudok kinyerni belőle. Az ilyen off-page SEO elemzések mellett viszont elkezdtem kísérletezni más megoldásokkal is. Hol azzal, hogy másként vizualizáltam az adatokat, hol pedig már tudatosan úgy gyűjtöttem őket, hogy egy megoldással meg is tudjam jeleníteni.

Hol a legjobb a WiFi?

Ahogy sokan másokat, engem is zavarni szokott, hogyha nehezen használható az internet egy helyen. Ezért elkezdtem a mobilomon a Speedtest segítségével adatokat gyűjteni mindenhol ahol jártam és dolgoztam. Aztán ezeket az összegyűjtött adatokat vizualizáltam egy térképen. És ez a vizualizáció adja azt a pluszt az adatgyűjtéshez, amit egyébként nagyon nehezen lehetne manuálisan elvégezni.

Az adatgyűjtés során ezeket az adatokat gyűjtöttem össze strukturált formában:

  • Letöltési sebesség
  • Feltöltési sebesség
  • “Válaszadás ideje” (Latency / ping)
  • Mérés időpontja
  • Szerver helye
  • Pontos földrajzi koordináták
  • IP cím
  • Hálózat neve

Ezek közül a le- és feltöltési sebességre és a földrajzi koordinátára volt a legnagyobb szükség. A sebességek ugyanis a szűrési feltételeket adják meg, a koordináták segítségével pedig egy térképen lehet ábrázolni az értékeket. Itt tehát az adatgyűjtés során az volt az egyik legfontosabb dolog, hogy tudjam: nem csak a sebességi értékekre lesz szükség, hanem az adott mérési helyre is. Így tudtam eljutni oda, hogy nem egy excel táblában vannak az adatok soronként, hanem egy térképen is meg lehet őket jeleníteni.

Minden egyes piros pont egy adatgyűjtési helyet jelöl. Ha rákattintunk, akkor pedig az adott helyhez kapcsolódó adatokat is meg tudjuk nézni. Bal oldalt pedig a Filter (Szűrő) menüpontnál lehet növelni vagy csökkenteni a pontok számát. Ezen a képen például csak azok a helyek vannak fent, ahol legalább 15 Mbps a letöltési és 10 Mbps a feltöltési sebesség. Így már egyből tudom, hogyha a belvárosban kell dolgoznom 1-2 órát, vagy épp egy 100-200 megás fájlt kell le / feltöltenem, akkor hova érdemes mennem.

wifi-map

Erről az adatgyűjtési és vizualizálási folyamatról nemrég írtam is a Legjobb Wifi posztban a Pitch blogjára.

Adatgyűjtés vagy vizualizáció?

Felmerülhet bennünk a kérdés, hogy melyiket kell előtérbe helyezni?

  1. Először válasszunk egy vizualizációs megoldást és utána gyűjtsünk adatot hozzá?
  2. Vagy a meglévő adatokhoz keressünk megfelelő megjelenítési módot?

Nyilván, attól függ. Mind a két megoldás során sikerrel járhatunk.

Vannak cégek (pl egy nagy ecommerce site), ahol rendkívül sok adat keletkezik, és ezekből kell összefüggéseket kihámozni. Ott a 2. megoldásra van szükség. De vannak esetek, amikor az 1. lehetőség is célravezető. Főleg akkor, amikor még csak ismerkedünk a területtel. Az 1. opció egyébként inkább egy jól ismert, vezérelt problémára ad megoldást.

Már a poszt elején is írtam, hogy én nem vagyok profi data analyst. Ugyanakkor sokat teszek azért, hogy jól lehatárolt kérdésekre az adatvizualizálás eszközét használjam. Néhány hete például azt vizsgáltuk meg egy marketinges ismerősömmel, Nagy Gáborral, hogy vajon a The Wire című HBO sorozat szereplői közül kik és milyen filmekben játszottak még együtt. (Nem mellesleg nálam ez minden idők kedvenc sorozata.)

Ehhez megint a jól ismert gráfos megjelenítést vetttük elő.

wire-cast

Itt a kék pontok a színészeket jelölik (pl Idris Elba, Dominic West, Wendell Pierce), a sárgák pedig a filmeket / sorozatokat. A The Wire található a gráf közepén, ez az, ami összekapcsolja a szereplőket. Aztán különböző szűrőkkel el tudunk oda jutni, hogy csak 2 szereplő közös filmjeit nézzük meg, vagy azt is meg lehet nézni, hogy mondjuk a Law & Order-ben kik játszottak együtt.

law-order

Ennek a fenti ábrának az üzleti haszna persze viszonylag kicsi. :) Arra viszont jó, hogy elmélyüljünk egy-egy ilyen adatvizualizáló megoldásban, eszközben. Ez pedig később hozzásegíthet minket ahhoz, hogy látszólag összefüggéstelen adathalmazokból olyan összefüggéseket nyerjünk ki, amikről korábban nem is sejtettük, hogy léteznek.

Én mindenkinek javaslom, hogy próbálja ki a Google Fusion Tables-t, de akár más big data tool-t is. Ha pedig van olyan, amit napi szinten használtok, és tényleg bevált, akkor írjátok meg kommentben!