A robotok ébredése

“…Manapság az online világban nem csak mi vagyunk, emberek, hanem rajtunk kívül robotok és botnetek milliói is a miénkhez hasonló aktivitásokat hajtanak végre a különböző weboldalakon, alkalmazásokban, sokszor elég nagy kárt okozva ezzel az online reklámpiac szereplőinek. Mi azzal foglalkozunk, hogy olyan technológiát fejlesszünk ki, ami képes megkülönböztetni az emberi interakciókat a robotokétól…”

Nagy István

István Data Scientist-ként azon dolgozik az Enbrite.ly-ban, hogy megtisztítsák az online hirdetési piacot azoktól a robotoktól, akik lekattintják az online hirdetések nagy részét, ezzel kárt okozva a hirdetőknek, vagy akár a publishereknek is. Mindezt úgy, hogy a rengeteg hozzájuk érkező adatból be tudják azonosítani, hogy az adott online tevékenységet egy ember vagy egy robot végzi.
A B-DATA2 konferencián is erről fog beszélni – hogyan működik ez és milyen adatokból tudunk dolgozni.
Mit szeretsz a munkádban?
Leginkább azt szeretem a legjobban, mind az Enbrite.ly-ban, mind az adatelemzésben, hogy folyamatosan új területekkel ismerkedhetek meg. Amikor elkezdtem adatelemzéssel foglalkozni – az még nem az Enbrite.ly-ban történt, hanem a Dmlab-ban – ott különböző területekről jöttek be hozzánk ezek a projektek, néha a szélerőműveket kellett elemeznünk, néha biztosítónál ügyfélértéket számolnunk, néhol logisztikai vállalatnak kellett optimalizálni azt, hogy hogyan vezessék a sofőrök a kamionokat. Nagyon sokféle területről jöhet igazából az az üzleti probléma, amit adatelemzéssel meg lehet oldani és amikor ezekkel a projektekkel elkezdesz foglalkozni, akkor valamennyire beleásod magad ezekbe a területekbe, jobban megismered őket. Szerintem ez az egyik legizgalmasabb része az adatelemzésnek.

Az elején is ez tetszett benne?
Szerettem kódolni, szerettem a két kezemmel csinálni a dolgokat, de alapvetően mindig érdekelt, hogy ennek az egésznek milyen üzleti vonatkozása van – hogyan lehet felhasználni azt, amit én csinálok. Amikor még nem ismertem közelről ezt az egészet, akkoris úgy éreztem, hogy híd lehetek az üzleti és a technológiai élet között. Aztán ez már csak hozta magával azt, hogy egyre több projektbe tudtam részt venni, és itt kapsz rá az ízére igazán.

Mi motivál?
Leginkább az, hogy azt a dolgot amit egy adott elemzési projekt kapcsán ki lehet hozni, azt hogyan lehet jól kommunikálni. Hogyan lehet ezeket az összefüggéseket úgy tálalni, hogy egyrészt könnyen megértsék és hatása legyen arra az üzleti folyamatra, amit ezzel támogatni lehet.
Az Enbrite.ly-ban motivál az, hogy azáltal, hogy egyre több adatot gyűjtünk, újabb meg újabb heurisztikákból újabb meg újabb csalásokat tudunk felfedezni. Ez is egy nagyon motiváló dolog, hogy van ez a kincskereső hangulatod.
De valamiért mégis jobban motivál az, hogy az ügyfeleknek hogyan lehet ezt az egészet úgy átadni, hogy értsék, és az ő igényeikhez képest minél egyszerűbben fel tudják ezeket az elemzéseket használni. Nem lehet az elvárás, hogy az emberek olyan szinten értsenek az adatelemzéshez, mint egy data scientist, ezért mindig az ő nyelvükre fordítva kell az eredményeket bemutatni egy projekt közben és végén.

Volt valamilyen különleges eset a munkád során?
Nekünk mindig különleges az, amikor a felszínen nem látszódnak a problémák, de ha kicsit jobban megnézzük az adatokat, akkor mégis találunk valami érdekességet.
Pont egy hete történt épp, hogy az egyik kollégánk egy kicsit jobban beleásott az egyik német ügyfelünk adataiba és felfedeztük, hogy a forgalmának egy jelentős részét egy elég ismert botnet csinálja – ezt elsőre a heurisztikáink nem tudták előrejelezni, de kicsit mélyebbre ásva megtaláltuk.

Milyen terveid vannak?
Az Enbrite.ly-val az a tervünk, hogy megtisztítsuk a hirdetési piacot, hogy létre tudjunk hozni olyan szolgáltatásokat, amikkel segíteni tudjuk azt, hogy ez a piac tisztuljon. Régiótól és minden más dimenziótól függően azért mindenhol van valamennyi fertőzöttség. A személyes célom pedig az Enbrite.ly-n belül az, hogy minél több adatelemzést tudjunk ebbe belevinni. Annyira nem titok, hogy jelenleg heurisztika alapon működnek a módszereink – ugye az egész adatos világnak ez a legegyszerűbb módszere. Folyamatos termékfejlesztés van, hogy újabb és újabb csalásokat tudjunk felfedezni. Minél mélyebben belemegyünk a dolgokba, annál több adatunk van, ami lehetőséget biztosít az egyre bonyolultabb módszerek alkalmazására (pl. mashine learning algoritmusok), és ezek segítségével egyre okosabban, jobban és hatékonyabban tudjuk a csalásokat felfedezni.

Mit látsz a hazai viszonlatban?
Egyrészt Magyarország egy kis piac – ahogy minden egyéb szempontból is – ezért jó tesztpiacnak is mondható, de itt is vannak nagy reklámköltések, nagy sales house-ok, tehát itt is vannak olyanok, akiket érdekel ez a dolog. Van is 1-2 ügyfelünk már itthonról is, de azért érezhető, hogy a nagy problémák nem Magyarországon vannak. Ez egy tipikusan olyan üzletág – de a csalás mindenhol ilyen – ami oda vonzza a csalókat ahol sok pénz van. Magyarországon globális viszonylatban nincs sok pénz.
És, hogy egy kicsit máshonnan is válaszoljak: adatos szempontból mi a különbség Magyarország meg a világ között? Nekem vesszőparipám az, hogy Magyarország a méretéhez képest iszonyatosan erős az adatos vonalon. Ennek az okait nem teljesen tudom, bár vannak megérzéseim, hogy miért alakult ez így. A jelek, amik erre mutatnak egyrészt, hogy az adatbányász veresenyeken Magyarország világszinten az élvonalban van, nagyon sok meetup van itthon ebben a témában ahhoz képest, hogy mekkora ez a szakmai közösség – ha nagyon sokat mondok ez akkoris csak 1000-es nagyságrendű – a régión belül legközelebb Berlinben vannak még ekkora szakmai rendezvények, de az sokkal nagyobb közösséget táplál, a harmadik pedig az, hogy egyre több cég kezdi Magyarországra hozni tipikusan ezt az üzleti ágát.

Miről fogsz mesélni a konferencián?
Alapvetően arról, ami a munkánkkal kapcsolatban érdekelheti az embereket, hogy milyen adatokat használunk fel és milyen insight-ok vannak ami alapján mi meg tudjuk különböztetni az embereket a botoktól és meg tudjuk találni őket. Azt szeretném, ha olyan esettanulmányokon mennénk végig, hogy igazából milyen eszközöket és hogyan használunk mi, és pár olyan érdekes esetet, ahol botnetet vagy csalást fogtunk. Azt szeretném, hogy az embereknek legyen egy képe arról, hogy hogyan is működik ez a dolog.

b-data-konferencia-button