korreláció címkével jelölt bejegyzések

Adatsztori 2. rész: tinilányok, müzli, kauzalitás

Nemrég hallottam Dr. Mine Cetinkaya-Rundel professzor asszony webináriumán az egyik legjobb esettanulmányt a korreláció vs. kauzalitás problémájának szemléltetésére:

2005-ben volt egy kutatás, ahol több mint 2000 darab 9 és 19 év közötti lányt kérdeztek reggelizési szokásaikról. A felmérés része volt, hogy az év során egyszer véletlenszerűen megkérdezték a lányokat arról, hogy mit ettek az elmúlt 3 napban. Azt találták, hogy azok a lányok, akiknél a válasz az volt, hogy müzlit ettek reggelire, szignifikánsan alacsonyabb testzsír-index-szel rendelkeztek, mint azok, akik valami mást.

A kutatás következtetése: a müzlitől soványabb leszel.
Csakhogy ez a következtetés: HIBÁS!

Miért?Mert ez a kutatás egyedül azt mutatja meg, hogy van valamilyen összefüggés a müzli és a testzsír-index között, de az ok-okozati kapcsolatot nem lehet belőle megállapítani. Gondolj bele! Valójában 3 jó megoldás is létezik:
1. Lehet, hogy – valóban -, aki müzlit eszik, az soványabb lesz.
2. De az is elképzelhető, hogy az eleve soványabb emberek valamiért jobban szeretik a müzlit. Tehát a soványság következménye a müzlifogyasztás.
3. Vagy esetleg valami külső okból származik mindkét dolog (soványság, müzlifogyasztás) és köztük közvetlen ok-okozati összefüggés nincs is. Pl. aki eleve egészséges életmódot folytat, az szeret müzlit enni és a testzsír-indexe is alacsonyabb, hiszen pl. sportol is. De ez nem azt jelenti, hogy a müzli önmagában soványabbá tesz, jelentheti azt is, hogy a sportos emberek fejében az van, hogy müzlit kell enniük.

Dr. Mine Cetinkaya-Rundel
Dr. Mine Cetinkaya-Rundel ábrája -korreláció vs. kauzalitás


Mi a tanulság ebből?
A fenti probléma egy közismert adatelemzési problémakör része az adatvezérelt üzletek világában is. A neve: korreláció vs. kauzalitás. Az általános megállapítás az, hogy ok-okozati viszonyt (kauzalitást) soha sem lehet megállapítani visszatekintő elemzésekből. Ezekből mindig csak és kizárólag összefüggést (korrelációt) lehet kikövetkeztetni.
A kauzalitás tényleges megállapítására egyedül az ún. kontrollcsoportos vizsgálatok valóak. Tehát a fenti példában a korrekt megoldás az lett volna, hogy a lányokat két csoportra szedik és az egyik csoportnak müzlit adnak enni minden reggelire, a másiknak pedig akármi mást. Majd figyelik, hogy hogyan változik a testzsír-indexük. Ha itt nyer a müzlis szegmens, akkor már valóban mondhatjuk, hogy a müzli soványabbá tesz.

Ez a módszertan az offline világban elég nehézkes, habár vannak rá példák…
Az online világban viszont nagyon egyszerűen kivitelezhető: ez az, amit A/B tesztelésnek neveznek. Jellemzően a korreláció vs. kauzalitás problémáját akkor érdemes A/B teszteléssel megoldanod, ha egy új funkciót (új feature-t) vezetsz be az oldaladon. Ilyenkor ugyanis el tudod dönteni, hogy valóban az új feature volt hatással a közönséged elköteleződésére (jó eset) vagy a közönséged eleve elkötelezettebb része érdeklődött az adott funkció iránt (kevésbé jó eset).

Összefoglalva: semmilyen kérdőív eredményből, felmérésből vagy visszatekintő elemzésből ne vonj le elhamarkodott következtetéseket! Próbálj helyettük minél több AB-tesztet és/vagy kontrollcsoportos vizsgálatot végezni!

Mester Tomi

Üzleti Intelligencia = Ember és Adat

A napokban futottam bele az egyik legeslegjobb példára abban, hogy mennyire szükséges az emberi józan ész és a valódi kritikus gondolkodás az adatelemzés mögé. Az üzleti intelligenciának egy fontos eleme, hogy kiszedjük a big data-ból a lényeget, de hogy az mit is jelent ténylegesen, hogyan befolyásolja a döntéseinket és a stratégiánkat, az már az emberi intelligencián és kreativitáson múlik.
A Tylervigen egy nagyon egyszerű projekt, amiben számítógépek kapnak egy csomó szociológiai adatot, majd korrelációt – azaz összefüggést – keresnek gyakorlatilag minden között. Ember legyen a talpán, aki meg tudja mondani, hogy mi a logikai kapcsolat a Maine-ben levő válások száma és Amerika margarin fogyasztása között, pedig a korreláció 99,2%-os.

Korreláció - 99,2%

De van tovább. Tudtad például, hogy mióta a Méztermelő méhkasok száma lecsökkent Amerikában, azóta jól kimutathatóan nőtt a Marihuána árusításért letartóztatott fiatalok száma ugyanitt? Korreláció: 93,3%

Méz vs. marihuána statisztika
Méz vs. marihuána statisztika

Két szomorúbb hír is van. Jól látható az összefüggés a fulladásos halálok és a technológiára, tudományra és űrkutatásra költött pénzek növekedése között.

tudomány vs. fojtogatás statisztika
tudomány vs. fojtogatás statisztika

Az pedig, hogy a mindenkori Miss America kora és a forró gőzökkel és tárgyakkal történő gyilkosságok között is 87%-os erősségű kapcsolat van, már végképp megdöbbentő.

Miss America vs. gyilkosságok statisztika
Miss America vs. gyilkosságok statisztika

Persze ezekben az esetekben egyértelmű, hogy nem beszélünk valódi összefüggésekről. De üzleti döntésekben már sokszor homályosabb a helyzet. Ha látunk is korrelációt, érdemes többször is végiggondolni, hogy mi következik miből: az “A” állítás “B”-ből vagy “B” állítás A-ból, vagy eseteg “A” és “B” egy külső “C”-ből. A fentiekből is látszik – az üzleti intelligencia mögé éppen annyira kell a kritikusan gondolkodó ember, mint maga az adat és az adatelemzés!

Mester Tomi