Adatsztori 2. rész: tinilányok, müzli, kauzalitás

Mester Tomi
május 25, 2015

Nemrég hallottam Dr. Mine Cetinkaya-Rundel professzor asszony webináriumán az egyik legjobb esettanulmányt a korreláció vs. kauzalitás problémájának szemléltetésére:

2005-ben volt egy kutatás, ahol több mint 2000 darab 9 és 19 év közötti lányt kérdeztek reggelizési szokásaikról. A felmérés része volt, hogy az év során egyszer véletlenszerűen megkérdezték a lányokat arról, hogy mit ettek az elmúlt 3 napban. Azt találták, hogy azok a lányok, akiknél a válasz az volt, hogy müzlit ettek reggelire, szignifikánsan alacsonyabb testzsír-index-szel rendelkeztek, mint azok, akik valami mást.

A kutatás következtetése: a müzlitől soványabb leszel.
Csakhogy ez a következtetés: HIBÁS!

Miért?Mert ez a kutatás egyedül azt mutatja meg, hogy van valamilyen összefüggés a müzli és a testzsír-index között, de az ok-okozati kapcsolatot nem lehet belőle megállapítani. Gondolj bele! Valójában 3 jó megoldás is létezik:
1. Lehet, hogy – valóban -, aki müzlit eszik, az soványabb lesz.
2. De az is elképzelhető, hogy az eleve soványabb emberek valamiért jobban szeretik a müzlit. Tehát a soványság következménye a müzlifogyasztás.
3. Vagy esetleg valami külső okból származik mindkét dolog (soványság, müzlifogyasztás) és köztük közvetlen ok-okozati összefüggés nincs is. Pl. aki eleve egészséges életmódot folytat, az szeret müzlit enni és a testzsír-indexe is alacsonyabb, hiszen pl. sportol is. De ez nem azt jelenti, hogy a müzli önmagában soványabbá tesz, jelentheti azt is, hogy a sportos emberek fejében az van, hogy müzlit kell enniük.

Dr. Mine Cetinkaya-Rundel ábrája -korreláció vs. kauzalitás

Mi a tanulság ebből?
A fenti probléma egy közismert adatelemzési problémakör része az adatvezérelt üzletek világában is. A neve: korreláció vs. kauzalitás. Az általános megállapítás az, hogy ok-okozati viszonyt (kauzalitást) soha sem lehet megállapítani visszatekintő elemzésekből. Ezekből mindig csak és kizárólag összefüggést (korrelációt) lehet kikövetkeztetni.
A kauzalitás tényleges megállapítására egyedül az ún. kontrollcsoportos vizsgálatok valóak. Tehát a fenti példában a korrekt megoldás az lett volna, hogy a lányokat két csoportra szedik és az egyik csoportnak müzlit adnak enni minden reggelire, a másiknak pedig akármi mást. Majd figyelik, hogy hogyan változik a testzsír-indexük. Ha itt nyer a müzlis szegmens, akkor már valóban mondhatjuk, hogy a müzli soványabbá tesz.

Ez a módszertan az offline világban elég nehézkes, habár vannak rá példák…
Az online világban viszont nagyon egyszerűen kivitelezhető: ez az, amit A/B tesztelésnek neveznek. Jellemzően a korreláció vs. kauzalitás problémáját akkor érdemes A/B teszteléssel megoldanod, ha egy új funkciót (új feature-t) vezetsz be az oldaladon. Ilyenkor ugyanis el tudod dönteni, hogy valóban az új feature volt hatással a közönséged elköteleződésére (jó eset) vagy a közönséged eleve elkötelezettebb része érdeklődött az adott funkció iránt (kevésbé jó eset).

Összefoglalva: semmilyen kérdőív eredményből, felmérésből vagy visszatekintő elemzésből ne vonj le elhamarkodott következtetéseket! Próbálj helyettük minél több AB-tesztet és/vagy kontrollcsoportos vizsgálatot végezni!

Mester Tomi