Az adatbánya sem tesz csodát

2014. március 30.

Új internetes programok segítségével elképesztő mennyiségű adat gyűjthető össze. Az optimisták szerint az információ elemzése új távlatokat nyithat a tudomány számára. A szkeptikusok azonban óvatosságra intenek: a hatalmas minták sem szavatolják, hogy végül pontos lesz az elemzés és megbízható az előrejelzés.

 

A Big Data megérkezett, a nagy felismerésekre azonban még várni kell” – írja Tim Harford közgazdász a Financial Times hasábjain.

A Metazin is beszámolt róla, hogy a hagyományos megoldásokkal elérhetetlen és értelmezhetetlen tömegű adat gyűjtésére és rendszerezésére képes programok műfaja, a nagy adatbánya (Big Data) sokak szerint forradalmi lehetőséget nyújt a tudomány és a társadalom számára: a hatalmas minták számítógépes elemzése új összefüggésekre tárhat fényt. A kezdeti fellángolásban volt, aki egyenesen az elméletalkotás végét vizionálta, mondván, az empirikus kutatások fölöslegessé teszik a teória- és modellgyártást.

A szkeptikusok azonban óvatosságra intenek. Harford felidézi, hogy az újfajta adatelemzésre épülő Google Flu Trends többnyire valóban képes volt az egészségügyi szervezeteket lekörözve előre jelezni az influenza terjedését, ám 2012-ben téves riasztást adott: az influenzával kapcsolatos keresések számának növekedése nem járt együtt a járvány terjedésével.

Súlyos nehézséget jelent a minta reprezentativitása. Az 1936-os amerikai elnökválasztáson az egyik folyóirat 2,4 millió választópolgárt kérdezett meg levélben, majd a válaszok alapján Alfred Landon elsöprő győzelmét jósolta Franklin Delano Roosevelt ellenében. Harford szerint félő, hogy az online alkalmazások gyakran hiába törekszenek reprezentatív mérésre: a Google és a Facebook – bár széles körben használt, mégsem tekinthető reprezentatív mintának. A Street Bump mobiltelefonos alkalmazás segítségével a bostoniak a közútkezelőnek jelentetik a kátyúkat. Az adatok azt sugallják, hogy főleg a tehetősek által lakott részeken van sok kátyú – pedig valószínűbb, hogy csak az okostelefonok és az autók száma nagyobb.

A legnagyobb módszertani problémát érdekes módon maga a túlzottan nagy adatmennyiség jelenti – figyelmeztet Harford. Ha kellően nagy adatbánya áll rendelkezésünkre, akkor minden bizonnyal nagyszámú statisztikai összefüggésre lelhetünk. Csakhogy a korreláció nem szükségképpen jelent okozati összefüggést – emlékeztet a kvantitatív kutatások közismert módszertani alapigazságára. Hiába a nagy minta, a statisztikai összefüggések további értelmezést és magyarázatot igényelnek, önmagukban nem sok jelentőségük van.