Big data: Als je niet weet wat je zoekt, vind je de verkeerde dingen
Datum: 15-03-2014
Big data: Als je niet weet wat je zoekt, vind je de verkeerde dingen
Ik begon mijn werkzame leven bijna dertig jaar geleden als onderzoeker bij een instituut dat (toegepast) wetenschappelijk onderzoek naar de verkeersveiligheid deed. Wij kregen een grote opdracht van een van de provincies. De verkeersveiligheid in die provincie was slechter dan in de andere provincies en het Provinciaal Bestuur wilde weten hoe dat kwam en wat hij eraan kon doen. Met mijn huidige kennis en ervaring zou ik dat een niet onderzoekbare probleemstelling vinden, maar toen gingen we met zijn allen enthousiast aan de slag om de vragen te beantwoorden. Na veel discussie kwam als één van de onderzoeksmethoden naar voren dat we het wegprofiel van alle provinciale wegen om de honderd meter zouden opmeten en analyseren. De gedachte erachter was dat deze wegen weleens smaller zouden kunnen zijn met meer bomen kort op de weg en dat dit een van de oorzaken van de ongevallen zou kunnen zijn.
Zo gezegd zo gedaan, het werd een groot project om iedere honderd meter het wegprofiel op te meten. De opdrachtgever en wij zelf geloofden heilig in het nut van deze omvangrijke dataverzameling. Alleen de kantonniers, die het meetwerk moesten doen, uitten hun twijfels, maar die waren niet van doorslaggevende aard. We ontwierpen een prachtig formulier en anderhalf jaar later had ik op mijn kleine onderzoekskamer metershoge stapels met die formulieren, keurig geordend.
Toen kwam de vraag, die we ons eerder hadden moeten stellen: hoe analyseer je deze data (nu zouden we het big data noemen), waar zoek je eigenlijk naar en hoe haal je er zinvolle verbanden uit. Na veel wetenschappelijk beraad stelde iemand voor om alle gegevens in te voeren in de computer en er het (toen zeer moderne) SPSS programma op los te laten. Aldus geschiedde. Het hielp niet echt. Naast de metershoge stapels originele formulieren beschikten mijn collega en ik nu over half zo hoge stapels kettingformulieren. Zo kwamen we van de regen in de drup. En we zagen nog steeds geen logische verbanden. Pas toen we allerlei werkhypothesen gingen formuleren en aan het materiaal toetsten, begonnen we verbanden te zien. Die hypothesen hadden we natuurlijk van te voren moeten formuleren, dan hadden we veel gerichter gezocht en waarschijnlijk minder en ander materiaal verzameld. Overigens zijn we erin geslaagd om voor de opdrachtgever werkbare antwoorden te geven, waarin het wegprofiel maar in beperkte mate een rol speelde.
Het was mijn eerste onderzoekservaring en ik heb er veel van geleerd. Een van de belangrijkste lessen is dat je niet ongericht informatie moet verzamelen. De tweede is dat je geen relevante onderzoeksresultaten krijgt als je de computer ongericht laat zoeken in zo veel data. Als je dan al verbanden vindt, zijn die slecht te begrijpen en te verklaren of gewoon zinloos. Op de TH leerde ik bij statistiek in het tweede jaar al dat er eind negentiende eeuw jarenlang een zeer significant statistisch verband was tussen de prijs van Jamaica rum en de salarissen van dominees in Boston. Dat verband slaat nergens op, maar als je niet nadenkt, kom je tot de conclusie dat dominees in Boston meer rum gingen drinken als ze een hoger salaris hadden en dat daardoor de prijs van de rum omhoog ging. ‘How to lie with statistics’ noemde professor Nanninga dat.
Ik moet altijd aan mijn eerste onderzoekservaring denken als ik lees dat mensen of organisaties ongericht data verzamelen zonder duidelijke gerichte vraag en onderzoeksstrategie. Wat moet de NSA met 1,8 miljoen gegevens over telefoonverkeer als ze niet weten wat ze zoeken? De kans dat ze een verband zoals rumprijs/domineesalarissen vinden is groter dan dat ze iets echt zinnigs over terrorisme vinden. Het wordt echt link als er op grond van die toevalligheden Drones op pad gestuurd worden om de dominees af te schieten omdat ze de rumprijs opdrijven.
Een even ondoordacht en bijna net zo gevaarlijk idee stond gisteren in de Volkskrant. Willem Mestrom, die voor Independer (van Achmea) zorgpolissen vergelijkt, wil beschikken over zo veel mogelijk gegevens van patiënten om op grond daarvan te voorspellen of er verhoogd risico is op bepaalde ziekten. Hij is geen arts en uit de artikelen blijkt niet dat hij hypothesen heeft, die hij wil toetsen. Het lijkt erop dat hij -net als wij bij ons onderzoek 30 jaar geleden- denkt dat als je de computer maar laat zoeken, er vanzelf wel zinvolle verbanden uit komen. Ik geloof er niets van.
In de artikelen gaat het uiteraard weer over de privacy. Daardoor blijft een ander, meer wetenschapsfilofosisch thema, onderbelicht. Als we niet meer nadenken wat we willen weten voor we gaan zoeken, moeten we van Big Data afblijven. Er zitten geweldige risico’s aan het vertrouwen op en handelen naar toevallige verbanden, die uit de computers rollen.
De maatschappelijke discussie zou daarover moeten gaan: mogen we data verzamelen en gebruiken voor ongerichte analyse, als we niet duidelijk kunnen maken wat we zoeken?