Zijn verkiezingspolls nog betrouwbaar

Lezing over de betrouwbaarheid van verkiezingspolls door Frits Spangenberg. Samenvatting aan de hand van stellingen.

Er bestaat bijna geen slecht verkiezing onderzoek, zolang je met het wetenschappelijk noodzakelijke, statistisch 95% waarschijnlijkheids niveau rekening houdt. In de praktijk betekent dat, afhankelijk van de steekproef plus of min 2%, dus een verschil van 4%. Verkiezingspolls zijn een meting op dat moment en zijn in wezen geen voorspelling voor een zetelverdeling. Die pretentie geeft per definitie een afwijking.

Lezing door Frits Spangenberg
7 februari 2017 Rotary Club
Nieuwe Kerk Amsterdam

Zijn verkiezingspolls nog betrouwbaar

In een nek aan nek race tussen kandidaten kan verkiezingsonderzoek ‘er dus helemaal naast zitten’. Dat wordt graag geroepen en onthouden, zelfs zoals bij de presidentsverkiezingen 2016 tussen Clinton en Trump, waar Clinton meer stemmen verkreeg, maar door het kiesmannensysteem van de USA dit anders kan uitpakken.

Verkiezingen zijn ook niet waterdicht en 100% betrouwbaar. Bij een handmatige hertelling op 12 december 2000 na presidentsverkiezingen Bush-Gore in Florida, bleek een pijnlijk grote afwijking door ‘alternatieve telmethoden die tot dubbeltellingen konden leiden. Stemmen per computer blijkt gevoelig voor manipulatie door hackers. Hoe kan je over de betrouwbaarheid van verkiezingsonderzoek oordelen als de uiteindelijke stemprocedures zelf niet waterdicht zijn ?

Verkiezingsonderzoek is de afgelopen decennia steeds moeilijker geworden. Vroeger werd veel meer gestemd naar ideologie, nu zijn er veel zwevende kiezers die toch maar niet gaan stemmen ofwel een issue of een persoonlijkheid hun stem geven.

Bovendien zijn potentiele stemmers moeilijker te bereiken, door verhoogde mobiliteit en beperkter response. Debatten op televisie, nieuwsverspreiding (al dan niet nepnieuws) via social media kan net een doorslaggevende verandering in het stemhokje teweeg brengen.

Een grote steekproef is niet per sé beter. De samenstelling van de steekproef is veel belangrijker. Voorafgaand aan de presidentsverkiezingen in de V.S. van 1936 werd er een grootschalig onderzoek uitgezet op initiatief van de redactie tijdschrift The Literary Digest. Er werden 2.4 miljoen vragenlijsten via de post geretourneerd met een zeer duidelijke voorspelling; de kandidaat Landon zou tot president worden herkozen. Dat de steekproef bestond uit lezers van een literair tijdschrift werd eerder als een kwaliteits criterium dan als een zwakte gezien. Bijna tegelijkertijd deed George Gallup ook een verkiezingsonderzoek. Hij koos voor een quota steekproef, met een zo getrouw mogelijke afspiegeling van stad en platteland, sexen en opleidingsniveaus. Met ‘slechts’ 50.000 enquetes werd hij aanvankelijk niet serieus genomen. Gallup kwam aan de hand van zijn data tot een heel andere voorspelling: de democraat Roosevelt. Gallup kreeg gelijk en was vanaf dat moment de gezaghebbende expert.

Ten aanzien van de meest passende vraagstelling wordt door de jaren heen continu aanpassingen gedaan, omdat taalgebruik en veranderingen in gedrag goed moeten worden herkend door de ondervraagden.

De methoden van dataverzameling is ook voortdurend onderdeel van aanpassingen op de actualiteit. Van postenquetes naar face-to-face interview, naar telefonische bevraging, naar gebruik van internetpanels en analyse van social media platforms; geen enkele vorm van dataverzameling is waterdicht gebleken wat betreft het bereiken van een 100% afspiegeling van het electoraat. De uitdaging is om er telkens zo dicht mogelijk bij te komen. Het verschil tussen de feitelijke werkelijkheid en de resultaten van de doorwrochte onderzoeken is uiteindelijk altijd wel een paar procent en dat komt door de ‘onderzoeksvariantie’. Hoe zorgvuldig je ook te werk gaat, er is altijd wel ergens een kleine afwijking, een verschuiving of een ander perspectief. Voor de grote lijnen van beleid is dat geen probleem, maar voor een nipte overwinning des te meer.

Twee begrippen zijn bij onderzoek van uitermate belang om over de kwaliteit te kunnen oordelen:

  • Is de studie betrouwbaar ? Indien de studie zou worden herhaald zouden de uitkomsten identiek moeten zijn, met uitzondering natuurlijk van de veranderende afhankelijke omstandigheden (zoals de opinie over het onderwerp van studie).

Wanneer bijvoorbeeld in een herhaal studie het opleidingsniveau van de ondervraagden hoger uitpakt dan bij de vorige studie zullen daardoor andere resultaten optreden; daarmee is dit onderzoek niet betrouwbaar.

  • Is de studie valide; wordt er ook gemeten wat je wilt meten. Enkele decennia geleden kampten de Nederlandse restaurants met een slecht imago, er werd veel gepraat en geschreven over de gebrekkige service. Na een landelijk representatief onderzoek bleek dat de klachten vooral bestonden onder de Nederlanders die zelden of nooit uit eten gingen. De reguliere restaurant bezoekers hadden geen noemenswaardige klachten. Indien in de vraagstelling niet ook was gevraagd naar het feitelijke bezoek, dan had de studie bevestigend voor de onvrede gerapporteerd.

Mediastilte of ‘Black-out’. In een aantal landen is door middel van wet- en regelgeving een verbod op publicatie van onderzoekuitkomsten over de aankomende verkiezingen van kracht. Dit varieert van 24 uur tot meerdere dagen. Met grote regelmaat komt dit onderwerp terug in de maatschappelijke discussie, ook in Nederland. Een voorstel tot zo’n ‘rustperiode’  wordt altijd weer met een zeker enthousiasme ontvangen, tot er dieper wordt nagedacht wat de implicaties hiervan zijn. Er lopen verkiezings voorspellingsonderzoeken en die zijn wel ter beschikking van bepaalde maatschappelijke partijen die hier zelf voor kunnen betalen, alleen de bevolking wordt dom gehouden. Daarnaast is met de digitale media handhaving onmogelijk. Vanuit buitenland kan onderzoek in bijna ieder land worden uitgevoerd en gerapporteerd. De beperkende publicatie maatregelen geven dus een bedriegelijke schijnrust.

Wat is de invloed van verkiezingsonderzoek op de uitslagen van de werkelijke verkiezingen ? Naar dit onderwerp zijn wereldwijd zeer veel onderzoeken gedaan met een brede waaier aan resultaten. Per cultuur of situatie kan er enig verschil optreden, maar als je alle beschikbare onderzoeken bij deze vraag betrekt dan corrigeren de effecten elkaar. Het ‘bandwagon’ effect wil zeggen dat kiezers graag op de winnende partij willen stemmen, om hun eigen gezichtsverlies te beperken. Maar het ‘underdog’ effect heft dat meestal op. Juist om zo invoelend te zijn dat je degenen die het het hardste nodig heeft jouw steun geeft.

WAPOR en ESOMAR zijn de beroepsorganisaties die bovengenoemde onderzoeken stimuleren en ter inzage kunnen geven.

Verkiezingsonderzoek zit er dus zelden ‘helemaal naast’, in sommige gevallen is verkiezingsonderzoek betrouwbaarder dan de verkiezingen zelf. Om misplaatste kritiek in de media en onder het publiek zoveel mogelijk te voorkomen zal vanuit de onderzoekbranche expliciet moeten worden gecommuniceerd over de speelruimte van de uitkomsten. Wanneer een opinieonderzoeker als een mediaorakel de waarheid gaat voorspellen kan je de kritiek als een boemerang terug verwachten.

 

Frits Spangenberg