dinsdag 25 januari 2011

Peilingen (nerdy)

De betoging van zondag 23 januari heeft heel wat politici een beetje nerveus gemaakt en ze slaan dus vlot aan het interpreteren om de boodschap van de betoging op een of andere manier te laten aansluiten bij hun eigen politieke strategie. Hierbij wordt uiteraard gebruik gemaakt van de peiling die in opdracht van Le Soir werd uitgevoerd. Los van het feit dat die interpretaties vaak zeer dubieus zijn (cf. Weyts' en Maddens' opmerking over Brusselaars) stelt zich echter ook de technisch vraag of er op basis van de gegevens die door Le Soir zijn vrijgegeven heel veel te besluiten valt. Uw dienaar houdt natuurlijk van nerdy technisch wiskundige probleempjes en laat voor één keer allerlei politieke analyses achterwege en focust op de technische kant van de zaak.
De cijfers van Le Soir zijn de volgende: "On y retrouvait 44 % de Bruxellois, 35 % de Wallons et 21 % de Flamands. Sondage réalisé sur 1008 personnes dans la manifestation sur l’ensemble du parcours, avec une dizaine d’enquêteurs. Marge d’erreur 3,5%. "
Wat betekent dit nu eigenlijk? Meestal worden dergelijke cijfers geïnterpreteerd als: het percentage Brusselaars in de betoging is gelegen tussen 41,5% en 47,5%. Maar zulke besluiten kan men helemaal niet trekken uit deze cijfers. Om de cijfers op een correcte manier te interpreteren hebben we nog een ander cijfer nodig, nl. het niveau van betrouwbaarheid waarmee wordt gewerkt.

Betrouwbaarheid ... Hoe zit dat nu weer in elkaar? Een simpel voorbeeld. Stel dat we om één of andere bizarre reden zouden geïnteresseerd zijn geweest niet in het aantal Vlamingen, Walen of Brusselaars die meeliepen in de betoging, maar wel in de minstens even zo interessante vraag wat de gemiddelde lengte van de deelnemers was. Iedere deelnemer opmeten is natuurlijk onbegonnen werk, dus net zoals de peilers van Le Soir kiezen we lukraak 1008 personen uit, meten hun lengte en berekenen we de gemiddelde lengte van deze 1008 mensen. Stel, we komen uit op een 1m57 (misschien een beetje laag, maar, er waren tenslotte meer Franstaligen dan Vlamingen aanwezig en we weten allemaal dat die Latijnse volkeren een pak kleiner uitvallen dan de nobele Noordelijke volkeren). Wat kunnen we hier nu uit besluiten? Op het eerste gezicht niets. Tenslotte, hadden we per toeval 1008 andere mensen uitgekozen, dan was de gemiddelde lengte van die personen waarschijnlijk anders geweest. Maar hier komt statistiek op de proppen. We mogen namelijk aannemen dat de lengte van personen normaal verdeeld is, en via berekeningen kunnen we dan een interval berekenen rond de waargenomen gemiddelde lengte van de 1008 personen uit de steekproef, waarvan we kunnen zeggen dat de echte gemiddelde lengte (dus de gemiddelde lengte van alle personen aanwezig op de betoging) met een bepaalde waarschijnlijkheid binnen dat interval ligt. De clou van de zaak is echter dat we die waarschijnlijkheid zelf kunnen kiezen. Hoe zekerder we willen zijn dat de echte gemiddelde waarde binnen het berekende interval ligt, hoe groter het interval (en de foutenmarge) zal zijn.

Wil ik bijvoorbeeld een betrouwbaarheidsinterval berekenen waarvan ik met 90% waarschijnlijkheid kan zeggen dat de gemiddelde lengte van alle betogers hierin ligt dan verkrijg je als interval 1m56 met een foutenmarge van 3,11 cm

Wil ik daarentegen een betrouwbaarheidsinterval berekenen waarvan ik met 95% waarschijnlijkheid kan zeggen dat de gemiddelde lengte van alle betogers hierin ligt dan verkrijg je als interval 1m56 met een foutenmarge van 3,70 cm.

Wil ik nog meer zekerheid, dan bereken in een betrouwbaarheidsinterval waarvan ik met 99% waarschijnlijkheid kan zeggen dat de gemiddelde lengte van alle betogers hierin ligt dan verkrijg je als interval 1m56 met een foutenmarge van 4,87 cm.


Zoals het voorbeeld aangeeft wordt het interval (de foutenmarge) groter naarmate je meer zekerheid wil dat de parameter die je wil schatten (de gemiddelde lengte) in het aangegeven interval ligt.

Maar hieruit blijkt ook dat je met het opgeven van de foutenmarge op zich niets bent als je niets weet over het zekerheidsniveau. Alleen de mededeling dat de gemiddelde lengte 1m56 bedraagt met een foutenmarge van 4,87cm geeft geen informatie, tenzij je weet welke betrouwbaarheid geëist werd.

Hetzelfde geldt nu voor de cijfers die door Le Soir zijn gepubliceerd. Uit de mededeling dat het percentage Brusselaars in de betoging 44% bedraagt met een foutenmarge van 3,5%, kunnen we niet veel afleiden, want we kennen het betrouwbaarheidsniveau van de schatting niet. Naar alle waarschijnlijkheid zal het betrouwbaarheidsniveau van de schatting liggen tussen 95% en 99%.

De correcte interpretatie van de cijfers is dan van de vorm: De kans dat het percentage Brusselaars op de betoging tussen de 41,5% en de 47,5% bedroeg is 95% (of 99%).

(Dit is natuurlijk in de veronderstelling dat de 1008 mensen werkelijk lukraak zijn gekozen; de vragen duidelijk gesteld waren e.d.)

Boeiend, niet?Geen opmerkingen: