Några ord om opinionsundersökningar

Det har varit mycket kackel och debakel om opinionsundersökningarna före både brexit och amerikanska valet 2016. I bägge fallen blev folk förvånade att undersökningarna visade så pass fel. Här tänkte jag reda ut några saker som kan gå fel.

Först några ord om statistiken som är inblandad. Vi behöver den här relativt enkla formeln för att räkna ut felmarginalen:

p\pm z*\sqrt{\frac{p*(100-p)}{n}}

där:

p = uppmätt procenttal
n = antalet observationer
z = 1.96

Hoppsan, var kom den magiska konstanten 1.96 ifrån? Den går att räkna ut, läs hur här. Annars räcker det att slå upp z i följande tabell:

z konfidens
2.575 99%
1.96 95%
1.645 90%

1.96 betyder alltså att om man gjort n observationer med resultatet procent så kommer det totala resultatet att hamna inom den (med formeln) beräknade felmarginalen med 95% sannolikhet.

Exempel

I en opinionsundersökning har 821 personer frågats vilket parti de skulle rösta på om det vore val idag. Av de tillfrågade svarade 23% att de skulle rösta på M.

Hur tillförlitligt är detta resultat då? Om vi sätter in siffrorna 23 och 821 i formeln ovan och sätter z till 1.96 får vi:

23% +/- 2.9%

Med andra ord har vi 95% sannolikhet att M skulle få mellan 20.1% och 25.9%. Vi är alltså bara 95% säkra på att vi ens hamnar inom detta icke oansenliga intervall.

Variabeln vi har att leka med här är antalet tillfrågade. Om vi istället tillfrågar tiotusen personer får vi: 23% +/- 0.8% med 95% sannolikhet. Betydligt bättre.

De flesta opinionsundersökningar som publiceras har långt färre tillfrågade och då blir felmarginalen alldeles för stor för att det i praktiken ska finnas något värde i att ens publicera undersökningen.

Förutsättningar

Formeln ovan för felmarginal gäller dessutom endast om följande förutsättningar är sanna:

  • Normalfördelade data
  • Slumpmässigt urval från väljarbasen
  • Ärliga svar

Normalfördelning

Konstanten 1.96 stämmer bara om datat är normalfördelat (vilket innebär att om man gör om försöket massor av ggr och ritar stapeldiagram för hur många försök som hamnade inom olika intervall så ska staplarna tillsammans forma en kyrkklocka sedd från sidan, s.k. bell curve). Som tur är kan vi förutsätta detta när det gäller opinionsundersökningar.

Slumpmässigt urval

För att formeln ska gälla måste de tillfrågade personerna utgöra ett slumpmässigt urval av alla som kommer att rösta i det riktiga valet. Det duger inte att t.ex. gå till ett universitet och fråga vad studenterna ska rösta på. Åldersgruppen 20-30 år är överrepresenterad bland studenter så det är knappast något slumpmässigt urval. Studenterna är inte ens ett slumpmässigt urval av gruppen väljare 20-30 år för det finns massor av folk i den här åldern som t.ex. börjat jobba direkt efter gymnasiet, de får också rösta. Coverage bias kallas det när urvalet inte är slumpmässigt.

Att göra opinionsundersökningar på internet ger inte heller något slumpmässigt urval ur befolkningen. Olika sajter har olika subgrupper ur befolkningen som besöker dem ofta och dessa subgrupper utgör inte något slumpmässigt urval, olika sajter har olika bias. Exempelvis kan
man förvänta sig att Alliansen får bättre siffror hos DN än hos Aftonbladet, inget slumpmässigt urval som kan representera hur hela befolkningen kommer att rösta alltså.

En annan typ av coverage bias får man när man ringer runt slumpmässigt i telefonkatalogen (eller motsvarande nättjänst). Fler yngre personer än äldre personer har kontantkort och står inte med i katalogen = coverage bias.

Ärliga svar

Vissa av de tillfrågade kanske svarar att de kommer rösta på ett parti men sedan går och röstar på ett annat. Om dessa felaktiga svar sker slumpmässigt kan man förvänta sig att felen tar ut varandra och opinionsundersökningen kommer ändå bli hyfsat bra. Men om det finns flera väljare från vissa partiers väljarbaser som svarar fel än från de andra väljarbaserna får man ett systematiskt fel. Det här felet kallas också response biasSystematiska fel slår igenom på resultatet.

Svarar ej

Om fler av de tillfrågade ur en viss väljargrupp väljer att inte svara än väljare ur andra grupper får man också ett systematiskt fel. Detta fel kallas non-response bias.

Sammanfattning

Felmarginalen är större än man tror. För att få en liten felmarginal måste väldigt många tillfrågas och det kostar pengar att göra en så stor undersökning. När tidningarna blöder och inte lyckas hitta andra sätt att tjäna pengar på än att sälja papperstidningar så kommer deras opinionsundersökningar knappast bli bättre med tiden.

Dessutom måste de tillfrågade utgöra ett slumpmässigt urval ur hela väljarbasen vilket är svårare än man tror att få till. Har man inte ett slumpmässigt urval får man ett systematiskt fel.

Även om man får allt ovanstående korrekt kan undersökningen ändå visa utanför felmarginalen. Det är trots allt bara 95% sannolikhet att man hamnar innanför felmarginalen. Fem ggr av hundra kommer man hamna utanför.

Dessutom är det svårt att undvika systematiska fel (bias), t.ex. att folk ur en viss väljargrupp svarar mindre ärligt än folk ur andra väljargrupper, eller väljer att inte svara alls.

Även seriösa undersökningar kan alltså visa fel, utan att någon ens hackat valet 😉

Läs mer

Annonser

Om albertveli

Grävande programmerare.
Det här inlägget postades i Matematik, Media, Uncategorized. Bokmärk permalänken.

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s