Dlaczego sondaże wyborcze nie sprawdzają się?

Sondaże bardzo mocno wpisały się w naszą medialną rzeczywistość. Niemal codziennie słyszymy o kolejnych procentach poparcia dla danej idei czy partii politycznej. Ale czym tak naprawdę są te wszystkie liczby podawane przez media? Dlaczego wyniki podawane przez różne sondażownie tak mocno się różnią? No i przede wszystkim – dlaczego sondaże wyborcze się nie sprawdzają?

Szkolne błędy…

Pierwszym najpoważniejszym błędem, który występuje w zdecydowanej większości sondaży jest brak sumowania się wyników do 100%. Kiedy zliczymy procenty wszystkich partii okaże się, że suma wyników wynosi np. 85% procent. A co z resztą? Nie, to nie są mniejsze komitety, które akurat nie zmieściły się na grafice w gazecie czy telewizji. Brak sumowania się do 100% wynika z tego, że we wszystkich badaniach jakaś część osób zaznacza opcję „nie wiem/żadna”. I tu ujawnia się pierwszy błąd metodyczny prezentacji danych, bowiem w przypadku wyborów nie ma czegoś takiego jak „nie wiem/żadna” i wszelkie poparcie (wraz z późniejszym rozliczeniem mandatów) odbywa się tylko względem prawidłowo oddanych głosów. To oznacza, że jeżeli w sondażu Partia A zdobywa 30% głosów (czyli 300 głosów z 1000 ankietowanych), a wyniki wszystkich partii sumują się do 85%, to tak naprawdę realny wynik na jaki może liczyć Partia A wynosi około 35% (300 głosów z 850 zdecydowanych).

Prawdę mówiąc nie wiem z czego wynika ten błąd, ale podejrzewam że jest to po prostu droga na skróty, bowiem kiedy stacja zamawia sondaż na próbie 1000 osób i powiedzmy 15% z ankietowanych odpowie „nie wiem/żaden” to trzeba byłoby albo dopytać kolejne 150 osób na kogo chcą zagłosować, albo rozliczać procenty względem grupy 850 ankietowanych (tak jak byłoby podczas prawdziwych wyborów). Nie mniej jednak taki błąd bardzo mocno potrafi wypaczyć sens danego sondażu (np. nagle się może okazać, że partie który były pod progiem wyborczym znajdą się nad nim). Co więcej – życie i praktyka pokazują, że niektóre grupy ludzi mniej chętnie dzielą się informacją na kogo oddałyby swój głos, a to oznacza kolejny problem z rozliczeniem poszczególnych głosów.

Ilość i jakość ankietowanych

Skoro już przy grupie ankietowanych jesteśmy to odpowiedzmy sobie na pytanie – co to tak naprawdę oznacza, że mamy 1000 ankietowanych. To oznacza, że 10 osób potrafi zachwiać wynikiem o 1 punkt procentowy. Przykładowo jeśli 40 osób powie, że zagłosowałoby na Partię A, a w innym sondażu takich ankietowanych będzie raptem 10 osób więcej, to jednego dnia usłyszymy że Partia A nie dostanie się do Sejmu (bo zdobędzie 4%), a innym razem media triumfalnie ogłoszą, że Partia A będzie w Sejmie i że cała scena polityczna się diametralnie przetasuje.

Można też jeszcze bardziej absurdalnie to potraktować, bo zazwyczaj procenty które widzicie w mediach są zaokrąglane do pełnych wartości. Jeśli więc w jednym sondażu 44 osoby na 1000 powiedzą, że głosują na Partię A, a w drugim sondażu będzie tych osób raptem 45, to stawianie bardzo mocnych tez że dana partia wejdzie/nie wejdzie opiera się tak naprawdę na jednostkowych zachwianiach i jest dość kuriozalne. Dużo sensowniejsze jest badanie pewnych trendów na przestrzeni czasu wykorzystując cały czas podobną próbkę ankietowanych.

Ale mała liczba ankietowanych to jeszcze jest pół biedy, bo statystycznie nawet przy tysiącu ankietowanych można osiągnąć wysoki próg ufności danego sondażu. Gorzej, kiedy przekrój tego tysiąca osób nie odpowiada realnemu przekrojowi społeczeństwa. Przykładowo, jeśli sondażownia wykonuje badanie telefoniczne i robi to dzwoniąc na telefony stacjonarne (a część na pewno tak robi, czego świadkiem na pewno było wielu z Was) to trudno nazwać tę grupę za reprezentatywną, biorąc pod uwagę że telefony stacjonarne zazwyczaj są tylko w miastach i raczej posiadają je osoby starsze. Pójście w drugą stronę (czyli dzwonienie tylko na telefony komórkowe) też nie rozwiązuje problemu, tylko skrzywia badanie w drugą stronę. Analogicznie jest z sondażami ulicznymi – zatrzymanie się w campusie studenckim, centrum handlowym czy nawet przystanku autobusowym i przepytanie tam jakiejś grupy osób przyniesie zupełnie inne efekty, niż gdybyśmy rzetelnie podróżowali po całym okręgu przepytując pojedyncze osoby.

Żeby badanie miało sens, to w tej grupie reprezentatywnej powinien być taki przekrój społeczeństwa, jaki występuje w skali całego kraju. Wystarczyłoby wyłapać przynajmniej najważniejsze wskaźniki, takie jak przedziały wiekowe, płeć, wielkość miasta itd. Zachwianie proporcjami któregokolwiek z tych wskaźników (czyli np. wzięcie do ankiety 60% mężczyzn, kiedy w społeczeństwie stanowią oni 45%) powoduje niepotrzebny wzrost błędów pomiaru. I technicznie tak powinno wyglądać tego typu badanie, ale czy wygląda? Cóż, wiele sondaży (zwłaszcza tych telefonicznych lub ulicznych) nie mają nic wspólnego z podobną metodyką, co najwyżej mogą one nanosić pewne poprawki za sprawą swoich algorytmów. Nie mniej jednak bardzo często rzetelność pracy ankieterów pozostawia pewnie wiele do życzenia. I to właśnie tu drzemie odpowiedź na pytanie dlaczego tego samego dnia dwie różne sondażownie potrafią podać dwa różne wyniki – po prostu każda z nich ma inną próbkę ankietowanych i każda z nich stosuje inne algorytmy (o ile w ogóle stosuje).

40% głosów to nie jest to samo co 40% mandatów

Wielu osobom się wydaje, że jeśli dana partia uzyska np. 40% głosów to zdobędzie w ten sposób 40% miejsc w Sejmie. A to nie jest prawda i to nie tylko dlatego, że nie przy podziale mandatów nie zliczamy partii, które nie przekroczyły progu wyborczego. Sposób liczenia metodą D’hondta (a taki obowiązuje w Polsce) wcale nie przekłada się na idealną proporcję względem głosów i zdobytych mandatów. Zanim podam Wam konkretny przykład to posłużę się wyborami samorządowymi z 2014 roku. Wtedy to w wyborach do sejmików wojewódzkich mieliśmy taką oto sytuację, że Partia A zdobyła w całej Polsce więcej głosów niż Partia B, ale to Partia B uzyskała większą liczbę mandatów. Jak to możliwe?

Spójrzmy na bardzo prostą symulację. Załóżmy, że analizujemy dwa okręgi wyborcze, a w każdym jest do zdobycia 10 mandatów (czyli to jest taki okręg średniej wielkości). W każdym z tych okręgów w wyborach uczestniczyło 1000 osób i głosy rozłożyły się następująco:

Okręg 1:
Partia A – 550 głosów – 55% (6 mandatów)
Partia B – 250 głosów – 25% (3 mandaty)
Partia C – 90 głosów – 9% (1 mandat)
Partia D – 60 głosów – 6% (0 mandatów)
Partia E – 50 głosów – 5% (0 mandatów)

Okręg 2:
Partia A – 300 głosów – 30% (3 mandaty)
Partia B – 400 głosów – 40% (5 mandatów)
Partia C – 150 głosów – 15% (1 mandat)
Partia D – 80 głosów – 8% (1 mandat)
Partia E – 70 głosów – 7% (0 mandatów)

Łącznie:
Partia A – 850 głosów – 42,5% (9 mandatów)
Partia B – 650 głosów – 32,5% (8 mandatów)
Partia C – 240 głosów – 12% (2 mandaty)
Partia D – 140 głosów – 7% (1 mandat)
Partia E – 120 głosów – 6% (0 mandatów)

W ten oto sposób w tych dwóch okręgach partia A uzyskała poparcie 42,5% co przełożyło się na 9 mandatów (9 z 20, czyli 45% wszystkich mandatów). Partia B miała o około 1/4 mniejszą liczbę głosów, ale w mandatach mają tylko o 1 miejsce mniej od partii A.

Gdyby to teraz przenieść na większą skalę i gdyby podobne sytuacje wydarzyły się także we wszystkich pozostałych okręgach w kraju, to może się okazać, że zdobywając 42,5% w wyborach Partia A uzyska np. 207 mandatów (45% z całości), a Partia B z 32,5% poparcia uzyska 184 mandaty (40% z całości), czyli niewiele mniej od zwycięzcy. Jakby tego było mało, to partia E, która przekroczyłaby próg wyborczy we wszystkich okręgach i tak nie uzyskałaby choćby jednego mandatu!

Jeśli do tego dodamy, że bardzo duży wpływ na dzielenie mandatów ma też wspomniany próg wyborczy (partie, które go nie przekroczą nie biorą udziału w podziale), to otrzymamy sytuację w której debatowanie o tym ile dana partia zdobędzie miejsc w Sejmie na podstawie sondaży jest klasycznym wróżeniem z fusów. W ekstremalnych sytuacjach zarówno 35% poparcia w skali kraju może dać większość parlamentarną (231 mandatów), jak i 45% poparcia może tej większości nie dać.

Kluczowe do podziału mandatów jest to jak rozłożą się głosy w poszczególnych okręgach, a nie jak to wszystko wypadnie w skali kraju. Mówiąc wprost, to korzystniej jest wygrać dwa razy minimalną liczbą głosów niż raz z olbrzymią przewagą. Może się więc zdarzyć sytuacja (i tak jak wspomniałem, niedawno się właśnie tak stało), że partia mając większe poparcie dostanie mniej głosów niż jej konkurencja. No i najważniejszy chyba wniosek z tej części – przekroczenie progu 5% nie oznacza wprowadzenia choćby kilkunastu posłów do Sejmu. Oznacza on tylko udział przy rozliczeniu mandatów, a te mogą rozłożyć się bardzo różnie.

Idąc na skróty badamy coś innego, niż dzieje się na wyborach

Oprócz takich matematyczno-statystycznych problemów pojawia się także aspekt pewnej psychologii. Nie będziemy się tutaj może za bardzo nad nim rozwodzić, bo nie psychologia jest tematyką tej strony, ale kiedy idziemy na wybory, to oddajemy głos na konkretne osoby, a nie przy nazwie partii politycznej. Krótko mówiąc – sondaże badają trochę coś innego, niż dzieje się na wyborach! To sprawia, że partia która ma silne nazwiska i bardzo dobrych kandydatów przyciągnie do siebie wyborcę, który nie jest bardzo mocno przywiązany do danej partii. Żeby więc badanie sondażowe miało naprawdę sens, to powinno sprawdzać poparcie dla konkretnych osób w konkretnych okręgach i na tej podstawie można byłoby wyciągnąć wnioski odnośnie popularności partii i przyszłego podziału mandatów. I tu najlepszym dowodem na potwierdzenie tej tezy są badania exit pools (czyli ankiety, które niektórzy otrzymują tuż po wyjściu z lokalu wyborczego). Zazwyczaj takie badania niemal idealnie oddają późniejszy wynik wyborów. W zasadzie jedynym wyjątkiem były ostatnie wybory samorządowe, ale to ze względu na bardzo dużą liczbę głosów nieważnych.

Obrazowo rzecz ujmując – badanie poparcia dla partii jest jak badanie np. najbardziej lubianego ciasta przez Polaków. Załóżmy, że w takim badaniu wyszłoby, że 40% wybrało sernik, 30% jabłecznik itd. I teraz pytanie – czy takie badanie oznaczałoby, że 40% klientów kawiarni wybierze sernik, a 30% jabłecznik? No właśnie nie do końca tak musi być i dużo zależy od samej listy ciast do wyboru. Preferencje mogą się pokrywać wyborem (zwłaszcza w polityce), ale duże dysproporcje między okręgami jasno pokazują, że dobrzy i znani kandydaci potrafią się wybić poza ogólne poparcie dla partii, zwiększając w ten sposób liczbę głosów oddanych na dane ugrupowanie. I na odwrót – słabi kandydaci znacznie zaniżają poparcie. Dlatego też badanie preferencji wyborczych na podstawie listy partii, a nie nazwisk na które chcemy oddać głos, jest obarczone sporym błędem.

Konkluzja

Sondaże, którymi jesteśmy wręcz bombardowani dość słabo opisują realną rzeczywistość, gdyż w całym procesie popełniane są mniejsze i większe błędy, które bardzo mocno potrafią zachwiać ostatecznym wynikiem. Uczciwie trzeba też przyznać, że zrobienie takiego dobrego sondażu jest szalenie trudne, bo jest bardzo dużo zmiennych, które trzeba byłoby przeanalizować. Można oczywiście stosować różne algorytmy, które zwiększałyby wiarygodność, ale jeśli nie zlikwiduje się podstawowych błędów w zdobywaniu i prezentowaniu danych, to nie ma nic dziwnego w tym, że jednego dnia Partia A może mieć 28% w sondażu, a drugiego np. 42%. Zresztą trudno też mówić o profesjonalnym podejściu przy robieniu sondaży, skoro nawet prostego sumowania do 100% w nich nie uświadczymy.

A co to dla nas oznacza? Cóż, dla nas sondaże powinny mieć zerową wartość merytoryczną, bo wybory to nie zakłady bukmacherskie w których obstawiamy kto wygra. Na wyborach oddajemy głos na ludzi, których chcemy poprzeć, a do tego sondaży nie potrzebujemy.