2: A szavazás valószínűségének mérése

A felmérési szakirodalom már régóta kimutatta, hogy több válaszadó állítja, hogy szavazni kíván, mint ahányszor valóban szavazatot adott le (például Bernstein és mtsai 2001; Silver és mtsai 1986). Ezenkívül egyesek azt mondják, hogy nem várják el a szavazást, de valóban megteszik, talán azért, mert egy kampány vagy egy, a választások napjához közeli barát veszi fel velük a kapcsolatot, és rábeszélik, hogy jelentkezzenek. Ezek a helyzetek esetleg hibát jelentenek a választási előrejelzésekben, mert ezek a lopakodó választók és nem szavazók gyakran eltérnek pártpolitikai preferenciáiktól. Általánosságban elmondható, hogy a republikánusok nagyobb eséllyel fordulnak elő, mint a demokraták, bár nagy valószínűséggel azt mondják, hogy szavazni szándékoznak. Ennek következtében a közvélemény-kutatók nem kizárólag a válaszadó kijelentett szándékára támaszkodnak, amikor egy személyt valószínűsíthetően szavaznak vagy nem. Ehelyett a legtöbben több kérdést tesznek fel, amelyek együttesen felhasználhatók az egyén szavazási valószínűségének becslésére. A kérdések a szavazási szándékot, a korábbi szavazási magatartást, a szavazási folyamat ismeretét és a kampány iránti érdeklődést mérik.


Ez a tanulmány hét szokásos kérdés, és néha más információk felhasználásának különböző módjait vizsgálja a várható választók modelljének elkészítéséhez. A kérdéseket eredetileg az 1950-es és 60-as években dolgozta ki a gallupi Paul Perry választási közvélemény-kutatás úttörője, és a Pew Research Center, a Gallup és más szervezetek választások előtti közvélemény-kutatásuk során (különféle kombinációkban és némi változtatással) használták fel őket (Perry 1960). , 1979). Az itt tesztelt kérdések a következőket tartalmazzák (a következő részben tárgyalt kategóriák, amelyek pontot adnak a válaszadónak a Perry-Gallup indexben)bátor):

  • Mennyire gondolt a következő novemberi választásokra?Nagyon sokan, egyesek,csak egy keveset, egyiket sem
  • Szavazott valaha az Ön körzetében vagy választási körzetében?Igen,nem
  • Azt mondaná, hogy követi a kormányzati és közügyekben zajló eseményeketlegtöbbször, néha,csak hébe-hóba, alig?
  • Milyen gyakran mondanád, hogy szavazol?Mindig, szinte mindig,az idő egy részében, ritkán
  • Mennyire valószínű, hogy szavaz a novemberi általános választásokon?Határozottan szavazni fog, valószínűleg szavazni fog,valószínűleg nem fog szavazni, határozottan nem fog szavazni
  • A Barack Obama és Mitt Romney közötti 2012-es elnökválasztáson felmerültek olyan dolgok, amelyek megakadályozták a szavazást, vagy véletlenül szavazott?Igen, szavazott;nem
  • Kérjük, értékelje a novemberi szavazás esélyét 10-től 1-ig terjedő skálán.0–8,9, 10

Egyes közvélemény-kutatók más típusú változókat alkalmaztak valószínű választói modelljeikben, beleértve a demográfiai jellemzőket, a pártosságot és az ideológiát. Az alábbiakban olyan modelleket értékelünk, amelyek ilyen típusú intézkedéseket is alkalmaznak.


Az itt tesztelt két további intézkedés egy nemzeti választói aktából származik. Ide tartoznak a múltbeli szavazatok mutatói (2012-ben és 2010-ben), valamint egy előre jelzett részvételi pontszám, amely szintetizálja a korábbi szavazási magatartást és egyéb tényezőket a becsült szavazás valószínűségének előidézése érdekében. Ezek az intézkedések szorosan kapcsolódnak a választói részvételhez. Az összes ilyen intézkedés részletes elemzése, valamint annak szoros összefüggése a választói részvétellel és a választás választásával e jelentés A. függelékében található.

Két tág megközelítést alkalmaznak a szavazás előrejelzésének előkészítéséhez olyan információkkal, mint a választások előtti információk, például a Perry-Gallup-kérdések vagy az ön által közölt múltbeli szavazási előzmények (Burden 1997).MeghatározóA módszerek az információkat arra használják, hogy az egyes felmérési válaszadókat valószínű választóként vagy nem szavazóként kategorizálják, jellemzően a választókat és a nem szavazókat felosztva egy küszöb vagy „cutoff” segítségével, amely megegyezik a választók részvételének előre jelzett arányával.ValószínűségiA módszerek ugyanazt az információt használják annak kiszámításához, hogy minden válaszadó szavazni fog. A valószínűségeket fel lehet használni a válaszadók súlyozására a szavazás valószínűsége alapján, vagy alapul szolgálhatnak a válaszadók rangsorolásához a cutoff megközelítéshez. Ez az elemzés mindkét megközelítés hatékonyságát vizsgálja.

A Perry-Gallup valószínű választói index

Mi van, ha a felmérés túl sok politikai elkötelezett embert tartalmaz?

A részvételi becslésnek a felmérés mintájára történő alkalmazásának egyik bonyodalma az a tény, hogy a választási közvélemény-kutatások általában felülreprezentálják a politikailag elkötelezett személyeket. Szükség lehet magasabb részvételi küszöbérték alkalmazására a küszöbérték meghatározásakor annak figyelembevételével, hogy a felmérés válaszadóinak nagyobb százaléka fordulhat ki, mint a lakosság. Sajnos nincs egyeztetett módszer ennek a kiigazításnak a végrehajtására, mivel a felmérés mennyiben felülreprezentálja a politikailag elkötelezetteket, vagy akár megváltoztatja a válaszadók viselkedését (pl. A választások iránti érdeklődésük növelésével), tanulmányonként eltérő lehet. tanulmány és nehéz megbecsülni.



Az itt használt adatok csak azokat tartalmazzák, akik regisztráltak szavazásra; következésképpen a megfelelő részvételi becslésnek ebben a mintában lényegesen magasabbnak kell lennie, mint a lakosság körében. Becslésünk szerint a jelentésben bemutatott szimulációk közül sok a regisztrált választók 60% -án lesz. Feltételezve, hogy a felnőttek 70% -át regisztrálták szavazásra, ez egyenlő a nagyközönség részvételének 42% -os előrejelzésével.5.

Ezekben az adatokban a részvételi arány 60% -os elvárása azt jelentette, hogy az összes válaszadót, aki a skálán 7-et ért el (az összes 48% -a), valószínű szavazóként kell besorolni, valamint a 6-osok súlyozott arányát (akik 15% -ot) a teljes összegből).


A Paul Perry által kifejlesztett eredeti módszert követve a Pew Research Center egyesíti az egyes felmérési elemeket egy olyan skála létrehozásával, amelyet azután a válaszadók valószínű szavazóként vagy nem szavazóként történő besorolására használnak. A hét kérdés mindegyikéhez egy válaszadó 1 pontot kap bizonyos válaszkategóriák kiválasztásához. Például „igen” válasz a következő kérdésre: „Szavazott-e valaha az Ön körzetében vagy választási körzetében”? 1 pontot kap a skálán. A fiatalabb válaszadók további pontokat kapnak, hogy elszámoljanak a múltbeli képtelenségükkel (a 20–21 éves válaszadók 1, a 18–19 éves válaszadók pedig 2 további pontot kapnak).6.Ezenkívül azokat, akik azt mondják, hogy „biztosan nem fognak” szavazni, vagy akiket nem regisztráltak a szavazásra, automatikusan a nulla a kód a skálán. Az itt tesztelt eljárás szerint az index 0 és 7 közötti értékű indexet eredményez, a legmagasabb értékek képviselik a legnagyobb szavazási valószínűséggel rendelkezőket.

A következő lépés az, hogy megbecsüljük a választásra valószínûleg szavazásra jogosult felnőttek százalékos arányát. Ez tipikusan a hasonló választásokon a korábbi részvételi arányok áttekintésén alapul, kiigazítva a jelenlegi kampányban a választói érdeklődés látszólagos szintjéről, a fajok versenyképességéről és a folyamatban lévő választói mozgósítás mértékéről szóló ítéletekhez. A becslést arra használják, hogy a választópolgárok skáláján „levágást” hozzanak létre, és a következő választások várható részvételi aránya alapján választják ki a legmagasabb pontszámú válaszadókat. Például, ha arra számítottunk, hogy a szavazásra jogosult népesség 40% -a szavaz (tipikus részvételi arány a félidős választásokon), akkor felmérésünk becsléseit a legmagasabb index-pontszámot elérő jogosult közönség 40% -ára alapozzuk.7A valóságban az arra jogosult felnőtt lakosság 36% -a jelent meg 2014-ben. A részvételi küszöb megválasztása nagyon fontos döntés, mivel a választók és a nem szavazók véleménye gyakran nagyon eltér egymástól, ahogy 2014-ben is történt. (Lásd a C. függeléket adatok a részvételi cél kiválasztásának jelentőségéről.)8.

A Perry-Gallup indexAz ehhez hasonló determinisztikus (vagy cutoff) módszerek sok tényleges szavazót elhagynak. Míg a skálán 6-os és 7-es kódolásúak nagy valószínűséggel szavaznak (az egyes csoportok 63% -át, illetve 83% -át validálták, hogy szavaztak), a 6 alatti pontszámot elérők között is sok tényleges szavazó van: Körülbelül ötöde (22 Az összes ellenőrzött szavazó% -a 0 és 5 közé esett. Természetesen a modell célja nem minden válaszadó besorolása, hanem a szavazatok pontos összesítése. De ha a helyesen besoroltak megoszlása ​​nem egyezik meg a tényleges választókkal, akkor a választási előrejelzés téves lesz.


Az előző ilyen típusú választásokon megfigyelt általános mintáknak megfelelően a skálán 7-es pontszámot kapott válaszadók a republikánusokat részesítik előnyben a demokraták jelöltjeivel szemben (50–44% -os különbséggel). Az 5. és 6. kategóriába tartozók többsége inkább a demokraták jelöltjeit részesíti előnyben. A legtöbb választáshoz hasonlóan az előre jelzett szavazatok pártos eloszlása ​​is nagymértékben függ attól, hogy hol húzza a határt a valószínű választói skála. Több szavazó bevonása általában demokratikusabbá teszi a teljes mintát, különösen az éven kívüli választásokon. Ezért kritikusak a módszer pontosságának megítélése arról, hogy hol alkalmazzák a határértéket.

Valószínűségi modellek

Ugyanezek az egyedi felmérési kérdések felhasználhatók olyan statisztikai modell létrehozására is, amely az egyes válaszadókhoz hozzárendel egy előre jelzett szavazási valószínűséget, valamint együtthatókat, amelyek azt mérik, hogy az egyes elemek mennyire korrelálnak a részvételi arányokkal. Ezeket az együtthatókat aztán más választásokon is fel lehet használni, amelyek ugyanazokat a kérdéseket teszik fel, hogy megteremtsék az egyes válaszadók várható szavazási valószínűségét, abból a feltételezésből kiindulva, hogy az érdeklődés kifejezésének, a múltbeli magatartásnak és a szándéknak ugyanolyan hatása van a választástól függetlenül. Az egyes elemek minden válaszlehetősége használható a modellben, vagy kódolhatók ugyanúgy, mint a Perry-Gallup módszerben. A bemenetek formájától függetlenül az eredmény eloszlás, minden válaszadó egy skálán kapott pontszámot, amely megfelel annak a valószínűségnek, hogy szavazni fog. Ha valakit 0,30 kategóriába sorolnak, akkor azt gondolják, hogy ennek a válaszadónak 30% esélye van a szavazásra.

Ennek a módszernek az egyik lehetséges előnye, hogy a felmérésben szereplő információk több részét felhasználhatja (az egyes kérdések mindegyik válaszkategóriáját, nem csak a kiválasztott egy vagy kettőt). Ez lehetőséget ad az olyan válaszadókra is, akiknek alacsonyabb az esélyük a szavazásra - akár életkoruk, a választások iránti folyamatos érdeklődés hiánya miatt, akár azért, mert egyszerűen elmulasztottak egy elmúlt választást -, hogy befolyásolják az eredményt, mivel tudjuk, hogy sokan alacsonyabb pontszámot értek el a skála valóban szavaz. Ezeket a válaszadókat addig számoljuk, amíg nullanál nagyobb esélyük van a szavazásra; egyszerűen kisebb súlyt kapnak az elemzésben, mint mások, akiknek nagyobb a valószínűsége a szavazásnak.

Ennek a módszernek az egyik lehetséges hátránya, hogy az előző választásokon kifejlesztett modellt alkalmazza a jelenlegi választásokon, azon a feltételezésen alapulva, hogy a részvétel és a legfontosabb előrejelzők kapcsolata a választások során azonos. Ebben a tanulmányban modelljeinket a 2014. évi választások szavazói részvételi adatainak felhasználásával építjük fel, és az eredményül kapott súlyokat visszamenőlegesen alkalmazzuk a várható 2014-es szavazás felmérési becslésének előállítására. Ennek eredményeként nem tudjuk tesztelni, hogy ezek a modellek mennyire teljesítenének a jövőbeli választásokon. A CBS News által használt valószínű választói modell, amely évtizedek óta alkalmazza a módszer variációit, arra utal, hogy az ilyen feltételezések ésszerűek. A célunk inkább a választói részvétel modellezésének valószínűségi és determinisztikus megközelítései közötti különbségek feltárása, és annak megismerése, hogy ezek a modellek mennyivel javultak, ha a választói fájlból vett információkat tartalmazzuk a korábbi szavazási magatartásról.


A valószínűségi modellek értékelése során egy „konyhai mosogató” modellt is teszteltünk, amely magában foglalja a hét Perry-Gallup-intézkedést, valamint számos demográfiai és politikai változót, beleértve az életkort, az iskolai végzettséget, a jövedelmet, a fajt / etnikumot, a pártállást, az ideológiai következetességet, otthoni tulajdonjog és a jelenlegi tartózkodási hely időtartama - mindazok a tényezők, amelyek köztudottan összefüggenek a választói részvétellel.

A valószínűségi megközelítések tesztelése során két módszert tártunk fel az előrejelzett valószínűségek létrehozására: logisztikai regressziót, egy közös modellező eszközt és egy gépi tanulási technikát, amelyet „véletlen erdőnek” nevezünk.

Amellett, hogy a megjósolt valószínűségeket súlyként használják, vágással is használhatók. A Perry-Gallup skálához hasonlóan a cut-off módszer is a legjobban elért válaszadókat valószínű szavazóknak számítaná, a többieket pedig figyelmen kívül hagyná. Például, feltételezve, hogy a regisztrált szavazók 60% -a jelentkezik, a modellek csak a válaszadók 60% -át foglalnák magukba, a várható szavazási valószínűség szerint rangsorolva.

Logisztikus regresszió

A Perry-Gallup hét tételes skálájához hasonló modell felépítéséhez ugyanazt a hét kérdést használták fel a választói elkötelezettségről, a korábbi szavazási magatartásról, a választói szándékról és a szavazás helyének ismeretéről. (A „konyhai mosogató” modell ezeket az elemeket a demográfiai és politikai változókkal együtt használta.) A kérdéseket előrejelzőként vezették be a modellbe anélkül, hogy kategóriákat kombináltak volna vagy összeomlottak volna. A változókat átméretezték, hogy 0 és 1 között változhassanak, a 'nem tudom' válaszokat nulla kódolással látták el.

Logisztikai regressziót hajtottunk végre a választói fájl ellenőrzött szavazásával, mint függő változóval. A regresszió megjósolja a szavazás valószínűségét az egyes válaszadók számára, és az együtthatókat az egyes mértékekre. A valószínűségeket ezután az alábbiakban ismertetett módon többféle módon alkalmazzák a választók előrejelzési modelljének elkészítéséhez. A későbbi választások során az ezekből a modellekből származó együtthatók felhasználhatók a korabeli felmérésekben szereplő válaszadók válaszaival annak érdekében, hogy minden egyes személy számára valószínűsítsék a szavazást. A Perry-Gallup megközelítéshez hasonlóan ez a módszer azt feltételezi, hogy a tanulmányban alkalmazott intézkedések ugyanolyan relevánsak a választók és a nem szavazók megkülönböztetéséhez a különféle választásokon.

Döntési fák és véletlenszerű erdők

Egy másik valószínűségi megközelítés magában foglalja a „döntési fák” használatát a változók legjobb konfigurációjának azonosítására az adott eredmény - ebben az esetben a szavazás és a nem szavazás - előrejelzéséhez. A tipikus döntési fa elemzés meghatározza az adatkészlet külön utakra vagy ágakra bontásának különféle módjait, az egyes változók opciói alapján. A döntési fa megközelítése javítható egy gépi tanulási technikával, amelyet „véletlenszerű erdőknek” neveznek. A véletlenszerű erdők nagyszámú fát alkalmaznak, amelyek az adatok véletlenszerű almintáihoz illeszkednek annak érdekében, hogy pontosabb előrejelzéseket nyújtsanak, mint amit egyetlen fa hozzáadásával kapnának az összes adathoz. A valószínűség becslésének klasszikus módszereivel, például a logisztikai regresszióval ellentétben, a véletlenszerű erdők jól teljesítenek nagyszámú prediktor változóval és komplex kölcsönhatások jelenlétében. A véletlenszerű erdő módszerét alkalmaztuk a szavazati valószínűségek kiszámításához, kezdve ugyanazokkal a változókkal, amelyeket a korábban leírt más módszerekben alkalmaztunk.

Amikor egyetlen döntési fa illeszkedik egy adatkészlethez, az algoritmus azzal kezdődik, hogy megkeresi az előrejelző változók közötti értéket, amely felhasználható az adatkészlet két, az eredményváltozó szempontjából leghomogénebb csoportra történő felosztására, ebben az esetben függetlenül attól, hogy senki sem szavazott a 2014-es választásokon. Ezeket az alcsoportokat csomópontoknak nevezzük, és a döntési fa algoritmus továbbhaladja az egyes csomópontokat fokozatosan egyre homogénebb csoportokba, amíg el nem érik a leállítási kritériumot. Az egyetlen dolog, ami egyedivé teszi a véletlenszerű erdő technikáját, az az, hogy az egyes csomópontok felosztása előtt az algoritmus kiválasztja a prediktor változók véletlenszerű részhalmazát, amelyeket jelöltként használnak az adatok felosztásához. Ez csökkenti az egyes fák közötti összefüggést, ami tovább csökkenti az előrejelzések szórását.

A statisztikai modellek előrejelzéshez történő felhasználása során fontos foglalkozni azzal a lehetőséggel, hogy a modellek túlteljesítik az adatokat - a véletlenszerű zaj helyett az értelmes jelet tükröző adatok megtalálási mintáit - ami csökkenti azok pontosságát más adathalmazokra alkalmazva. Ez kevésbé aggasztja a logisztikai regressziót, amely nem valószínű, hogy túlteljesítené, ha a minta nagysága a független változók számához képest nagy (mint itt). Devanaggodalomra ad okot olyan erőteljes gépi tanulási módszerek, mint a véletlenszerű erdők, amelyek aktívan keresik az adatok mintáit. A véletlenszerű erdők egyik előnye ebben a tekintetben az a tény, hogy minden fát az adatok különböző véletlenszerű almintájának felhasználásával építenek. Elemzésünk során az esetre vonatkozó előrejelzett valószínűségek csak azokon a fákon alapulnak, amelyeket részminták felhasználásával építettek, és amelyek ezt az esetet kizárták. Ennek az az eredménye, hogy a faépítési folyamat során bekövetkező túlterhelés nem terjed át az egyes esetekre alkalmazott pontszámokra.

Az itt tesztelt végső regresszió alapú módszer az, hogy a választói fájlok szállítója által létrehozott választói részvételi valószínűséget használnak előrejelzőként vagy súlyként. A TargetSmart szavazói fájl tartalmazza a Clarity Campaign Labs által kidolgozott 2014-es részvétel valószínűségi pontszámát. Ez a pontszám 0 és 1 között mozog, és a 2014-es általános választásokon való szavazás valószínűségének értelmezhető.

A következő szakaszban közölt statisztikai elemzés az ellenőrzött szavazást használja a részvétel mértékeként. A mintába bejegyzett választópolgárok közül 63% -uk rendelkezik szavazói dossziéval, amely jelzi, hogy 2014-ben szavaztak. Az önjelölt szavazás gyakoribb volt; A regisztrált választók 75% -a azt mondta, hogy kiderült. A B. függelék az igazolt szavazás és az ön által bejelentett szavazás használatának előnyeit és hátrányait tárgyalja.