Vuistregel (Empirical Rule)
Veel statistieken die we in data-analyse gebruiken (waaronder zowel het steekproefgemiddelde als de steekproefproportie) hebben fijne eigenschappen die helpen om de populatieparameter(s) van interesse beter te begrijpen.
Eén zo’n eigenschap is dat, als de spreiding van de steekproefproportie (de standaardfout, of \(SE\)) bekend is, ongeveer 95% van de \(\hat{p}\)-waarden (uit verschillende steekproeven) binnen \(2SE\) van de echte populatieproportie zal liggen.
Om te controleren of dat hier ook geldt, gaan we terug naar de peilingen die zijn gegenereerd door veel steekproeven uit dezelfde populatie te nemen.
De gegevensset all_polls bevat 1000 steekproeven van grootte 30 uit een populatie met een kans van 0,6 om op Kandidaat X te stemmen.
Let op: je gebruikt de R-functie sd() die de spreiding van een reeks getallen berekent. In de statistiek noemen we het de standaarddeviatie wanneer sd() wordt toegepast op een variabele (bijv. huizenprijs). Wanneer sd() wordt toegepast op een statistiek (bijv. een reeks steekproefproporties) noemen we het de standaardfout.
Deze oefening maakt deel uit van de cursus
Basis van inferentie in R
Oefeninstructies
- Voer de code uit om
propste maken: de proportie personen die in elke peiling van plan zijn om ja te stemmen. Dit is gebaseerd opex1_propsuit eerdere oefeningen. - Voeg een kolom toe,
is_in_conf_int, dieTRUEis wanneer de geobserveerde steekproefproportie ja-stemmen minder dan2standaardfouten afwijkt van de echte populatieproportie ja-stemmen. Dus: hetabs()olute verschil tussenprop_yesentrue_prop_yesis kleiner dan twee keersd()vanprop_yes. - Bereken de proportie steekproefstatistieken die in het betrouwbaarheidsinterval vallen,
prop_in_conf_int, door demean()vanis_in_conf_intte nemen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Proportion of yes votes by poll
props <- all_polls %>%
group_by(poll) %>%
summarize(prop_yes = mean(vote == "yes"))
# The true population proportion of yes votes
true_prop_yes <- 0.6
# Proportion of polls within 2SE
props %>%
# Add column: is prop_yes in 2SE of 0.6
mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
# Calculate proportion in conf int
summarize(prop_in_conf_int = ___(___))