Aan de slagGa gratis aan de slag

Vuistregel (Empirical Rule)

Veel statistieken die we in data-analyse gebruiken (waaronder zowel het steekproefgemiddelde als de steekproefproportie) hebben fijne eigenschappen die helpen om de populatieparameter(s) van interesse beter te begrijpen.

Eén zo’n eigenschap is dat, als de spreiding van de steekproefproportie (de standaardfout, of \(SE\)) bekend is, ongeveer 95% van de \(\hat{p}\)-waarden (uit verschillende steekproeven) binnen \(2SE\) van de echte populatieproportie zal liggen.

Om te controleren of dat hier ook geldt, gaan we terug naar de peilingen die zijn gegenereerd door veel steekproeven uit dezelfde populatie te nemen.

De gegevensset all_polls bevat 1000 steekproeven van grootte 30 uit een populatie met een kans van 0,6 om op Kandidaat X te stemmen.

Let op: je gebruikt de R-functie sd() die de spreiding van een reeks getallen berekent. In de statistiek noemen we het de standaarddeviatie wanneer sd() wordt toegepast op een variabele (bijv. huizenprijs). Wanneer sd() wordt toegepast op een statistiek (bijv. een reeks steekproefproporties) noemen we het de standaardfout.

Deze oefening maakt deel uit van de cursus

Basis van inferentie in R

Cursus bekijken

Oefeninstructies

  • Voer de code uit om props te maken: de proportie personen die in elke peiling van plan zijn om ja te stemmen. Dit is gebaseerd op ex1_props uit eerdere oefeningen.
  • Voeg een kolom toe, is_in_conf_int, die TRUE is wanneer de geobserveerde steekproefproportie ja-stemmen minder dan 2 standaardfouten afwijkt van de echte populatieproportie ja-stemmen. Dus: het abs()olute verschil tussen prop_yes en true_prop_yes is kleiner dan twee keer sd() van prop_yes.
  • Bereken de proportie steekproefstatistieken die in het betrouwbaarheidsinterval vallen, prop_in_conf_int, door de mean() van is_in_conf_int te nemen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Proportion of yes votes by poll
props <- all_polls %>% 
  group_by(poll) %>% 
  summarize(prop_yes = mean(vote == "yes"))

# The true population proportion of yes votes
true_prop_yes <- 0.6

# Proportion of polls within 2SE
props %>%
  # Add column: is prop_yes in 2SE of 0.6
  mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
  # Calculate  proportion in conf int
  summarize(prop_in_conf_int = ___(___))
Code bewerken en uitvoeren