IniziaInizia gratis

Regola empirica

Molte statistiche usate nell'analisi dei dati (inclusi sia la media campionaria sia la proporzione campionaria) hanno proprietà utili per comprendere meglio il/i parametro/i di popolazione di interesse.

Una di queste proprietà è che, se la variabilità della proporzione campionaria (chiamata errore standard, o \(SE\)) è nota, allora circa il 95% dei valori di \(\hat{p}\) (provenienti da campioni diversi) cadrà entro \(2SE\) dalla vera proporzione di popolazione.

Per verificare se questo vale nel caso in esame, torniamo ai sondaggi generati prelevando molti campioni dalla stessa popolazione.

Il dataset all_polls contiene 1000 campioni di dimensione 30 da una popolazione con probabilità di voto per il Candidato X pari a 0,6.

Nota che userai la funzione R sd() che calcola la variabilità di un insieme di numeri. In statistica, quando sd() viene applicata a una variabile (ad es., prezzo delle case) la chiamiamo deviazione standard. Quando sd() viene applicata a una statistica (ad es., un insieme di proporzioni campionarie) la chiamiamo errore standard.

Questo esercizio fa parte del corso

Fondamenti di inferenza in R

Visualizza il corso

Istruzioni dell'esercizio

  • Esegui il codice per generare props, la proporzione di persone che prevedono di votare sì in ciascun sondaggio. Questo si basa su ex1_props degli esercizi precedenti.
  • Aggiungi una colonna, is_in_conf_int, che sia TRUE quando la proporzione campionaria di voti sì dista meno di 2 errori standard dalla vera proporzione di popolazione di voti sì. Cioè, la differenza abs()oluta tra prop_yes e true_prop_yes è minore del doppio di sd() di prop_yes.
  • Calcola la proporzione delle statistiche campionarie che rientrano nell'intervallo di confidenza, prop_in_conf_int, prendendo la mean() di is_in_conf_int.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Proportion of yes votes by poll
props <- all_polls %>% 
  group_by(poll) %>% 
  summarize(prop_yes = mean(vote == "yes"))

# The true population proportion of yes votes
true_prop_yes <- 0.6

# Proportion of polls within 2SE
props %>%
  # Add column: is prop_yes in 2SE of 0.6
  mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
  # Calculate  proportion in conf int
  summarize(prop_in_conf_int = ___(___))
Modifica ed esegui il codice