Regola empirica
Molte statistiche usate nell'analisi dei dati (inclusi sia la media campionaria sia la proporzione campionaria) hanno proprietà utili per comprendere meglio il/i parametro/i di popolazione di interesse.
Una di queste proprietà è che, se la variabilità della proporzione campionaria (chiamata errore standard, o \(SE\)) è nota, allora circa il 95% dei valori di \(\hat{p}\) (provenienti da campioni diversi) cadrà entro \(2SE\) dalla vera proporzione di popolazione.
Per verificare se questo vale nel caso in esame, torniamo ai sondaggi generati prelevando molti campioni dalla stessa popolazione.
Il dataset all_polls contiene 1000 campioni di dimensione 30 da una popolazione con probabilità di voto per il Candidato X pari a 0,6.
Nota che userai la funzione R sd() che calcola la variabilità di un insieme di numeri. In statistica, quando sd() viene applicata a una variabile (ad es., prezzo delle case) la chiamiamo deviazione standard. Quando sd() viene applicata a una statistica (ad es., un insieme di proporzioni campionarie) la chiamiamo errore standard.
Questo esercizio fa parte del corso
Fondamenti di inferenza in R
Istruzioni dell'esercizio
- Esegui il codice per generare
props, la proporzione di persone che prevedono di votare sì in ciascun sondaggio. Questo si basa suex1_propsdegli esercizi precedenti. - Aggiungi una colonna,
is_in_conf_int, che siaTRUEquando la proporzione campionaria di voti sì dista meno di2errori standard dalla vera proporzione di popolazione di voti sì. Cioè, la differenzaabs()oluta traprop_yesetrue_prop_yesè minore del doppio disd()diprop_yes. - Calcola la proporzione delle statistiche campionarie che rientrano nell'intervallo di confidenza,
prop_in_conf_int, prendendo lamean()diis_in_conf_int.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Proportion of yes votes by poll
props <- all_polls %>%
group_by(poll) %>%
summarize(prop_yes = mean(vote == "yes"))
# The true population proportion of yes votes
true_prop_yes <- 0.6
# Proportion of polls within 2SE
props %>%
# Add column: is prop_yes in 2SE of 0.6
mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
# Calculate proportion in conf int
summarize(prop_in_conf_int = ___(___))