IniziaInizia gratis

Intervallo t di confidenza con bootstrap

I precedenti esercizi ti hanno mostrato due cose:

  1. Puoi misurare la variabilità associata a \(\hat{p}\) ricampionando dal campione originale.
  2. Una volta che conosci la variabilità di \(\hat{p}\), puoi usarla per valutare quanto è distante la vera proporzione.

Nota che il tasso di vicinanza (qui 95%) indica ogni quanto spesso un campione viene scelto in modo che sia vicino al parametro della popolazione. Non saprai mai se un particolare insieme di dati è vicino o lontano dal parametro, ma sai che, nel lungo periodo, il 95% dei campioni che raccogli dovrebbe darti stime entro \(2SE\) dal vero parametro della popolazione.

I voti di un singolo sondaggio, one_poll, e i dati da 1000 ricampionamenti bootstrap, one_poll_boot, sono disponibili nel tuo workspace. Sono basati sull'Esperimento 2 visto in precedenza nel capitolo.

Come nell'esercizio precedente, quando parliamo della variabilità di una statistica, il valore è chiamato errore standard.

Questo esercizio fa parte del corso

Fondamenti di inferenza in R

Visualizza il corso

Istruzioni dell'esercizio

  • Calcola \(\hat{p}\) e assegna il risultato a p_hat. Nella chiamata a summarize(), calcola stat come la media di vote uguale a "yes".
  • Trova un intervallo di valori plausibili per il vero parametro calcolando \(\hat{p} \pm 2SE\).
    • Il limite lower dell'intervallo di confidenza è p_hat meno due volte l'errore standard di stat. Usa sd() per calcolare l'errore standard.
    • Il limite upper è p_hat più due volte l'errore standard di stat.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# From previous exercises
one_poll <- all_polls %>%
  filter(poll == 1) %>%
  select(vote)
one_poll_boot <- one_poll %>%
  specify(response = vote, success = "yes") %>%
  generate(reps = 1000, type = "bootstrap") %>% 
  calculate(stat = "prop")
  
p_hat <- one_poll %>%
  # Calculate proportion of yes votes
  summarize(stat = ___) %>%
  pull()

# Create an interval of plausible values
one_poll_boot %>%
  summarize(
    # Lower bound is p_hat minus 2 std errs
    lower = ___,
    # Upper bound is p_hat plus 2 std errs
    upper = ___
  )
Modifica ed esegui il codice